OpenAI улучшает свои модели для транскрипции и генерации речи

Новости

OpenAI обновляет свои AI модели

OpenAI представляет новые модели, которые улучшают транскрипцию и генерацию речи. Эти модели соответствуют широкой «агентственной» визии OpenAI, предполагающей создание автоматизированных систем, которые могут независимо выполнять задачи для пользователей. По словам Оливье Годемента, главы продукта Опенэай, эта визия предполагает создание чатботов, способных общаться с клиентами бизнеса.

Новые возможности моделей

OpenAI утверждает, что новая модель преобразования текста в речь, «gpt-4o-mini-tts», обеспечивает более детализированную и реалистичную звучащую речь, чем предыдущие модели. Разработчики могут управлять тем, как произносить фразы, например, «говори как сумасшедший ученый» или «используй спокойный голос, как учитель по внимательности».

Улучшенные модели речи

Новые модели Open AI для преобразования речи в текст, «gpt-4o-transcribe» и «gpt-4o-mini-transcribe», заменяют модель Whisper. Эти модели, обученные на разнообразных наборах аудиоданных, способны лучше улавливать акценты и вариативную речь, даже в хаотичных условиях. Уровень ошибок варьируется в зависимости от языка, с которым работают модели, однако OpenAI стремится к точности.

Доступность и открытость

В отличие от предыдущих моделей, OpenAI не планирует открыто предоставлять свои новые модели транскрипции. Компания считает, что они не предназначены для локального использования и должны быть реализованы с учётом конкретных нужд. Open AI сосредоточена на предоставлении возможностей для конечных пользователей.

admin
Оцените автора
CheatGPT
Добавить комментарий