Актуализация модели трансляции и генерации голоса от OpenAI
OpenAI представила в своем API новые модели для обработки текстов и генерации речи, которые превосходят предыдущие версии. Эти модели соответствуют широкой «агентной» концепции компании, направленной на создание автоматических систем, способных выполнять задачи от лица пользователей. Несмотря на разногласия в определении понятия «агент», глава продуктов OpenAI Оливье Годман описал один из примеров использования таких агентов — чатбот, общающийся с клиентами компании.
Новые возможности для пользователей и разработчиков
«Мы увидим все больше агентов в ближайшие месяцы», — заявил Годман. «Главная тема заключается в содействии клиентам и разработчикам использовать полезных, доступных и точных агентов». OpenAI утверждает, что их новая модель преобразования текста в речь, «gpt-4o-mini-tts», не только обеспечивает более нюансированную и реалистичную речь, но и лучше поддается управлению по сравнению с предыдущими моделями синтезирования речи. Разработчики могут указать gpt-4o-mini-tts, как именно говорить фразами на естественном языке — например, «говори как сумасшедший ученый» или «используй спокойный голос, как учитель медитации».
Новые модели для преобразования речи в текст
В отношении новых моделей преобразования речи в текст от OpenAI, «gpt-4o-transcribe» и «gpt-4o-mini-transcribe», они эффективно заменяют устаревшую модель Whisper. Обученные на разнородных звуковых наборах данных высокого качества, новые модели могут лучше улавливать акцентированную и разнообразную речь. Представитель OpenAI Джефф Харрис добавил, что они также менее склонны к генерации фиктивных данных. Whisper часто создавал неверные слова и даже целые пассы в разговорах, включая расовые комментарии и воображаемые медицинские лечения.
Точность и доступность новых моделей
«Эти модели значительно улучшены по сравнению с Whisper», — отметил Харрис. «Обеспечение точности моделей критически важно для получения надежного голосового взаимодействия, при этом точность подразумевает, что модели точно слышат слова и не добавляют дополнительные детали, которых они не слышали». Однако ваша точность может варьироваться в зависимости от языка, переработанного. Согласно внутренним тестам OpenAI, gpt-4o-transcribe, более точная из двух моделей, имеет процент ошибок в словах, достигающий 30% (из 120%) для индийских и дравидийских языков, таких как тамильский, телугу, малаялам и каннада. Это означает, что три из каждых десяти слов будут отличаться от человеческой транскрипции в этих языках.
Коммерческая доступность новинок
В отличие от предыдущей практики, OpenAI не планирует открыто предоставлять свои новые модели для транскрипции. Компания ранее выпускала новые версии Whisper для коммерческого использования под лицензией MIT. Харрис отметил, что модели gpt-4o-transcribe и gpt-4o-mini-transcribe «значительно больше» Whisper и поэтому не подходят для открытого релиза.








