Голосовой помощник Sesame AI с почти человеческим голосом

Новости

Технологические достижения в области разговорного ИИ

Фирма Sesame реализует ориентацию на человеческое звучание в своих AI-решениях, разработав модель, имитирующую естественную шкворчащую речь. Используя архитектуру Llama от Meta, они создали Conversational Speech Model (CSM), которая обрабатывает текст и звук одновременно, достигая уровня реализма, способного вводить в заблуждение.

Технические особенности

Модель использует нейронную сеть с 8,3 миллиардами параметров. CSM базируется на двух связанных AI-моделях, делая текст и звук однородными. Примечательно, что в рамках слепых тестов эксперты не могли отличить сгенерированные системы и записи реальных людей.

Кусочки неперфекций, которые придают естественность

  • Паузы для раздумий перед ответом
  • Запинки и самопоправки
  • Использование наполнителей, таких как «э» и «мм»
  • Изменение фраз в середине предложения
  • Извинения при случайном прерывании

Эти добавленные имперфекции создают более правдоподобное взаимодействие с искусственным интеллектом, приближая его к человеческому.

admin
Оцените автора
CheatGPT
Добавить комментарий