Содержание
Технологические достижения в области разговорного ИИ
Фирма Sesame реализует ориентацию на человеческое звучание в своих AI-решениях, разработав модель, имитирующую естественную шкворчащую речь. Используя архитектуру Llama от Meta, они создали Conversational Speech Model (CSM), которая обрабатывает текст и звук одновременно, достигая уровня реализма, способного вводить в заблуждение.
Технические особенности
Модель использует нейронную сеть с 8,3 миллиардами параметров. CSM базируется на двух связанных AI-моделях, делая текст и звук однородными. Примечательно, что в рамках слепых тестов эксперты не могли отличить сгенерированные системы и записи реальных людей.
Кусочки неперфекций, которые придают естественность
- Паузы для раздумий перед ответом
- Запинки и самопоправки
- Использование наполнителей, таких как «э» и «мм»
- Изменение фраз в середине предложения
- Извинения при случайном прерывании
Эти добавленные имперфекции создают более правдоподобное взаимодействие с искусственным интеллектом, приближая его к человеческому.








