Преобразование генерации речи: роль датасета Emilia в развитии мультиязычного синтеза естественных голосов
Технология генерации речи значительно продвинулась в последние годы, однако перед исследователями по-прежнему стоят серьезные вызовы. Обычные системы «текст в речь» часто базируются на датасетах, полученных из аудиокниг. Хотя эти записи предоставляют качественный звук, они, как правило, фиксируют формальный, начитанный стиль, который редко соответствует богатым речевым паттернам повседневного общения. Настоящая речь естественно спонтанна и наполнена нюансами—перекрывающиеся говорящие, разнообразные интонации и фоновые звуки, которые редко встречаются в студийной записи. Сбор спонтанной речи в повседневной жизни приводит к своим проблемам, например, непоследовательное качество звука и отсутствие точных транскрипций. Решение этих вопросов необходимо для создания систем, которые смогут действительно воспроизвести естественный поток человеческого разговора.
Введение в датасет Emilia
Emilia значимо продвинула исследование в области генерации речи. Вместо того чтобы полагаться только на студийные записи, Emilia использует речевые данные из окружающего мира, собранные из таких разнообразных источников, как видео платформы, подкасты, интервью и дебаты. Этот датасет содержит более 101 000 часов речи на шести языках—английском, китайском, немецком, французском, японском и корейском—предоставляя более широкий и более реалистичный спектр человеческой речи.
Технические детали создания датасета с помощью Emilia-Pipe
- Стандартизация: Все сырые аудио образцы преобразуются в единый формат WAV с моно каналом и перекомпоновываются до частоты 24 кГц.
- Разделение источников: Используются методы разделения источников для изоляции человеческой речи от фона.
- Диаризация говорящих: Для сегментации аудиопотоков в сегменты отдельных говорящих применяется передовая диаризация.
- Тонкая сегментация: Модель VAD сегментирует аудиоданные на части пролностью от 3 до 30 секунд.
- Автоматическое распознавание речи (ASR): Эмплоим модели типа Whisper для надежной и быстрой транскрипции.
- Фильтрация: Применяется фильтрация на основании идентификации языка, качества речи и фонетической консистентности.
Исследовательские инсайты и выводы
Эффективность датасета Emilia подтверждается серией сравнительных исследований с традиционными датасетами на базе аудиокниг. Модели, обученные на Emilia, показали улучшение по таким метрикам, как словарная ошибка (WER), сходство говорящего (S-SIM), и расстояние Фриджета для речи (FSD), а также благодаря субъективным тестам.
Важно отметить, что увеличение объёма данных от меньших подмножеств до полной версии Emilia постоянно улучшает производительность модели. Особую ценность приносит мультиязычность Emilia, что позволяет обучать модели на нескольких языках, несмотря на небольшой компромисс в производительности.
Заключение
Датасет Emilia и его процессинговый конвейер Emilia-Pipe предлагаю реалистичный и разнообразный спектр человеческой речи. Благодаря данному систематическому подходу, модели могут работать с записями, которые отражают подлинные взаимодействия, а не идеальные студийные условия. Это является значительным шагом вперед в технологиях синтеза естественной речи.








