Исследователи из Dataocean AI и Университета Цинхуа представляют Dolphin: многоязычную модель ASR, оптимизированную для восточных языков и диалектов

Новости

Введение

Технологии автоматического распознавания речи (ASR) значительно продвинулись вперед, однако остаются значительные различия в их способности точно распознавать разнообразные языки. Известные системы ASR, такие как Whisper от OpenAI, демонстрируют заметные расхождения в производительности при обработке восточных языков по сравнению с западными аналогами.

Проблемы и решения

Эта разница представляет собой ощутимые вызовы в многоязычных регионах, особенно в районах с множеством диалектов и языковых вариаций, подчеркивая необходимость создания сложных многоязычных систем ASR, специально адаптированных для восточных языков. Исследователи из Dataocean AI и Университета Цинхуа представили Dolphin, комплексную модель многоязычного автоматического распознавания речи, построенную на расширенной архитектуре Whisper, оптимизированную для более широкого спектра восточных языков и диалектов.

Особенности модели Dolphin

Dolphin эффективно устраняет ключевые ограничения текущих многоязычных моделей ASR, интегрируя как собственные, так и общедоступные наборы данных. Модель поддерживает 40 восточных языков из Восточной Азии, Южной Азии, Юго-Восточной Азии и Ближнего Востока, а также 22 различных диалекта китайского языка.

Dolphin использует гибридный подход ASR, сочетающий классификацию темпорального соединителя (CTC) с механизмами внимания. Ее архитектура включает кодеры E-Branchformer и декодер Transformer, значительно улучшая способность модели интерпретировать сложные языковые узоры в различных языках.

Преимущества и производительность

Dolphin также использует двухуровневую систему токенизации языков, отличая коды общего языка от регионально-специфичных токенов диалектов. Этот механизм улучшает точность и разрешение распознавания, особенно для языков с интенсивным использованием диалектов, таких как китайский.

Кроме того, Dolphin включает слой 4× субдискретизации для эффективного уменьшения длин последовательностей ввода, повышая скорость вычислений и эффективность обучения без ущерба для точности распознавания. Экспериментальные оценки показывают значительное улучшение точности многоязычного распознавания речи модели Dolphin по сравнению с моделями Whisper.

Экспериментальные результаты

Например, небольшая модель Dolphin снизила уровень ошибок слов (WER) примерно на 24,5% по сравнению с базовой моделью, с последующими инкрементными улучшениями в средних и крупных вариантах. В частности, базовая модель Dolphin достигла среднего значения WER 31,8%, значительно превзойдя большую модель Whisper-v3, которая зафиксировала средний WER 52,3% на тех же тестах оценки.

Публикация моделей и открытые данные

Оценки, проведенные на наборах данных, ориентированных на диалекты, включая KeSpeech, подтвердили способность модели Dolphin стабильно обрабатывать сложные языковые вариации, причем улучшения производительности положительно коррелируют с увеличением размера модели.

Исследовательская команда опубликовала базовые и малые модели Dolphin публично по лицензии Apache 2.0 вместе с соответствующим кодом для вывода.

Заключение

Dolphin представляет собой значительный шаг вперед в технологии многоязычного ASR, систематически устраняя существующие ограничения в распознавании восточных языков и диалектов через методологическую интеграцию данных, улучшенные архитектурные рамки и приверженность открытому исходному коду. Эта работа устанавливает влиятельный ориентир для будущих разработок в области исследований многоязычных ASR, продвигая языковую инклюзивность и общую адаптивность систем.

admin
Оцените автора
CheatGPT
Добавить комментарий