NVIDIA открывает исходный код для моделей Canary 1B и 180M Flash

Новости

Открытый доступ к моделям Canary 1B и 180M Flash от NVIDIA AI

В области искусственного интеллекта многоязычное распознавание речи и перевод становятся важнейшими инструментами для содействия глобальной коммуникации. Однако разработка моделей, которые могут точно транскрибировать и переводить несколько языков в реальном времени, представляет собой значительные вызовы. Эти вызовы включают управление различными лингвистическими нюансами, поддержку высокой точности, обеспечение низкой задержки и эффективное развертывание моделей на различных устройствах.

Два открытых исходных кода от NVIDIA AI

Чтобы решить эти задачи, NVIDIA AI открыла исходный код для двух моделей: Canary 1B Flash и Canary 180M Flash. Эти модели предназначены для многоязычного распознавания речи и перевода, поддерживая такие языки, как английский, немецкий, французский и испанский. Вышедшие под лицензией CC-BY-4.0, они доступны для коммерческого использования, что поощряет инновации в AI-сообществе.

Техническая сторона моделей

Технически обе модели используют архитектуру кодировщик-декодировщик. Кодировщик основан на FastConformer, который эффективно обрабатывает аудиофункции, а Transformer Decoder управляет генерацией текста. Управляющие токены для задач, включая , , и (пунктуация и заглавные буквы), направляют вывод модели. Модель Canary 1B Flash включает 32 слоя кодировщика и 4 слоя декодировщика, всего 883 миллиона параметров, тогда как модел Canary 180M Flash насчитывает 17 слоев кодировщика и 4 слоя декодировщика, всего 182 миллиона параметров. Такой дизайн обеспечивает масштабируемость и адаптацию к различным языкам и задачам.

Показатели производительности моделей

Показатели производительности указывают, что модель Canary 1B Flash достигает скорости вывода более 1000 RTFx на открытых наборах данных ASR, что позволяет осуществлять обработку в реальном времени. В задачах автоматического распознавания речи (ASR) на английском языке модель достигает уровня ошибок слов (WER) в 1,48% для набора данных Librispeech Clean и 2,87% для набора данных Librispeech Other. В многоязычном ASR модель достигает WER в 4,36% для немецкого, 2,69% для испанского и 4,47% для французского на тестовом наборе MLS. В задачах автоматического перевода речи (AST) модель демонстрирует отличные результаты с BLEU баллами 32,27 для перевода с английского на немецкий, 22,6 для перевода с английского на испанский и 41,22 для перевода с английского на французский на тестовом наборе FLEURS.

Результаты модели Canary 180M Flash

Меньшая модель Canary 180M Flash также показывает впечатляющие результаты, с превышением скорости вывода 1200 RTFx. Она достигает уровня ошибок слов (WER) в 1,87% для данных Librispeech Clean и 3,83% для Librispeech Other на английском ASR. В многоязычном ASR модель фиксирует WER в 4,81% для немецкого, 3,17% для испанского и 4,75% для французского на тестовом наборе MLS. В задачах AST она достигает BLEU баллов 28,18 для перевода с английского на немецкий, 20,47 для перевода с английского на испанский и 36,66 для перевода с английского на французский на тестовом наборе FLEURS.

Преимущества открытого исходного кода

Обе модели поддерживают временные отметки на уровне слова и сегмента, что увеличивает их полезность в приложениях, требующих точного соответствия между аудио и текстом. Их компактные размеры делают их подходящими для развертывания на устройствах, что позволяет осуществлять оффлайн обработку и уменьшает зависимость от облачных сервисов. Более того, их устойчивость приводит к меньшему количеству ошибок в заданиях перевода, обеспечивая более надежные результаты. Открытый выпуск под лицензией CC-BY-4.0 побуждает к коммерческому использованию и дальнейшему развитию сообществом.

Заключение

В заключение, открытие NVIDIA моделей Canary 1B и 180M Flash является значительным шагом вперед в многоязычном распознавании и переводе речи. Их высокая точность, возможности обработки в реальном времени и адаптивность для развертывания на устройствах решают множество существующих задач в этой области. Сделав эти модели общедоступными, NVIDIA демонстрирует свою приверженность развитию AI-исследований, а также дает возможность разработчикам и организациям создавать более инклюзивные и эффективные инструменты коммуникации.

admin
Оцените автора
CheatGPT
Добавить комментарий