Открытый доступ к моделям Canary 1B и 180M Flash от NVIDIA AI
В области искусственного интеллекта многоязычное распознавание речи и перевод становятся важнейшими инструментами для содействия глобальной коммуникации. Однако разработка моделей, которые могут точно транскрибировать и переводить несколько языков в реальном времени, представляет собой значительные вызовы. Эти вызовы включают управление различными лингвистическими нюансами, поддержку высокой точности, обеспечение низкой задержки и эффективное развертывание моделей на различных устройствах.
Два открытых исходных кода от NVIDIA AI
Чтобы решить эти задачи, NVIDIA AI открыла исходный код для двух моделей: Canary 1B Flash и Canary 180M Flash. Эти модели предназначены для многоязычного распознавания речи и перевода, поддерживая такие языки, как английский, немецкий, французский и испанский. Вышедшие под лицензией CC-BY-4.0, они доступны для коммерческого использования, что поощряет инновации в AI-сообществе.
Техническая сторона моделей
Технически обе модели используют архитектуру кодировщик-декодировщик. Кодировщик основан на FastConformer, который эффективно обрабатывает аудиофункции, а Transformer Decoder управляет генерацией текста. Управляющие токены для задач, включая
Показатели производительности моделей
Показатели производительности указывают, что модель Canary 1B Flash достигает скорости вывода более 1000 RTFx на открытых наборах данных ASR, что позволяет осуществлять обработку в реальном времени. В задачах автоматического распознавания речи (ASR) на английском языке модель достигает уровня ошибок слов (WER) в 1,48% для набора данных Librispeech Clean и 2,87% для набора данных Librispeech Other. В многоязычном ASR модель достигает WER в 4,36% для немецкого, 2,69% для испанского и 4,47% для французского на тестовом наборе MLS. В задачах автоматического перевода речи (AST) модель демонстрирует отличные результаты с BLEU баллами 32,27 для перевода с английского на немецкий, 22,6 для перевода с английского на испанский и 41,22 для перевода с английского на французский на тестовом наборе FLEURS.
Результаты модели Canary 180M Flash
Меньшая модель Canary 180M Flash также показывает впечатляющие результаты, с превышением скорости вывода 1200 RTFx. Она достигает уровня ошибок слов (WER) в 1,87% для данных Librispeech Clean и 3,83% для Librispeech Other на английском ASR. В многоязычном ASR модель фиксирует WER в 4,81% для немецкого, 3,17% для испанского и 4,75% для французского на тестовом наборе MLS. В задачах AST она достигает BLEU баллов 28,18 для перевода с английского на немецкий, 20,47 для перевода с английского на испанский и 36,66 для перевода с английского на французский на тестовом наборе FLEURS.
Преимущества открытого исходного кода
Обе модели поддерживают временные отметки на уровне слова и сегмента, что увеличивает их полезность в приложениях, требующих точного соответствия между аудио и текстом. Их компактные размеры делают их подходящими для развертывания на устройствах, что позволяет осуществлять оффлайн обработку и уменьшает зависимость от облачных сервисов. Более того, их устойчивость приводит к меньшему количеству ошибок в заданиях перевода, обеспечивая более надежные результаты. Открытый выпуск под лицензией CC-BY-4.0 побуждает к коммерческому использованию и дальнейшему развитию сообществом.
Заключение
В заключение, открытие NVIDIA моделей Canary 1B и 180M Flash является значительным шагом вперед в многоязычном распознавании и переводе речи. Их высокая точность, возможности обработки в реальном времени и адаптивность для развертывания на устройствах решают множество существующих задач в этой области. Сделав эти модели общедоступными, NVIDIA демонстрирует свою приверженность развитию AI-исследований, а также дает возможность разработчикам и организациям создавать более инклюзивные и эффективные инструменты коммуникации.








