Sesame выпускает свою базовую AI модель

Новости

Sesame выпускает свою базовую AI модель

Компания AI Sesame выпустила базовую модель, которая управляет виртуальным ассистентом Maya. Модель, размер которой составляет 1 миллиард параметров (параметры относятся к индивидуальным компонентам модели), распространяется под лицензией Apache 2.0, что означает возможность коммерческого использования с минимальными ограничениями.

Модель получила название CSM-1B и способна генерировать «RVQ аудио коды» из текстовых и аудиовходов согласно описанию Sesame на платформе AI разработки Hugging Face. RVQ относится к «остаточной векторной квантизации», технике кодирования аудио в дискретные токены, называемые кодами. RVQ используется в ряде последних аудиотехнологий AI, включая SoundStream от Google и Encodec от Meta. CSM-1B использует модель из семейства Llama от Meta в качестве основы с компонентом «декодера» аудио. Согласно заявлению Sesame, усовершенствованный вариант CSM питает Maya.

Описание модели CSM-1B

«Открытая модель, представляемая здесь, является базовой моделью генерации», пишет Sesame в репозиториях Hugging Face и GitHub CSM-1B. «Она способна производить различные голоса, но не была настроена специально на конкретный голос […] Модель обладает некоторыми возможностями для неанглийских языков из-за загрязнения данных в тренировочных данных, но вряд ли будет работать хорошо.»

Прозрачность и этика использования

Неясно, какие данные использовала Sesame для обучения CSM-1B. Компания не предоставила этой информации. Стоит отметить, что у модели нет реальных защитных механизмов. Sesame имеет систему чести и просто призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, такого как ложные новости, или участия в «вредных» или «злонамеренных» действиях.

Я попробовал демо на Hugging Face, и на клонирование моего голоса ушло менее минуты. Затем было легко генерировать речь по своему желанию, включая на такие спорные темы, как выборы и российская пропаганда. Consumer Reports недавно предупредила, что многие популярные инструменты клонирования голосов на основе AI на рынке не имеют «значимых» защит для предотвращения мошенничества или злоупотреблений.

Будущее технологии виртуальных ассистентов

Sesame, сооснователем которой является со-творец Oculus Брендан Ирибе, стала вирусной в конце февраля благодаря своей технологии ассистента, которая близка к преодолению порога «зловещей долины». Maya и другой ассистент Sesame, Miles, делают вдохи и говорят с нелегкостью, и могут быть прерваны во время речи, как и Voice Mode от OpenAI.

Sesame привлекла нераскрытую сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. В дополнение к технологии голосовых ассистентов, компания утверждает, что прототипирует AI очки, «разработанные для круглосуточного ношения» и оснащенные ее пользовательскими моделями.


Подписывайтесь на наш telegram-канал

admin
Оцените автора
CheatGPT
Добавить комментарий