Компания Sesame, известная благодаря вирусному виртуальному ассистенту Maya, выпустила основную модель AI, которая обеспечивает работу Maya. Эта модель размером в 1 миллиард параметров, что означает отдельные компоненты модели, лицензирована под Apache 2.0 и может использоваться в коммерческих целях с некоторыми ограничениями.
Особенности модели CSM-1B
Модель, известная как CSM-1B, генерирует «RVQ аудио-коды» из текстовых и аудиовходов, по описанию Sesame на платформе разработчиков AI Hugging Face. RVQ означает «остаточная векторная квантайзация» — техника кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде современных аудиотехнологий ИИ, таких как Google’s SoundStream и Encodec от Meta.
CSM-1B использует модель из семейства Llama от Meta в качестве основы, в сочетании с компонентом «декодера» аудио. Вариант CSM с тонкой настройкой обеспечивает работу Maya, говорит Sesame.
«Опубликованная здесь модель является базовой моделью генерации», пишет Sesame в своих репозиториях Hugging Face и GitHub. «Она способна создавать разнообразные голоса, но не была специально настроена на какой-либо отдельный голос. Модель обладает некоторой способностью к пониманию неанглийских языков из-за загрязнения данных в процессе обучения, но, вероятно, она не будет работать хорошо».
Компания Sesame не раскрывает, какие именно данные были использованы для обучения CSM-1B. Стоит отметить, что в модели нет реальных защитных механизмов. Sesame надеется на добропорядочность разработчиков и пользователей и призывает не использовать модель для имитации чьей-либо речи без согласия, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в «вредоносной» или «злонамеренной» деятельности.
Я попробовал демонстрацию на Hugging Face, и клонирование моего голоса заняло менее минуты. После этого было легко генерировать речь на любую тему, включая противоречивые, такие как выборы и российская пропаганда. Consumer Reports недавно предупредили, что многие популярные инструменты AI для клонирования голосов на рынке не имеют «значительных» защитных мер для предотвращения мошенничества или злоупотреблений.
Компания Sesame, соучредителем которой является один из создателей Oculus Брендан Ириб, стала вирусной в конце февраля благодаря своей технологии ассистента, который почти преодолевает зону неестественного вида. Ассистент Maya и другой ассистент компании Sesame, Miles, делают вдохи и говорят с неплавностями, и могут быть прерваны во время речи, как и режим OpenAI Voice Mode. Sesame привлекла неопределенную сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners.
Кроме разработки технологий голосовых ассистентов, компания заявляет, что прототипирует AI-очки «предназначенные для носки в течение всего дня», которые будут оборудованы её собственными моделями.
Популярные публикации
- Bluesky быстро распродает футболки, которые носил её CEO, чтобы троллить Марка Цукерберга — Аманда Сильберлинг
- ФБР, EPA и Казначейство потребовали от Citibank заморозить средства в попытке администрации Трампа вернуть деньги на климатические проекты — Тим Де Чант
- OpenAI заявляет, что DeepSeek контролируется государством, и призывает запретить модели, производимые из КНР — Кайл Виггерс
- Трэвис Каланик считает, что Uber испортила дело: ‘Хотел бы я, чтобы у нас был автономный продукт для совместных поездок’ — Конни Лойзос
- CEO Anthropic говорит, что шпионы охотятся за $100 млн секретами AI в ‘нескольких строках кода’ — Чарльз Роллет
Подписывайтесь на наш telegram-канал








