Google AI представляет модель Gemini Embedding

Новости

Представляем Gemini Embedding от Google AI

Недавние достижения в моделях встраивания сосредоточились на преобразовании универсальных текстовых представлений для различных приложений, таких как семантическое сходство, кластеризация и классификация. Традиционные модели встраивания, такие как Universal Sentence Encoder и Sentence-T5, стремились предоставлять обобщенные текстовые представления, но недавние исследования выявляют их ограничения в области обобщения.

Следовательно, интеграция крупных языковых моделей (LLM) произвела революцию в разработке моделей встраивания двумя основными подходами: улучшение обучающих наборов данных путем генерации синтетических данных и жесткого негативного майнинга, а также использование параметров предварительно обученных LLM для инициализации. Эти методы значительно улучшают качество встраивания и производительность последующих задач, но увеличивают вычислительные затраты.

Недавние исследования также изучили адаптацию предварительно обученных LLM для задач встраивания. Sentence-BERT, DPR и Contriever продемонстрировали преимущества контрастного обучения и языково-агностического обучения в качестве встраивания. Более недавно, такие модели, как E5-Mistral и LaBSE, инициализированные из LLM, таких как GPT-3 и Mistral, превзошли традиционные встраивания, основанные на BERT и T5.

Несмотря на их успех, эти модели часто требуют больших сет-специфических наборов данных, что приводит к переобучению. Такие усилия, как MTEB, нацелены на сравнение моделей встраивания в различных задачах и доменах, содействуя более устойчивым возможностям обобщения в будущем исследовании.

Особенности модели Gemini Embedding

Команда Gemini Embedding от Google представляет Gemini Embedding — передовую модель, которая генерирует высокообобщаемые текстовые представления. Построенная на мощной большой языковой модели Google Gemini, она использует многоязычные и кодовые возможности для улучшения качества встраивания в различных задачах, таких как извлечение и семантическое сходство.

Модель обучается с использованием высококачественного, разнородного набора данных, отфильтрованных с помощью Gemini, выбором положительных/отрицательных отрывков и генерацией синтетических данных. Gemini Embedding достигает передовой производительности на массивном многоязычном тестовом сете (MMTEB) благодаря контрастному обучению и тонкой настройке, превосходя предыдущие модели в многоязычных, английских и кодовых бенчмарках.

Модель строится на обширных знаниях Gemini для создания представлений для таких задач, как извлечение, классификация и ранжирование. Она уточняет параметры, инициализированные Gemini, и применяет стратегию объединения для создания компактных встраиваний. Обучение проходит с использованием функции потерь оценивания с шумом-контрастом (NCE) с негативами в пакете, в то время как подход мульти-_loss адаптирует встраивания для под-измерений.

Процесс обучения включает двухэтапный конвейер: пред-финальная настройка на больших наборах данных и тонкая настройка на разнообразных задачах. Кроме того, сочетание моделей улучшает обобщение. Gemini также помогает в генерации синтетических данных, фильтрации и жестком негативном майнинге, чтобы улучшить производительность модели в многоязычных и задачах извлечения.

Оценка производительности модели

Модель Gemini Embedding была оценена на нескольких бенчмарках, включая многоязычные, английские и основанные на коде задачи, охватывающие более 250 языков. Она демонстрировала превосходную производительность в классификации, кластеризации и извлечении, постоянно превосходя другие ведущие модели.

Модель достигла самого высокого ранжирования на основе баллов Борды и отличилась в кросс-языковых задачах извлечения. Кроме того, она превзошла конкурентов в оценках, связанных с кодом, даже когда некоторые задачи были исключены.

Эти результаты подчеркивают Gemini Embedding как высокоэффективную многоязычную модель встраивания, способную предоставить передовую производительность в условиях разнообразных лингвистических и технических вызовов.

Заключение

В заключение, модель Gemini Embedding — это надежное многоязычное решение для встраивания, которое превосходит в различных задачах, включая классификацию, извлечение, кластеризацию и ранжирование. Она демонстрирует сильное обобщение, даже когда обучается только на данных на английском языке, превосходя другие модели на многоязычных бенчмарках.

Чтобы повысить качество, модель извлекает выгоду из генерации синтетических данных, фильтрации набора данных и жесткого негативного майнинга. Будущие работы нацелены на расширение ее возможностей на мультимодальные встраивания, объединяющие текст, изображения, видео и аудио.

Оценки на крупных многоязычных бенчмарках подтверждают ее превосходство, делая модель мощным инструментом для исследователей и разработчиков, стремящихся к эффективным и высокопроизводительным встраиваниям для разнообразных приложений.


Подписывайтесь на наш telegram-канал

admin
Оцените автора
CheatGPT
Добавить комментарий