Знакомьтесь: Open-Qwen2VL — Открытая и эффективная мультимодальная языковая модель

Новости

Знакомьтесь: Open-Qwen2VL

Мультимодальные большие языковые модели (MLLMs) продвинулись в интеграции визуальных и текстовых модальностей. Это дает возможность совершенствоваться в таких задачах, как пояснение изображений, ответ на визуальные вопросы и интерпретация документов. Однако отсутствие прозрачности зачастую затрудняет воспроизведение и дальнейшее развитие этих моделей.

Многие передовые MLLMs не публикуют ключевые компоненты, включая код обучения. Они скрывают методы обработки данных и датасеты для предварительной тренировки. Более того, значительные вычислительные ресурсы, необходимые для обучения этих моделей, представляют собой значительное препятствие. Особенно для академических исследователей с ограниченной инфраструктурой. Этот недостаток доступа мешает воспроизводимости и замедляет распространение новых методов в исследовательском сообществе.

Исследователи из UC Santa Barbara, Bytedance и NVIDIA представляют Open-Qwen2VL. Это мультимодальный большой языковой модель с 2 миллиардами параметров. Она прошла предварительную тренировку на 29 миллионах пар изображение-текст, используя примерно 220 часов A100-40G GPU.

Разработанная совместно исследователями из UC Santa Barbara, ByteDance и Nvidia Research, Open-Qwen2VL предназначена для решения проблем воспроизводимости и ограничений ресурсов в исследованиях MLLM. Проект предоставляет полный набор открытых ресурсов, включая кодовую базу для тренировки и скрипты фильтрации данных. Включены также предварительные тренировочные данные в формате WebDataset и контрольные точки модели с инструкциями. Этот обширный выпуск направлен на поддержку прозрачных экспериментов и разработки методов в области мультимодального обучения.

Особенности Open-Qwen2VL

Open-Qwen2VL основывается на модели Qwen2.5-1.5B-Instruct LLM и оснащен сигнальным визуальным энкодером SigLIP-SO-400M. Адаптивный усредняющий визуальный проектор сокращает количество визуальных токенов с 729 до 144 во время предварительной тренировки. Это улучшает вычислительную эффективность. Число токенов увеличивается обратно до 729 на этапе завершающей настройки.

Эта стратегия низкого-высокого разрешения сохраняет способности к пониманию изображений, одновременно оптимизируя использование ресурсов. Для дальнейшего повышения эффективности тренировок Open-Qwen2VL реализует мультимодальное уплотнение последовательности. Это позволяет объединять несколько пар изображение-текст в последовательности из примерно 4096 токенов. Тем самым минимизируются заполнение и вычислительные затраты.

Параметры визуального энкодера остаются замороженными во время предварительной тренировки для экономии ресурсов. Они могут быть разморожены во время SFT, чтобы улучшить производительность при практическом применении. Open-Qwen2VL обучается на только 0,36% от количества токенов, использованных в Qwen2-VL. Но демонстрирует сопоставимую или превосходящую производительность по нескольким контрольным показателям.

Модель достигает оценки 80,9 на MMBench и показывает конкурентные результаты на SEEDBench (72,5), MMStar (49,7) и MathVista (53,1). Исследования показали, что интеграция небольшой подгруппы (5 миллионов образцов) высококачественных пар изображение-текст, отфильтрованных с использованием методов на основе MLM, может привести к заметным улучшениям эффективности. Это подчеркивает важность качества данных над объемом.

Кроме того, Open-Qwen2VL демонстрирует устойчивые возможности мультимодального контекстного обучения в нескольких попытках. При оценке на таких наборах данных, как GQA и TextVQA, модель показывает прирост точности от 3% до 12%. Это наблюдается при увеличении от нулевого к восьмим попыткам. Производительность подстройки предсказуема масштабируется с размером набора данных для настройки инструкций. Улучшения производительности стабилизируются примерно на уровне 8 миллионов примеров из набора данных MAmmoTH-VL-10M.

Преимущества Open-Qwen2VL для научного сообщества

Open-Qwen2VL представляет собой воспроизводимую и ресурсоэффективную процедуру для обучения мультимодальных больших языковых моделей. Систематически решая ограничения предыдущих моделей касательно открытости и вычислительных требований, она позволяет более широкому кругу участников участвовать в исследованиях MLLM.

Выборы в дизайне модели, включая эффективное управление визуальными токенами и мультимодальное уплотнение последовательности, демонстрируют жизнеспособный путь вперед. Разумный выбор данных также важен для академических учреждений, стремящихся внести свой вклад в эту область. Open-Qwen2VL устанавливает воспроизводимую базу и предоставляет основу для будущей работы над масштабируемыми, высокопроизводительными MLLMs в условиях ограниченных вычислительных сред.

admin
Оцените автора
CheatGPT
Добавить комментарий