VisualWebInstruct: крупномасштабный мультимодальный набор данных для улучшения визуально-языковых моделей

Новости

Визуально-языковые модели (VLMs) продемонстрировали значительный прогресс в задачах, основанных на восприятии, таких как визуальные вопросы и ответы (VQA) и визуальное рассуждение на основе документов. Однако их эффективность в задачах, требующих интенсивного рассуждения, остается ограниченной из-за нехватки качественных и разнообразных обучающих наборов данных. Существующие мультимодальные наборы данных для рассуждений имеют несколько недостатков: некоторые слишком узко фокусируются на специфических научных изображениях, другие базируются на синтетических данных, не способных обобщать реальные ситуации, а многие слишком малы или упрощены для развития надежных навыков рассуждения.

Ограничения текущих подходов

Из-за этих ограничений VLMs испытывают трудности с многопоточными задачами рассуждений, такими как те, которые оцениваются в MMMU, MathVista и MEGABench. Несмотря на усилия по созданию больших масштабных аннотированных вручную наборов данных, они сталкиваются с трудностями, вызванными их ограничениями в масштабе. В связи с этими вызовами исследователи изучили различные стратегии, такие как нейронное символьное рассуждение, оптимизированное визуальное кодирование и структурирование графов для улучшения мультимодального рассуждения.

Проблемы и решения

Исследователи из ряда университетов представили VisualWebInstruct — большой мультимодальный набор данных для улучшения VLMs. Используя Google Image Search, они собрали 30 000 исходных изображений из таких дисциплин, как математика, физика и финансы, извлекая более 900 000 пар вопрос-ответ (40% визуальных).

Процесс сбора данных

Процесс сбора данных включает извлечение пар QA, насыщенных изображениями, из интернета, начиная с 30 000 научных изображений из различных дисциплин. Используя Google Image Search, они собрали 758 490 уникальных URL-адресов, отфильтровав не образовательные источники. Строятся деревья доступности для извлечения соответствующего текста и изображений, а модель Gemini 1.5 Flash отбирает и фильтрует пары QA на основе качественных критериев. Дополнительная доработка с GPT-4o обеспечивает согласованность ответов, создавая несколько ответов и проверяя их по исходным веб-источникам.

Результаты исследования

Заключительные результаты исследования показывают, что модели, дообученные на этом наборе данных, показывают заметные улучшения в производительности, с MAmmoTH-VL2, достигающей ведущих результатов среди моделей с параметрами 10B. Эти находки демонстрируют эффективность набора данных в улучшении возможностей визуально-языковых моделей для выполнения сложных задач рассуждения.

admin
Оцените автора
CheatGPT
Добавить комментарий