Углубленное изучение активного поиска изображений

Новости

Всестороннее изучение возможностей LMMs

Крупные мультимодальные модели (LMMs) продемонстрировали значительные способности в изучении мультимодальных задач, обучаясь на больших объемах парных визуально-текстовых данных. Тем не менее, они сталкиваются со сложностями в восприятии сложной информации реального мира, особенно долгосрочной информации, возникающей после завершения обучения или специфических знаний, ограниченных конфиденциальностью, авторским правом или соображениями безопасности.

Во время эксплуатации за пределами их внутренних границ знаний LMMs часто создают галлюцинации, которые серьезно подрывают их надежность в сценариях, когда фактическая точность имеет решающее значение. Несмотря на широкое внедрение Генерации с расширением извлечения (RAG), она также вводит свои проблемы, такие как сопротивление компонентам извлечения и генерации к оптимизации конца в конец, а также провоцирование ненужных извлечений.

Современные подходы и вызовы

Недавние подходы добились значительных успехов в решении проблем ограниченности знаний в крупных моделях. Методики обучения с подкреплением конца в конец, такие как о-серия OpenAI, DeepSeek-R1 и Kimi K-1.5, значительно улучшили возможности рассуждений моделей. Модели Deep Research, разработанные крупными лабораториями ИИ, показали, что обучение моделей взаимодействию с интернет-содержимым существенно повышает их результаты на сложных задачах реального мира. Однако все еще остаются проблемы с эффективной интеграцией извлечения внешних знаний с возможностями генерации.

MMSearch-R1: Подход к активному поиску изображений

Исследователи изучили рамки обучения с подкреплением конца в конец, чтобы расширить возможности LMMs. Были заданы следующие вопросы:
(1) Можно ли обучить LMMs осознавать свои границы знаний и учиться призывать инструменты поиска при необходимости?
(2) Каковы эффективность и эффективность подхода RL?
(3) Может ли рамка RL привести к появлению устойчивых многомодальных интеллектуальных поведений? Это исследование представляет MMSearch-R1, который представляет собой передовой подход к оснащению LMMs активными возможностями поиска изображений через рамку обучения с подкреплением конца в конец.

Обучение и экспериментальные результаты

MMSearch-R1 использует всеобъемлющую архитектуру, которая объединяет сложные методы инженерии данных с передовыми методами обучения с подкреплением. Система основывается на мощном наборе данных FactualVQA, специально созданном для предоставления недвусмысленных ответов, которые можно надежно оценить с помощью автоматизированных методов. Экспериментальные результаты демонстрируют значительные преимущества производительности MMSearch-R1 по различным направлениям. Внедрение поиска изображений эффективно расширяет границы знаний крупных мультимодальных моделей.

Эффективность и будущие разработки

Обучение с подкреплением демонстрирует превосходную эффективность по сравнению с методами супервизорной настройки. Применяемый непосредственно к моделям Qwen2.5-VL-Instruct-3B/7B, GRPO достигает лучших результатов, несмотря на использование только половины данных обучения, требуемых методами SFT. Эта замечательная эффективность подчеркивает действенность RL в оптимизации производительности модели с ограниченными ресурсами.

admin
Оцените автора
CheatGPT
Добавить комментарий