Крупные языковые модели (LLM) достигли значительных успехов в использовании возможностей рассуждений. Однако их способность правильно ссылаться и использовать внешние данные — информацию, на которой они не обучены — в совокупности с рассуждением заметно отстает. Это особенно важно при использовании LLM в динамичных, информационно насыщенных сценариях, требующих актуальных данных из поисковых систем. Но улучшение уже здесь: SEARCH-R1, методика, представленная в статье исследователей Университета Иллинойса в Урбана-Шампейн и Университета Массачусетса в Амхерсте, обучает LLM генерировать поисковые запросы и бесшовно интегрировать получение данных из поисковых систем в свои рассуждения.
С предприятиями, ищущими способы интеграции этих новых моделей в свои приложения, такие методы, как SEARCH-R1, обещают открыть новые возможности рассуждений, полагающиеся на внешние источники данных.
Проблема интеграции поиска с LLM
Поисковые системы необходимы для предоставления LLM приложений с актуальными внешними знаниями. Два основных метода интеграции поисковых систем с LLM — это генерация с увеличением (RAG) и использование инструментов, реализуемых через планирование запросов или дообучение модели. Однако оба метода имеют ограничения, которые делают их неподходящими для моделей рассуждений. RAG часто испытывает трудности с неточностями поиска и не способна выполнять многоходовую, многоуровневую выборку, что необходимо для задач рассуждений. Инструменты на основе планирования запросов часто испытывают трудности с обобщением, в то время как подходы на основе обучения требуют обширных, аннотированных данных взаимодействий поиска и рассуждений, которые сложно производить в большом масштабе.
SEARCH-R1
SEARCH-R1 позволяет LLM взаимодействовать с поисковыми системами во время их процесса рассуждения в отличие от наличия отдельного этапа получения информации. SEARCH-R1 определяет поисковую систему как часть окружения LLM, позволяя модели бесшовно интегрировать генерацию токенов с результатами поисковой системы.
Исследователи разработали SEARCH-R1 для поддержки итеративного рассуждения и поиска. Модель обучена генерировать отдельные наборы токенов для размышлений, поиска, информации и сегментов ответов. Это означает, что во время процесса рассуждения модели (отмеченного тегами
, содержащую поисковый запрос. Запрос затем передается в поисковую систему, а результаты вставляются в окно контекста в сегменте
Модель затем продолжает рассуждать с добавленным контекстом и, когда готова, генерирует результаты в сегменте
. Эта структура позволяет модели обращаться к поисковой системе несколько раз, когда она рассуждает о проблеме и получает новую информацию.
Обучение методом подкрепления
Обучение LLM интерлировать поисковые запросы с их цепочкой рассуждений является сложной задачей. Чтобы упростить процесс, исследователи разработали SEARCH-R1 для обучения модели через чисто подкрепленное обучение (RL), где модели предоставляется возможность исследовать использование инструментов рассуждений и поиска без руководства со стороны данных, сгенерированных людьми. SEARCH-R1 использует модель «награды, основанной на результате», в которой модель оценивается только по правильности конечного ответа. Это исключает необходимость в создании сложных моделей вознаграждения, проверяющих процесс рассуждения модели.
Поиск в действии
Исследователи протестировали SEARCH-R1, дообучив базовые и инструкционные версии Qwen-2.5 и Llama-3.2 и оценив их на семи эталонах, охватывающих разнообразные задачи рассуждений, требующие одно-шагового и многошагового поиска. Они сравнили SEARCH-R1 с различными базовыми методами: прямым выводом с рассуждением «Цепочки Мысли» (CoT), выводом с RAG и дообучением для использования инструментов.
SEARCH-R1 постоянно превосходит базовые методы с заметным отрывом. Она также превосходит модели рассуждений, обученные на RL, но без получения информации из поиска. SEARCH-R1 также эффективна для различных семейств моделей и обоих базовых и инструкционно-настроенных вариантов, предполагая, что RL с наградами, основанными на результате, может быть полезным за пределами чистых сценариев рассуждений.
Исследователи опубликовали код SEARCH-R1 на GitHub. Способность SEARCH-R1 автономно генерировать поисковые запросы и интегрировать информацию в реальном времени в рассуждения может иметь значительные последствия для корпоративных приложений. Она может повысить точность и надежность систем на базе LLM в таких областях, как поддержка клиентов, управление знаниями и анализ данных. Обеспечивая возможность LLM динамически адаптироваться к изменяющейся информации, SEARCH-R1 может помочь компаниям создавать более интеллектуальные и ответственные AI решения.
Эта возможность может быть очень полезной для приложений, требующих доступа к постоянно изменяющимся данным и требующих нескольких шагов для нахождения ответа. Это также говорит о том, что мы еще не исследовали весь потенциал нового парадигмы подкрепленного обучения, появившейся с выпуском DeepSeek-R1.








