Недавние достижения в области больших языковых моделей (LLM) значительно повлияли на естественную обработку языка, однако многие из них по-прежнему сталкиваются с трудностями в сложных задачах планирования и рассуждения. Традиционные подходы, полагающиеся на статические шаблоны или одноагентные системы, не учитывают важные нюансы реальных проблем. На этом фоне Google AI разработал новую многоагентную структуру под названием PlanGEN, которая внедряет ограниченно-управляемую итеративную верификацию и адаптивный выбор алгоритмов для улучшения планирования и рассуждения в LLM.
Особенности PlanGEN
PlanGEN включает три специализированных агента:
- Агент ограничений: извлекает специфические детали проблемы, такие как расписания или ключевые концепции.
- Агент верификации: оценивает качество предложенных планов, присваивая им оценку и выделяя области улучшения.
- Агент выбора: использует модифицированную политику Upper Confidence Bound (UCB) для выбора подходящего алгоритма выводов на основе сложности задачи.
Совместная работа этих агентов обеспечивает адаптацию подхода к каждой задаче, что делает выводы точными и адаптированными к контексту.
Технические преимущества и реализация
Важной особенностью PlanGEN является его модульность и возможность деталей. Процесс начинается с агента ограничений, который извлекает и формирует набор критериев для оценки планов. Агент верификации присваивает каждому варианту оценку от -100 до 100, давая тем самым качественные оценки в плане их улучшения. Используя механизм адаптивного выбора, PlanGEN переключается между различными алгоритмами, такими как Best of N, Tree-of-Thought или REBASE. Таким образом, структура легко адаптируется под различные задачи.

Экспериментальные результаты
Испытания PlanGEN на различных бенчмарках показали улучшения в задачах планирования и рассуждения. Например, в сессиях NATURAL PLAN эта структура улучшала точность в заданиях планирования календарей и встреч через итеративную верификацию. В математических и научных испытаниях PlanGEN добился высокой точности в задачах по математике и физике. На наборе данных DocFinQA, который предназначен для понимания финансовых документов, PlanGEN повысил как точность, так и F1-баллы. Эти улучшения объясняются способностью рамки использовать детализированную обратную связь и адаптировать стратегию выводов соответствующим образом.
Заключение
PlanGEN предоставляет новые возможности для решения задач сложного планирования и рассуждения в LLM. Совмещение сильных сторон многоагентных систем позволяет повысить качество генерируемых планов за счет более взвешенного и итеративного подхода. Такой подход демонстрирует впечатляющие результаты за счет систематического включения обратной связи и адаптации к сложности задачи на всех уровнях.








