Исследователи Alibaba представили START: новый инструмент для улучшения рассуждений AI

Новости

Большие языковые модели достигли значительных успехов в понимании и генерации текста, похожего на человеческий. Однако, в сложных задачах, требующих многоэтапных расчетов или логического анализа, они зачастую испытывают трудности. Традиционные подходы цепочки логики (CoT) помогают, разбивая проблемы на промежуточные этапы, но они сильно зависят от внутреннего рассуждения модели. Эта зависимость иногда приводит к ошибкам, особенно в сложных вычислениях или когда необходимо несколько шагов рассуждения.

Необходим метод, который может проверять и корректировать свое собственное мышление, особенно в задачах научного анализа или уровне состязательных математических задач. Исследователи Alibaba предложили новый инструмент на основе искусственного интеллекта под названием START, что обозначает «Самообучающийся рассуждатель с инструментами». Вместо того, чтобы опираться только на внутреннюю логику, START интегрирует внешний Python интерпретатор для помощи в задачах рассуждения.

Технические подробности и преимущества

В своей основе START является эволюцией подхода цепочки логики. Его двухэтапный процесс обучения предназначен для помощи модели в использовании внешних инструментов как естественного продолжения ее процесса рассуждения. На первом этапе Hint-infer позволяет модели интегрировать подсказки, которые побуждают использовать инструменты. На втором этапе метод Hint-RFT оценивает и модифицирует выходные данные, чтобы модель лучше умела использовать внешние инструменты.

Эмпирические результаты и выводы

Исследователи оценили START на различных задачах, включая вопросы уровня аспирантуры по науке, сложные математические задачи и программные задачи. Во всех этих областях START показал значительные улучшения по сравнению со своей базовой моделью. Эти результаты свидетельствуют о том, что способность интегрировать внешнюю верификацию может привести к более качественному решению проблем, особенно в тех задачах, где точность критически важна.

Заключительные мысли

Разработка START предлагает вдумчивый шаг вперед в решении трудностей сложного рассуждения в больших языковых моделях. Соединяя внутреннее мышление цепочки логики с интеграцией внешних инструментов, модель предоставляет практическое решение для некоторых из устойчивых проблем в вычислительных и логических задачах. Это работа является обнадеживающим примером того, как точные улучшения – в данном случае, использование стратегических подсказок и внешних вычислений – могут значительно повысить надежность рассуждений в языковых моделях.

admin
Оцените автора
CheatGPT
Добавить комментарий