Усовершенствованная автономная коррекция в языковых моделях
Развитие больших языковых моделей (LLM) в области математики и программирования привело к необходимости улучшения их способности к самокоррекции. Модели, такие как ChatGPT, Claude и Gemini заслужили признание за свои возможности, а появление GPT-4 усилило интерес к улучшению способности моделей к дедукции и самокоррекции. Основной вызов – научить эти модели самостоятельно обнаруживать и исправлять ошибки в своих выводах, что является важнейшей частью процесса самокоррекции.
Исследования указывают на то, что модели могут улучшать точность ответов, даже если обратная связь с вознаграждением поступает от прокси-моделей. Однако без внешнего руководства модели сталкиваются с проблемами в самостоятельной самокоррекции на основе только внутреннего анализа.
Альтернативные подходы к самообучению LLM
В последние годы ученые начали исследовать возможность использования языковых моделей в качестве оценщиков, применяя специальные механизмы, заменяющие предобученные функции вознаграждения. Связанные исследования работы на само вознаграждение изучили методы, интегрирующие генерацию ответов и их оценку внутри одной модели.
- Итеративная настройка моделей позволяет им предоставлять сигналы обучения, содействующие самосовершенствованию
- Обучение с поддержкой учителя улучшает рефлексию в разговорных задачах, но осторожность в дедуктивных задачах
- Ранее работы полагались на внешние модели вознаграждения для исправления, что увеличивает издержки вывода
- Изучались возможности применения устойчивых правил, продемонстрировавшие, что некоторые обученные модели могут самокорректироваться
Усовершенствованная стратегия ЛЛМ для автономной коррекции
Исследователи с Университета Иллинойса и Университета Мэриленда исследовали самовознаграждаемую дедукцию в языковых моделях, позволяя моделям без внешней помощи оценивать и уточнять свои выводы. Предложенный ими двухэтапный подход к обучению включает использование последовательного отказа в образцах и последующую оптимизацию с помощью методов подкрепляющего обучения.
Модели, такие как Llama-3 и Qwen-2.5, продемонстрировали улучшенные способности самокоррекции и достигли результатов, сопоставимых с моделями, полагающимися на внешнее вознаграждение. Новый подход устраняет необходимость в предварительных настройках, предлагая устойчивую, масштабируемую модель для арифметического обоснования.
Результаты эксперимента: эффективность и улучшение
Языковые модели протестировали на разных наборах данных, включая MATH500, OlympiadBench и Minerva Math, чтобы оценить их исходную и конечную точность ответов. Традиционные методы, как STaR/RAFT, показывают ограниченную эффективность, но самовознаграждаемая дедукция улучшила точность ответов без излишних изменений.
Исследователи пришли к выводу, что самовознаграждаемая инструкция качественно улучшает модели, увеличивая их эффективность в задачах математического обобщения. Будущие шаги включают улучшение точности моделей вознаграждения и технологий подкрепляющего обучения.








