Автономная исправительная логика в LLM: улучшение самокоррекции

Новости

Усовершенствованная автономная коррекция в языковых моделях

Развитие больших языковых моделей (LLM) в области математики и программирования привело к необходимости улучшения их способности к самокоррекции. Модели, такие как ChatGPT, Claude и Gemini заслужили признание за свои возможности, а появление GPT-4 усилило интерес к улучшению способности моделей к дедукции и самокоррекции. Основной вызов – научить эти модели самостоятельно обнаруживать и исправлять ошибки в своих выводах, что является важнейшей частью процесса самокоррекции.

Исследования указывают на то, что модели могут улучшать точность ответов, даже если обратная связь с вознаграждением поступает от прокси-моделей. Однако без внешнего руководства модели сталкиваются с проблемами в самостоятельной самокоррекции на основе только внутреннего анализа.

Альтернативные подходы к самообучению LLM

В последние годы ученые начали исследовать возможность использования языковых моделей в качестве оценщиков, применяя специальные механизмы, заменяющие предобученные функции вознаграждения. Связанные исследования работы на само вознаграждение изучили методы, интегрирующие генерацию ответов и их оценку внутри одной модели.

  • Итеративная настройка моделей позволяет им предоставлять сигналы обучения, содействующие самосовершенствованию
  • Обучение с поддержкой учителя улучшает рефлексию в разговорных задачах, но осторожность в дедуктивных задачах
  • Ранее работы полагались на внешние модели вознаграждения для исправления, что увеличивает издержки вывода
  • Изучались возможности применения устойчивых правил, продемонстрировавшие, что некоторые обученные модели могут самокорректироваться

Усовершенствованная стратегия ЛЛМ для автономной коррекции

Исследователи с Университета Иллинойса и Университета Мэриленда исследовали самовознаграждаемую дедукцию в языковых моделях, позволяя моделям без внешней помощи оценивать и уточнять свои выводы. Предложенный ими двухэтапный подход к обучению включает использование последовательного отказа в образцах и последующую оптимизацию с помощью методов подкрепляющего обучения.

Модели, такие как Llama-3 и Qwen-2.5, продемонстрировали улучшенные способности самокоррекции и достигли результатов, сопоставимых с моделями, полагающимися на внешнее вознаграждение. Новый подход устраняет необходимость в предварительных настройках, предлагая устойчивую, масштабируемую модель для арифметического обоснования.

Результаты эксперимента: эффективность и улучшение

Языковые модели протестировали на разных наборах данных, включая MATH500, OlympiadBench и Minerva Math, чтобы оценить их исходную и конечную точность ответов. Традиционные методы, как STaR/RAFT, показывают ограниченную эффективность, но самовознаграждаемая дедукция улучшила точность ответов без излишних изменений.

Исследователи пришли к выводу, что самовознаграждаемая инструкция качественно улучшает модели, увеличивая их эффективность в задачах математического обобщения. Будущие шаги включают улучшение точности моделей вознаграждения и технологий подкрепляющего обучения.

admin
Оцените автора
CheatGPT
Добавить комментарий