Tufa Labs представила LADDER: Рекурсивная система самообучения для языковых моделей

Новости

Введение в LADDER

Модели больших языков (LLM) существенно выигрывают от техник обучения с подкреплением, которые позволяют делать итеративные улучшения, изучая вознаграждения. Однако обучение этих моделей остаётся задачей, требующей обширных наборов данных и человеческого надзора для повышения их возможностей. Разработка методов, позволяющих LLM самостоятельно улучшаться без дополнительного человеческого вмешательства или масштабных архитектурных изменений, стала важной темой в исследованиях в области искусственного интеллекта.

Трудности обучения LLM

Ключевой вызов в обучении LLM заключается в обеспечении эффективного и структурированного процесса обучения. Образовательный процесс может остановиться, когда модели сталкиваются с проблемами, выходящими за их возможности, что приводит к низкой производительности. Традиционные методы обучения с подкреплением полагаются на хорошо подготовленные наборы данных или человеческую обратную связь для создания эффективных образовательных путей, что делает такой подход ресурсозатратным.

Кроме того, LLM сталкиваются с трудностями в систематическом улучшении без структурированного градиента сложности, что затрудняет переход от базовых заданий к более сложным задачам. Существующие подходы к обучению LLM в основном включают обучение под надзором, обучение с подкреплением на основе человеческой обратной связи (RLHF) и образовательное обучение.

LADDER: новый подход к самообучению

Исследователи из Tufa Labs представили LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) для преодоления этих ограничений. Этот фреймворк позволяет LLM улучшаться самостоятельно, рекурсивно генерируя и решая более простые варианты сложных задач. В отличие от предыдущих методов, зависящих от человеческого вмешательства или данных, LADDER использует возможности модели для создания естественного градиента сложности, что позволяет структурированному самообучению.

Команда разработала и протестировала LADDER на задачах интегрирования, продемонстрировав его эффективность в повышении производительности моделей. Применив LADDER, исследователи смогли увеличить точность модели Llama 3.2 с 1% до 82% на задачах интегрирования, что стало беспрецедентным скачком в математическом рассуждении.

Методология обучения без участия человека

LADDER следует структурированной методологии, позволяя LLM самостоятельно учиться, систематически разбивая сложные задачи. Процесс включает три основных компонента: генерацию вариантов, проверку решений и обучение с подкреплением. Эти шаги способствуют постепенной тренировке моделей, позволяя совершенствовать стратегии решения задач структурированно и эффективно.

Исследователи расширили этот подход с помощью Test-Time Reinforcement Learning (TTRL), который динамически генерирует варианты задач во время вывода и применяет обучение с подкреплением для доработки решений в реальном времени. Применение к экзамену MIT Integration Bee повысило точность модели с 73% до 90%, превзойдя модель OpenAI’s o1.

Ключевые выводы

  • Позволяет LLM самостоятельно улучшаться, рекурсивно генерируя и решая более простые варианты сложных задач.
  • Модель Llama 3.2 3B улучшилась с 1% до 82% на задачах интегрирования, демонстрируя эффективность структурированного самообучения.
  • Qwen2.5 7B Deepseek-R1 Distilled достиг 73% точности, превзойдя GPT-4o (42%) и превосходя человеческие показатели (15-30%).
  • Дальнейшее повышение точности с 73% до 90%, превзойдя модель OpenAI’s o1.
  • LADDER не требует внешних данных или человеческого вмешательства, что делает его экономически эффективным и масштабируемым решением для обучения LLM.
admin
Оцените автора
CheatGPT
Добавить комментарий