Meta AI представляет MLGym: Новая платформа и бенчмарк для развития исследовательских агентов ИИ

Новости

Новый подход к ускорению научных открытий с помощью ИИ

Идея ускорить научные открытия с помощью ИИ существует давно — первые попытки восходят к проекту Oak Ridge Applied AI (1979). Сегодня, благодаря достижениям в области foundation models, стало возможным:

  • Автоматизировать обзоры литературы;
  • Формулировать гипотезы и проектировать эксперименты;
  • Анализировать результаты и генерировать научные статьи.

Однако, несмотря на эти успехи, ключевой проблемой остается отсутствие стандартизированных бенчмарковдля комплексной оценки возможностей ИИ в различных научных дисциплинах.


Задачи и вызовы в оценке AI-агентов

Современные исследования предложили бенчмарки для оценки ИИ в задачах машинного обучения и разработки программного обеспечения. Но существующие решения:

  • Чаще всего сосредоточены на решении четко определенных задач;
  • Не охватывают открытые научные задачи, где возможно множество решений;
  • Не обладают гибкостью для оценки разнообразных научных результатов (новые алгоритмы, архитектуры моделей, прогнозы).

Чтобы вывести AI-исследования на новый уровень, необходимы:

  • Широкие системы оценки, охватывающие разные научные задачи;
  • Инструменты для экспериментов с различными алгоритмами обучения;
  • Гибкость в приеме научных вкладов.

Представляем MLGym и MLGym-Bench

Исследователи из University College LondonUniversity of OxfordMeta и других институтов разработали новую систему — MLGym и MLGym-Bench, включающую:

Основные особенности MLGym:

  • Компоненты системы:
    • Агенты: выполняют bash-команды, управляют историей операций и интегрируют внешние модели.
    • Окружение: изолированное рабочее пространство на базе Docker.
    • Наборы данных: независимы от задач, что упрощает повторное использование.
    • Задачи: содержат скрипты оценки и настройки для различных вызовов ML.
  • MLGym-Bench включает 13 открытых задач в сферах:
    • Компьютерное зрение;
    • Обработка естественного языка (NLP);
    • Обучение с подкреплением (RL);
    • Теория игр.

Ключевые инструменты:

  • Поиск литературы и сохранение данных;
  • Итеративная проверка результатов;
  • Гибкость для долгосрочных исследований.

Оценка моделей: лидеры и результаты

Для тестирования использовалась модель SWE-Agent, а также пять современных моделей:

  • OpenAI O1-preview (лучший общий результат);
  • Gemini 1.5 Pro;
  • Claude-3.5-Sonnet;
  • Llama-3-405b-Instruct;
  • GPT-4o.

Методика оценки:

  • Использованы метрики AUP и performance profiles;
  • OpenAI O1-preview стабильно входила в топ по всем задачам.

Выводы и дальнейшие шаги

Исследование подчеркивает перспективность ИИ как агента научных исследований, но также выявляет следующие области для роста:

  • Интердисциплинарная адаптация и обобщение;
  • Оценка научной новизны результатов;
  • Открытость данных для повышения коллаборации;
  • Усиление междисциплинарного взаимодействия.

Развитие архитектур агентов, методов рассуждения и систем оценки поможет ускорить научные открытия, сохраняя при этом воспроизводимость и достоверность результатов.

admin
Оцените автора
CheatGPT
Добавить комментарий