Новый подход к ускорению научных открытий с помощью ИИ
Идея ускорить научные открытия с помощью ИИ существует давно — первые попытки восходят к проекту Oak Ridge Applied AI (1979). Сегодня, благодаря достижениям в области foundation models, стало возможным:
- Автоматизировать обзоры литературы;
- Формулировать гипотезы и проектировать эксперименты;
- Анализировать результаты и генерировать научные статьи.
Однако, несмотря на эти успехи, ключевой проблемой остается отсутствие стандартизированных бенчмарковдля комплексной оценки возможностей ИИ в различных научных дисциплинах.
Задачи и вызовы в оценке AI-агентов
Современные исследования предложили бенчмарки для оценки ИИ в задачах машинного обучения и разработки программного обеспечения. Но существующие решения:
- Чаще всего сосредоточены на решении четко определенных задач;
- Не охватывают открытые научные задачи, где возможно множество решений;
- Не обладают гибкостью для оценки разнообразных научных результатов (новые алгоритмы, архитектуры моделей, прогнозы).
Чтобы вывести AI-исследования на новый уровень, необходимы:
- Широкие системы оценки, охватывающие разные научные задачи;
- Инструменты для экспериментов с различными алгоритмами обучения;
- Гибкость в приеме научных вкладов.
Представляем MLGym и MLGym-Bench
Исследователи из University College London, University of Oxford, Meta и других институтов разработали новую систему — MLGym и MLGym-Bench, включающую:
Основные особенности MLGym:
- Компоненты системы:
- Агенты: выполняют bash-команды, управляют историей операций и интегрируют внешние модели.
- Окружение: изолированное рабочее пространство на базе Docker.
- Наборы данных: независимы от задач, что упрощает повторное использование.
- Задачи: содержат скрипты оценки и настройки для различных вызовов ML.
- MLGym-Bench включает 13 открытых задач в сферах:
- Компьютерное зрение;
- Обработка естественного языка (NLP);
- Обучение с подкреплением (RL);
- Теория игр.
Ключевые инструменты:
- Поиск литературы и сохранение данных;
- Итеративная проверка результатов;
- Гибкость для долгосрочных исследований.
Оценка моделей: лидеры и результаты
Для тестирования использовалась модель SWE-Agent, а также пять современных моделей:
- OpenAI O1-preview (лучший общий результат);
- Gemini 1.5 Pro;
- Claude-3.5-Sonnet;
- Llama-3-405b-Instruct;
- GPT-4o.
Методика оценки:
- Использованы метрики AUP и performance profiles;
- OpenAI O1-preview стабильно входила в топ по всем задачам.
Выводы и дальнейшие шаги
Исследование подчеркивает перспективность ИИ как агента научных исследований, но также выявляет следующие области для роста:
- Интердисциплинарная адаптация и обобщение;
- Оценка научной новизны результатов;
- Открытость данных для повышения коллаборации;
- Усиление междисциплинарного взаимодействия.
Развитие архитектур агентов, методов рассуждения и систем оценки поможет ускорить научные открытия, сохраняя при этом воспроизводимость и достоверность результатов.








