OpenAI выпускает PaperBench: вызов для оценки возможностей ИИ

PaperBench Новости

Быстрое развитие искусственного интеллекта (ИИ) и исследований машинного обучения (ML) подчеркивает важность точной оценки способностей агентов ИИ в воспроизведении сложных эмпирических исследовательских задач, которые традиционно выполняли человеческие исследователи.

Сейчас существует мало систематических инструментов, которые могут точно измерить способность ИИ-агентов автономно воспроизводить результаты исследований в области машинного обучения, что создает трудности для полного понимания потенциала и ограничений таких систем.

OpenAI представила PaperBench, оценочный эталон, разработанный для оценки компетентности ИИ-агентов в автономной репликации передовых исследований машинного обучения. PaperBench специально измеряет, могут ли ИИ-системы точно интерпретировать исследовательские бумаги, самостоятельно разрабатывать необходимые кодовые базы и выполнять эксперименты для воспроизведения эмпирических результатов.

Эталон включает 20 работ, отобранных из ICML 2024, охватывающих области, включая обучение с подкреплением, устойчивость и вероятностные методы. Детальные рубрики, совместно разработанные с оригинальными авторами работ, определяют 8 316 отдельных задач, которые можно оценить, чтобы способствовать точной оценке возможностей ИИ.

Технически, PaperBench требует, чтобы ИИ-агенты обрабатывали предоставленные исследовательские работы и дополнительные разъяснения для разработки комплексных репозиториев кода с нуля. Эти репозитории должны включать полные экспериментальные установки и скрипты исполнения, в частности, файл reproduce.sh.

Чтобы обеспечить подлинное независимое воспроизведение, агентам запрещается ссылаться на или повторно использовать код из репозиториев оригинальных авторов. Рубрики структурированы иерархически, чтобы детализировать конкретные критерии прохождения-непрохождения на различных уровнях, что позволяет проводить систематическую и объективную оценку.

Оценка проводится с использованием SimpleJudge, автоматизированной системы оценки, основанной на большой языковой модели (LLM), что упрощает процесс оценивания. SimpleJudge достигла F1-показателя 0,83 на JudgeEval, дополнительном наборе данных для оценки, специально разработанном для проверки точности автоматической оценки.

Эмпирическая оценка нескольких продвинутых моделей ИИ показывает разные уровни производительности на PaperBench. Claude 3.5 Sonnet показала наивысший результат с средней оценкой репликации в 21,0%. Другие модели, такие как GPT-4o от OpenAI и Gemini 2.0 Flash, достигли значительно более низких показателей — 4,1% и 3,2% соответственно.

По сравнению с ними, опытные исследователи машинного обучения показали значительно более высокую точность, достигая до 41,4% после 48 часов посвященной работы. Анализ производительности моделей выявил сильные стороны в начальной быстрой генерации кода и ранней экспериментальной организации, но также подчеркнул значительные слабости в управлении длительными задачами, устранении неполадок и адаптации стратегий со временем.

Эти результаты предоставляют критически важные технические инсайты в текущие возможности ИИ-систем. Хотя ИИ-модели демонстрируют компетентность в определенных задачах кодирования и начальной реализации экспериментов, существуют значительные пробелы, особенно в устойчивом выполнении задач, адаптивном решении проблем и стратегическом планировании.

Кроме того, введение PaperBench Code-Dev, упрощенного варианта, подчеркивающего правильность кода без экспериментального выполнения, предлагает практичную альтернативу для широкой и ограниченной в ресурсах общественности из-за сниженных вычислительных и оценочных затрат.

В итоге PaperBench представляет важный шаг к методичной оценке возможностей ИИ исследований. Он предоставляет структурированную и детализированную среду оценивания, которая подчеркивает конкретные сильные и слабые стороны современных моделей ИИ в сравнении с производительностью человека.

Совместная разработка рубрик обеспечивает точные и реалистичные оценки. Открытое предложение от OpenAI PaperBench поддерживает дальнейшее исследование и развитие в этой области, расширяя понимание возможностей автономного ИИ в исследованиях и способствуя ответственному прогрессу в этой области.

admin
Оцените автора
CheatGPT
Добавить комментарий