Современные исследования в области биоинформатики характеризуются постоянным появлением сложных источников данных и аналитических вызовов. Исследователи из FutureHouse и ScienceMachine представили BixBench — новый бенчмарк для оценки ИИ-агентов, ориентированный на задачи, ложащиеся в основу биоинформатики. BixBench состоит из 53 аналитических сценариев и почти 300 вопросов с открытым ответом, требующих детального и контекстного анализа. Экспертам удалось воспроизвести анализы данных из опубликованных исследований, создавая основу для формирования вопросов, которые требуют взвешенного многопроцессного рассуждения.
Технические аспекты и преимущества BixBench
BixBench основывается на концепции «анализ капсул», где каждая капсула включает в себя гипотезу, соответствующие входные данные и код для анализа. Эти капсулы строятся с использованием интерактивных блокнотов Jupyter, что способствует воспроизводимости и повторяет повседневную практику научных исследований.
Интеграция и результаты оценки
Бенчмарк интегрирован с фреймворком Aviary, что предоставляет контролируемую среду для оценки и необходимости, такие как редактирование кода и исследование директорий данных. Результаты тестирования ведущих ИИ моделей, таких как GPT-4o и Claude 3.5 Sonnet, показали, что модели успешно справляются с задачами на уровне 17% точности, подчеркивая текущие пробелы и направления для улучшения.
Заключение
BixBench предлагает модель оценки, лучше всего отвечающую вызовам биоинформатики, сочетая способности к многопроцессному анализу и презентации инсайтов, напрямую связанных с научными исследованиями. Текущие модели ИИ всё ещё нуждаются в развитии для достижения уровня экспертов в области автономного анализа данных, но BixBench уже задаёт направление для дальнейших исследований. Узнайте больше на сайте MarkTechPost!








