WebGames: Новый стандарт оценки для ИИ-агентов веб-серфинга
Совершенствуя виртуальную интеллигенцию, исследователи из Convergence Labs Ltd. и Clusterfudge Ltd. представляют WebGames — детальный набор стандартов для оценки универсальных ИИ-агентов по серфингу в интернете. Этот инновационный механизм состоит из более чем 50 интерактивных задач, протестированных на ведущих моделях, таких как GPT-4o и Claude Computer-Use.
Актуальность оценки современных ИИ
Стремительно развивающиеся ИИ-агенты сталкиваются с вызовами, решая сложные задачи в веб-пространстве. Процесс предполагает знание пользовательских интерфейсов, интерактивных элементов и реакций на действия пользователя: от нажатий до сложных освобождающих действий. Несмотря на имеющиеся наработки, текущие системы ИИ уступают людям в управлении веб-сайтами. Требуется обширная система оценки для улучшения работы ИИ-агентов в веб-среде.
- Существующие стандарты оценки концентрируются на отдельных аспектах веб-задач, игнорируя сложность современных взаимодействий.
- Модели GPT-4o, Claude Computer-Use и другие испытывают трудности с навигацией и выполнением задач.
- Традиционные стандарты недолго удерживают внимание на сложных сценариях и оказываются некорректными для оценки многоуровневых взаимодействий.
Что предлагает WebGames?
WebGames предлагает интуитивные и надежные средства оценки взаимодействий ИИ-агентов с веб-страницами. Фреймворк сочетает модульный дизайн и стандартизированный формат JSONL для легкой интеграции с автоматизированными системами испытаний.
- Структура решений имеет детерминированную структуру верификации, обеспечивая, чтобы каждый тестируемый этап был завершен правильно.
- WebGames оценивает навигационные способности, принятие решений и адаптируемость ИИ в динамических условиях.
Результаты исследований и будущем разработок
При тестировании с использованием WebGames исследователи обнаружили значительные различия в производительности человека и ИИ-агентов. Наиболее успешная модель GPT-4o достигла успеха только в 41,2% задач, тогда как человеческий показатель составил 95,7%. Эти данные показывают необходимость дальнейших исследований и корректировки нынешних систем ИИ для улучшения их эффективности.
Будущее возможностей WebGames
Система WebGames становится платформой для дальнейших исследований, способствуя повышению гибкости ИИ, улучшению способности к планированию и увеличению производительности взаимодействия с вебом. Несмотря на ограниченность текущих моделей, новые подходы продолжают разрабатываться.
По всем вопросам можно ознакомиться с оригинальным исследованием и посещением проектного GitHub.








