WebGames: Новый стандарт оценки для ИИ-агентов веб-серфинга от Convergence AI

Новости

WebGames: Новый стандарт оценки для ИИ-агентов веб-серфинга

Совершенствуя виртуальную интеллигенцию, исследователи из Convergence Labs Ltd. и Clusterfudge Ltd. представляют WebGames — детальный набор стандартов для оценки универсальных ИИ-агентов по серфингу в интернете. Этот инновационный механизм состоит из более чем 50 интерактивных задач, протестированных на ведущих моделях, таких как GPT-4o и Claude Computer-Use.

Актуальность оценки современных ИИ

Стремительно развивающиеся ИИ-агенты сталкиваются с вызовами, решая сложные задачи в веб-пространстве. Процесс предполагает знание пользовательских интерфейсов, интерактивных элементов и реакций на действия пользователя: от нажатий до сложных освобождающих действий. Несмотря на имеющиеся наработки, текущие системы ИИ уступают людям в управлении веб-сайтами. Требуется обширная система оценки для улучшения работы ИИ-агентов в веб-среде.

  • Существующие стандарты оценки концентрируются на отдельных аспектах веб-задач, игнорируя сложность современных взаимодействий.
  • Модели GPT-4o, Claude Computer-Use и другие испытывают трудности с навигацией и выполнением задач.
  • Традиционные стандарты недолго удерживают внимание на сложных сценариях и оказываются некорректными для оценки многоуровневых взаимодействий.

Что предлагает WebGames?

WebGames предлагает интуитивные и надежные средства оценки взаимодействий ИИ-агентов с веб-страницами. Фреймворк сочетает модульный дизайн и стандартизированный формат JSONL для легкой интеграции с автоматизированными системами испытаний.

  • Структура решений имеет детерминированную структуру верификации, обеспечивая, чтобы каждый тестируемый этап был завершен правильно.
  • WebGames оценивает навигационные способности, принятие решений и адаптируемость ИИ в динамических условиях.

Результаты исследований и будущем разработок

При тестировании с использованием WebGames исследователи обнаружили значительные различия в производительности человека и ИИ-агентов. Наиболее успешная модель GPT-4o достигла успеха только в 41,2% задач, тогда как человеческий показатель составил 95,7%. Эти данные показывают необходимость дальнейших исследований и корректировки нынешних систем ИИ для улучшения их эффективности.

Будущее возможностей WebGames

Система WebGames становится платформой для дальнейших исследований, способствуя повышению гибкости ИИ, улучшению способности к планированию и увеличению производительности взаимодействия с вебом. Несмотря на ограниченность текущих моделей, новые подходы продолжают разрабатываться.

По всем вопросам можно ознакомиться с оригинальным исследованием и посещением проектного GitHub.

admin
Оцените автора
CheatGPT
Добавить комментарий