AgentEval: новая инициатива для оценки AI-технологий в праве

Новости

Agent Eval запускает инициативу по бенчмаркингу искусственного интеллекта с открытым исходным кодом

Компания AgentEval запустила новую инициативу, предлагая открытую и доступную каждому коллекцию стандартных тестов для оценки AI-технологий в юридической сфере. Основная цель проекта — создание сообщества для обмена данными, идеями и протоколами, направленными на оценку и оптимизацию инструментов искусственного интеллекта в праве.

Руководители проекта и их задачи

Главой проекта выступает Дариус Эмрани, генеральный директор компании Scorecard, занимающейся поддержкой разработки продуктов на базе машинного обучения. Эмрани заявил, что их задача состоит в предоставлении большого количества тестов и лучших практик, а также в том, чтобы стать авторитетным источником информации по AI-бенчмаркам. Весь проект направлен на поддержку ключевых сервисов, включая здравоохранение и финансы.

Цели и задачи AgentEval

Организация заявляет, что главные цели AgentEval — это создание открытой и доступной платформы для улучшения процессов оценки AI, преодолевая ограничения, связанные с закрытыми методологиями и ограниченным доступом к данным. Проект стремится:

  • Предоставить юридическим фирмам стандартизированный способ оценки AI-решений.
  • Помочь разработчикам и поставщикам улучшать свои модели на основе независимых и стандартных тестов.
  • Предоставить академикам и политикам данные, необходимые для оценки эффективности AI в реальных юридических условиях.
  • Открыть доступ к высококачественным ресурсам оценки для стартапов, исследовательских учреждений и независимых разработчиков.

Польза от открытых стандартов и методологий

Основные преимущества, которые видит организация, лежат в области прозрачности и доверия, открытые стандарты способствуют более широкому внедрению в отрасли и академических кругах. Этот подход подчеркивает, что открытые решения ведут к более ясной и честной оценке, а также лучше поддерживают инновации через коллективные усилия.

Проблемы и путь вперед

Однако, как отмечает Richard Tromans из Artificial Lawyer, остается вопрос о том, как именно правильно оценивать точность AI. Необходимость в прозрачных методах оценки особенно поднялась на повестку после того, как исследование Стэнфорда выявило проблемы в AI-решениях для юридических нужд. Это подчеркнуло важность не столько одной традиции тестирования, сколько комплексного, ориентированного на задачу подхода.

Tromans отмечает, что подход с открытыми стандартами и сообществом может лучше адаптироваться к изменениям в области искусственного интеллекта. Вывод в пользу разнообразных тестов и общей договоренности о том, что такое «хорошо» в контексте использования AI, может стать важным ориентиром.

Заключение

Инициатива AgentEval представляет собой важный шаг в области развития и оценки AI в юридических услуг, предлагая открытую и прозрачную платформу для тестирования и улучшения технологий. С открытием доступа для широкой аудитории, включая малые предприятия и стартапы, создается среда, где лучшие практики могут свободно развиваться и совершенствоваться.

admin
Оцените автора
CheatGPT
Добавить комментарий