Patronus AI представляет первую в отрасли мультиформатную LLM-as-a-Judge для оптимизации систем ИИ

Новости

В последние годы интеграция технологий генерации изображений в различные платформы открыла новые возможности для улучшения пользовательского опыта. Однако с расширением этих мультиформатных систем ИИ — способных обрабатывать и генерировать множественные формы данных, такие как текст и изображения — возникли такие проблемы, как «галлюцинация в подписи». Это явление происходит, когда сгенерированные ИИ описания изображений содержат неточности или неуместные детали, что может подорвать доверие и вовлеченность пользователей. Традиционные методы оценки этих систем зачастую опираются на ручную проверку, которая не масштабируется и неэффективна, подчеркивая необходимость автоматизированных и надежных инструментов оценки, учитывающих особенности мультиформатных приложений.

Patronus AI представила первую в отрасли мультиформатную LLM-as-a-Judge, предназначенную для оценки и оптимизации систем ИИ, которые преобразуют входящие изображения в текстовые выходные данные. Этот инструмент использует модель Gemini от Google, выбранную за сбалансированный подход к оценке и постоянное распределение баллов, что отличает её от альтернатив, таких как GPT-4V от OpenAI, которая продемонстрировала более высокий уровень эгоцентризма. MLLM-as-a-Judge соответствует приверженности Patronus AI к развитию масштабируемого надзора за системами ИИ, предоставляя разработчикам возможность оценивать и улучшать производительность их мультиформатных приложений.

Технические возможности MLLM-as-a-Judge

Технически MLLM-as-a-Judge оснащена для обработки и оценки задач генерации изображений в текст. Она предлагает встроенные оценщики, которые создают эталонные изображения, анализируя такие атрибуты, как наличие и расположение текста, сетевые структуры, пространственная ориентация и идентификация объектов. Suite оценщиков включает такие критерии, как:

  • описание главного объекта
  • описание неосновных объектов
  • галлюцинации в подписи
  • строгие галлюцинации в подписи
  • упоминание в подписи места главного объекта

Эти оценщики позволяют проводить всестороннюю оценку подписей изображений, гарантируя, что сгенерированные описания точно отражают визуальное содержание.

Практическое применение и преимущества

Помимо проверки точности подписей, MLLM-as-a-Judge может использоваться для тестирования релевантности скриншотов товаров в ответ на запросы пользователей, проверки точности извлечений оптического распознавания символов (OCR) для табличных данных и оценки достоверности изображений брендов и логотипов, сгенерированных ИИ.

Практическое применение MLLM-as-a-Judge демонстрируется её внедрением компанией Etsy, известной платформой электронной коммерции, специализирующейся на товарах ручной работы и винтаже. Команда Etsy применяет генеративный ИИ для автоматической генерации подписей к изображениям товаров, загружаемых продавцами, упрощая процесс листинга. Однако они столкнулись с проблемами качества их мультиформатных систем ИИ, так как автоматически сгенерированные подписи часто содержали ошибки и неожиданные выходные данные. Чтобы решить эту проблему, Etsy интегрировала компонент Judge-Image из MLLM-as-a-Judge для оценки и оптимизации их системы подписей изображений. Эта интеграция позволила Etsy сократить количество галлюцинаций в подписях, улучшая точность описаний товаров и повышая общий пользовательский опыт.

Заключение

В заключение, Patronus AI’s MLLM-as-a-Judge предлагает автоматизированное решение для оценки и оптимизации приложений ИИ, преобразующих изображения в текст, решая такие проблемы, как галлюцинация в подписях. Предоставляя встроенные оценщики и используя передовые модели, такие как Google Gemini, MLLM-as-a-Judge позволяет разработчикам и организациям улучшать надежность и точность своих мультиформатных систем ИИ, в итоге способствуя большему доверию и вовлеченности пользователей.

admin
Оцените автора
CheatGPT
Добавить комментарий