В последние годы интеграция технологий генерации изображений в различные платформы открыла новые возможности для улучшения пользовательского опыта. Однако с расширением этих мультиформатных систем ИИ — способных обрабатывать и генерировать множественные формы данных, такие как текст и изображения — возникли такие проблемы, как «галлюцинация в подписи». Это явление происходит, когда сгенерированные ИИ описания изображений содержат неточности или неуместные детали, что может подорвать доверие и вовлеченность пользователей. Традиционные методы оценки этих систем зачастую опираются на ручную проверку, которая не масштабируется и неэффективна, подчеркивая необходимость автоматизированных и надежных инструментов оценки, учитывающих особенности мультиформатных приложений.
Patronus AI представила первую в отрасли мультиформатную LLM-as-a-Judge, предназначенную для оценки и оптимизации систем ИИ, которые преобразуют входящие изображения в текстовые выходные данные. Этот инструмент использует модель Gemini от Google, выбранную за сбалансированный подход к оценке и постоянное распределение баллов, что отличает её от альтернатив, таких как GPT-4V от OpenAI, которая продемонстрировала более высокий уровень эгоцентризма. MLLM-as-a-Judge соответствует приверженности Patronus AI к развитию масштабируемого надзора за системами ИИ, предоставляя разработчикам возможность оценивать и улучшать производительность их мультиформатных приложений.
Технические возможности MLLM-as-a-Judge
Технически MLLM-as-a-Judge оснащена для обработки и оценки задач генерации изображений в текст. Она предлагает встроенные оценщики, которые создают эталонные изображения, анализируя такие атрибуты, как наличие и расположение текста, сетевые структуры, пространственная ориентация и идентификация объектов. Suite оценщиков включает такие критерии, как:
- описание главного объекта
- описание неосновных объектов
- галлюцинации в подписи
- строгие галлюцинации в подписи
- упоминание в подписи места главного объекта
Эти оценщики позволяют проводить всестороннюю оценку подписей изображений, гарантируя, что сгенерированные описания точно отражают визуальное содержание.
Практическое применение и преимущества
Помимо проверки точности подписей, MLLM-as-a-Judge может использоваться для тестирования релевантности скриншотов товаров в ответ на запросы пользователей, проверки точности извлечений оптического распознавания символов (OCR) для табличных данных и оценки достоверности изображений брендов и логотипов, сгенерированных ИИ.
Практическое применение MLLM-as-a-Judge демонстрируется её внедрением компанией Etsy, известной платформой электронной коммерции, специализирующейся на товарах ручной работы и винтаже. Команда Etsy применяет генеративный ИИ для автоматической генерации подписей к изображениям товаров, загружаемых продавцами, упрощая процесс листинга. Однако они столкнулись с проблемами качества их мультиформатных систем ИИ, так как автоматически сгенерированные подписи часто содержали ошибки и неожиданные выходные данные. Чтобы решить эту проблему, Etsy интегрировала компонент Judge-Image из MLLM-as-a-Judge для оценки и оптимизации их системы подписей изображений. Эта интеграция позволила Etsy сократить количество галлюцинаций в подписях, улучшая точность описаний товаров и повышая общий пользовательский опыт.
Заключение
В заключение, Patronus AI’s MLLM-as-a-Judge предлагает автоматизированное решение для оценки и оптимизации приложений ИИ, преобразующих изображения в текст, решая такие проблемы, как галлюцинация в подписях. Предоставляя встроенные оценщики и используя передовые модели, такие как Google Gemini, MLLM-as-a-Judge позволяет разработчикам и организациям улучшать надежность и точность своих мультиформатных систем ИИ, в итоге способствуя большему доверию и вовлеченности пользователей.








