Salesforce AI предлагает ViUniT для улучшения надежности визуальных программ
Визуальное программирование стало сильным трендом в области компьютерного зрения и ИИ, особенно в части обработки изображений. Оно позволяет компьютерам создавать выполняемый код, который взаимодействует с визуальным контентом. Системы визуального программирования лежат в основе приложений по обнаружению объектов, описанию изображений и VQA. Причиной их эффективности является возможность модульного выполнения различных задач логического рассуждения. Однако, в отличие от традиционного программирования, где ошибки логики можно обнаружить при вводе синтаксиса и отладке, визуальные программы могут выдавать кажущиеся корректные результаты, которые, тем не менее, логически неверны.
Проблемы визуального программирования
В значительной мере визуальные программы основываются на статистических корреляциях. Недостаток систематических проверок приводит к тому, что ошибки часто остаются незамеченными, и требуется более надежная система верификации. Обучение на размеченных наборах данных имеет ограничения, так как дорого и может не охватывать все случаи использования. Традиционные методы модульного тестирования не обеспечивают проверку логической правильности решений программ.
ViUniT: новая парадигма для тестирования визуальных программ
Исследователи внедрили ViUniT, чтобы повысить надежность визуальных программ, генерируя тесты, которые оценивают логическую правильность. В отличие от традиционных текстовых приложений, ViUniT создает тесты в формате «изображение-ответ», что позволяет проверить, правильно ли программа понимает связи и атрибуты.
Преимущества и достижения ViUniT
ViUniT использует большие языковые модели (LLMs) для генерации тестовых случаев, выводя описания изображений в синтетические изображения. Модуль тестирования сравнивает ответы с ожидаемыми. Это подтвердила результативность тестов, улучшив среднюю точность на 11.4% на трех наборах данных и сократив число логически неверных программ на 40%.
Выводы и ключевые достижения
В результате работы с ViUniT исследователи выявили, что только 33% тестированных программ были полностью корректны. ViUniT уменьшила количество программ с логическими ошибками на 40% и улучшила точность моделей благодаря новым приложениям — выбору лучших программ, отказу в ответах и повторному промту.








