Новый подход к объединению визуального поколения и понимания
В области многомодальной искусственной интеллекции происходит стремительное развитие, ставящее перед исследователями задачу создания единой структуры для визуального поколения и понимания объектов. Традиционно эти две области изучались отдельно, так как они имеют разные задачи: генеративные модели сосредоточены на создании детализированных изображений, в то время как модели понимания ориентированы на высокоуровневую семантику. Интеграция обеих способностей без ущерба для производительности становится серьезной задачей.
- Модели VQVAE эффективно кодируют детали изображений, но испытывают трудности с согласованием визуальных и текстовых характеристик.
- Модели CLIP превосходны для семантического согласования, но недостаточно точны для высококачественной реконструкции изображений.
Таким образом, необходимость в универсальном токенайзере, который интегрирует эти цели, становится все более очевидной.
Недостатки существующих методов и введение UniTok
Текущие методы визуальной токенизации, как правило, неспособны оптимально выполнять задачи генерации и понимания одновременно. Решение, предложенное исследовательской командой из Университета Гонконга, ByteDance Inc. и Хуачжунского университета науки и технологий, состоит во введении UniTok — дискретного визуального токенайзера. Этот токенайзер преодолевает ограничения существующих подходов с помощью много-кодовой квантизации, что увеличивает емкость токенов без создания оптимизационной нестабильности. Это достигается структурированием векторной квантизации в независимые под-кодира, что позволяет лучше представить визуальные черты для различных задач.
Уникальные черты UniTok
UniTok использует объединенную обучающую парадигму, объединяя цели реконструкции и контрастного обучения. Ядром инновации является много-кодовая квантизация, в которой визуальные токены делятся на несколько независимых под-кодиров. Это способствует увеличению пространства представления, поддерживая эффективность вычислений. UniTok также включает факторизацию, основанную на внимании, что усиливает выразительность токенов, сохраняя семантическую информацию при сжатии. В отличие от традиционной векторной квантизации подход UniTok предотвращает конфликты потерь и улучшает использование токенов.
Достижения и выводы исследования
Экспериментальные тесты подтвердили превосходство UniTok над существующими токенайзерами. UniTok достигает rFID 0.38 на ImageNet, что значительно лучше 0.87 у SD-VAE, указывая на значительное улучшение качества реконструкции. Также он превосходит CLIP по точности классификации с 78.6% против 76.2%. Более того, он демонстрирует высокую точность в бенчмарках по визуальному ответу на вопросы, превосходя VILA-U на 3.3% на TextVQA и показывая значительное улучшение на 112 пунктов в сравнениях MME-Perception.
Успех UniTok предполагает, что улучшение дискретного представления токенов через много-кодовую квантизацию является жизнеспособным решением для унификации многомодальных обучающих структур. Эта разработка прокладывает путь к будущим улучшениям в многомодальном ИИ, предлагая масштабируемое решение для больших моделей «видение-язык». Сильные экспериментальные результаты подтверждают UniTok как многообещающий подход для достижения бесшовной интеграции между зрительным поколением и пониманием.








