Усовершенствование AI для редактирования изображений
Современные инструменты для редактирования изображений с использованием искусственного интеллекта обладают огромным потенциалом, но не лишены недостатков. Среди таких инструментов выделяется модель латентного диффузионного моделирования от Adobe – Firefly, которая демонстрирует значительные успехи в создании новых изображений на основе текстовых подсказок.
Тем не менее, пользователи Photoshop, использующие генеративные функции Firefly, заметили, что инструмент не всегда справляется с редактированием уже существующих изображений, часто полностью замещая выбранную область содержимым, основанным на текстовой подсказке. В текущей бета-версии Photoshop появилась возможность использовать изображения в качестве ссылки, что частично решает эту проблему. Однако использование таких изображений как подсказок всё ещё остается непредсказуемым, что создаёт сложности в синтезе изображений и управлении ими.
Диффузионное моделирование в редактировании изображений
Диффузионное моделирование представляется сложным процессом, в котором каждое состояние изображения зависит от текстовой подсказки пользователя. Исследователи AI часто стремятся использовать мощные генеративные возможности латентных диффузионных моделей (LDM) для редактирования изображений, достигая устойчивого баланса между точностью (фиделити) и гибкостью модели.
- Одним из методов достижения этого баланса является инверсия с плотным привязыванием (Tight Inversion), которая улучшает процесс редактирования, сохраняя оригинальную структуру изображений.
- Методика инверсии позволяет встраивать изображение в пространство модели, максимально сохраняя первоначальные данные, но всё же позволяя вносить значительные изменения.
Технологические достижения и их оценки
Обилие исследовательских работ и модифицированных архитектур, таких как Renoise и IP-Adapter, позволяет достигать лучших результатов в редактировании изображений. Однако, несмотря на то, что некоторые добавочные методы, использующие такие архитектуры, способны улучшать редактирование, существует необходимость в их интеграции в более широкие платформы, такие как Photoshop.
Новая методика Tight Inversion оказывается весьма перспективной. Интерсепция дробных улучшений на отдельных этапах редактирования позволяет значительно повысить уровень синтеза изображений, избегая ненужных искажений и потерь информации.
Методы и тестирование
Исследователи использовали большой языковую модель (LLM) для генерации текстовых подсказок, после чего применяли алгоритмы инверсии к изображению новыми способами. Для этого они использовали несколько методик, включая Scheduler DDIM, IP-Adapter, и обновлённые версии моделей, такие как SDXL-Turbo.
Подробные тесты с использованием набора данных MS-COCO показали, что метод Tight Inversion значительно улучшает как реконструкцию, так и возможность редактирования изображений.
Проблемы и перспективы
Новый подход демонстрирует возможность значительных улучшений в области AI-редактирования изображений, однако остаются вопросы о пределах возможных достижений в этой области. Проблемы, связанные с нахождением компромиссов между редактируемостью и сохранностью оригинала, ещё предстоит разрешить на уровне будущих исследованиях и разработках.
Тем не менее, результаты испытаний показывают, что Tight Inversion превосходит ранее существующие методы и предоставляет новые возможности для редактирования с использованием AI, позволяя создавать изображения более высокого качества и точности.








