Runway Gen-4 решает главную проблему AI-видео: согласованность персонажей

Новости

Runway Gen-4 решает главную проблему AI-видео

Сегодня компания Runway AI Inc. представила свою самую передовую модель генерации AI-видео, вступив в новую фазу конкуренции за создание инструментов, способных трансформировать кинопроизводство. Новая система Gen-4 вводит согласованность персонажей и сцен в нескольких кадрах — возможность, которая до сих пор ускользала от большинства генераторов AI-видео. Нью-йоркский стартап, поддерживаемый такими компаниями, как Google, Nvidia и Salesforce, выпускает «Gen-4» для всех платных подписчиков и корпоративных клиентов, с дополнительными функциями, запланированными на конец недели. Пользователи могут создавать клипы продолжительностью пять и десять секунд с разрешением 720p.

Выпуск состоялся всего через несколько дней после того, как OpenAI выпустила новую функцию генерации изображений, которая также позволяет поддерживать согласованность персонажей на изображениях. Выпуск создал культурный феномен, когда миллионы пользователей запросили изображения в стиле Studio Ghibli через ChatGPT. Отчасти именно согласованность стиля Ghibli в чатах вызвала ажиотаж. Модная тенденция стала настолько популярной, что временно обрушила серверы OpenAI, причем директор Сам Альтман твитнул, что «наши графические процессоры плавятся» из-за беспрецедентного спроса.

Визуальная согласованность: недостающий элемент

Недоступность согласованности персонажей привела к огромному вирусному росту функции изображения OpenAI, возможен ли такой же эффект для Runway в видео? Согласованность персонажей и сцен — сохранение одних и тех же визуальных элементов в нескольких кадрах и углах — была ахиллесовой пятой AI-видео генерации. Когда лицо персонажа тонко меняется между кадрами или элемент фона исчезает без объяснения, искусственная природа контента становится сразу очевидной зрителям.

Проблема связана с тем, как эти модели работают на фундаментальном уровне. Предыдущие AI-генераторы относились к каждому кадру как к отдельной творческой задаче, со слабыми связями между ними. Представьте себе, что вы попросите комнату, полную художников, нарисовать кадр фильма, не видя предыдущих или последующих кадров — результат будет визуально фрагментированным.

Эволюция AI-кинопроизводства Runway

Gen-4 основывается на предыдущих инструментах Runway. В октябре компания выпустила Act-One, функцию, позволяющую кинематографистам улавливать выражения лиц со смартфонов и переносить их на персонажей, созданных с помощью AI. В следующем месяце Runway добавила продвинутые настройки камеры, похожие на 3D, в свою модель Gen-3 Alpha Turbo, позволяя пользователям приближать и отдалять сцены, сохраняя формы персонажей.

Эта траектория раскрывает стратегическое видение Runway. В то время как конкуренты сосредотачиваются на создании более реалистичных одиночных изображений или клипов, Runway собирает компоненты полной цифровой производственной линии. Подход больше напоминает работу настоящих кинематографистов — решение проблем производительности, покрытия и визуальной согласованности как взаимосвязанных задач, а не изолированных технических трудностей.

Миллиардная битва AI-видео накаляется

Финансовые последствия значительны для Runway, которая, как сообщается, поднимает новый раунд финансирования, что оценит компанию в $4 миллиарда. По данным финансовых отчетов, стартап стремится достичь выручки в $300 миллионов в этом году после запуска новых продуктов и API для своей видеогенерационной модели.

Runway заключила партнерские отношения с Голливудом, обеспечив сделку с Lionsgate на создание индивидуальной AI-видеогенерационной модели на основе каталога студии в более чем 20,000 тайтлов. Компания также основала Фонд Сотни Фильмов, предлагающий кинематографистам до $1 миллиона для производства фильмов с использованием AI.

Юридические и этические вопросы

Подобно другим AI-компаниям, Runway сталкивается с юридической проверкой своих обучающих данных. Компания в настоящее время защищается в суде по иску художников, утверждающих, что их защищенные авторским правом работы использовались для обучения AI-моделям без разрешения. Runway ссылается на доктрину добросовестного использования в своей защите, хотя суды еще не вынесли окончательного решения по этому применению закона об авторских правах.

Дебаты об авторских правах усилились на прошлой неделе с функцией OpenAI Studio Ghibli, которая позволила пользователям генерировать изображения в характерном стиле анимационной студии Хаяо Миядзаки без явного разрешения. В отличие от OpenAI, которая отказывается генерировать изображения в стиле живых художников, но разрешает стили студии, Runway публично не раскрыла свою политику по подражанию стилю.

Вопросы о будущем и значении созданного контента

По мере того как маркетинговые агентства, создатели образовательного контента и корпоративные команды по связям ищут способы, как такие инструменты, как Gen-4, могут упростить процесс создания видео, вопрос смещается от технических возможностей к креативному применению. Для кинематографистов технология представляет как возможности, так и разрушения. Независимые создатели получают доступ к возможностям создания визуальных эффектов, которые ранее были доступны только крупным студиям, в то время как традиционные специалисты по визуальным эффектам и анимации сталкиваются с неопределенным будущим.

Возможно, самым глубоким аспектом Gen-4 является не то, что он может создать, а то, что он говорит о наших отношениях с визуальными медиа в будущем. Мы входим в эпоху, когда узким местом в производстве является не технический навык или бюджет, а воображение и цель.

admin
Оцените автора
CheatGPT
Добавить комментарий