Переосмысление обучения видео ИИ с акцентом на пользователя

Новости

Переосмысление обучения видео ИИ с акцентом на пользователя

Исследование, озаглавленное «VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation», представляет новый подход к созданию обучающих данных для генеративных моделей, которые стремятся лучше удовлетворить нужды пользователей.

Примеры нового подхода

Как отмечено в статье, даже если пользователь задает весьма простой запрос, многие модели имеют трудности с корректным ответом. Один из примеров, иллюстрируемых в новой работе, показывает, как модель OpenAI Sora с трудом генерирует изображение светящегося светлячка. Это связано с тем, что результаты тренировки не были адаптированы к выдаче нужных пользователей.

Собирание данных для массового использования

Новая методология объединяет множество видео-клипов с темами, которые потенциально интересны пользователям, например светящийся светлячок или ночной лес. Суммарно, датасет VideoUFO состоит из 1.9 миллионов клипов, охватывающих 1291 тему.

Новая методология и подход к сбору данных

Авторы предлагают между индивидуальной обработкой данных для каждого типа модели и использованием широкой и всеобъемлющей коллекции, такой как LAION. VideoUFO разработан для совместимости с популярными AI моделями и был протестирован с различными системами, такими как Adobe Firefly.

Выводы и перспективы

Новая работа подчеркивает недостатки прежних подходов в использовании тренировки на гипермасштабных датасетах. VideoUFO предлагает свежий путь подбора материалов для генеративных моделей, но требует дальнейших тестирований и проверок. Модель доступна на ресурсе Hugging Face и готова к дальнейшим исследованиям.

admin
Оцените автора
CheatGPT
Добавить комментарий