Переосмысление обучения видео ИИ с акцентом на пользователя
Исследование, озаглавленное «VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation», представляет новый подход к созданию обучающих данных для генеративных моделей, которые стремятся лучше удовлетворить нужды пользователей.
Примеры нового подхода
Как отмечено в статье, даже если пользователь задает весьма простой запрос, многие модели имеют трудности с корректным ответом. Один из примеров, иллюстрируемых в новой работе, показывает, как модель OpenAI Sora с трудом генерирует изображение светящегося светлячка. Это связано с тем, что результаты тренировки не были адаптированы к выдаче нужных пользователей.
Собирание данных для массового использования
Новая методология объединяет множество видео-клипов с темами, которые потенциально интересны пользователям, например светящийся светлячок или ночной лес. Суммарно, датасет VideoUFO состоит из 1.9 миллионов клипов, охватывающих 1291 тему.
Новая методология и подход к сбору данных
Авторы предлагают между индивидуальной обработкой данных для каждого типа модели и использованием широкой и всеобъемлющей коллекции, такой как LAION. VideoUFO разработан для совместимости с популярными AI моделями и был протестирован с различными системами, такими как Adobe Firefly.
Выводы и перспективы
Новая работа подчеркивает недостатки прежних подходов в использовании тренировки на гипермасштабных датасетах. VideoUFO предлагает свежий путь подбора материалов для генеративных моделей, но требует дальнейших тестирований и проверок. Модель доступна на ресурсе Hugging Face и готова к дальнейшим исследованиям.








