Фактическое измерение модели ИИ Runway Gen-2, закулисной технологической компании «Мгновенной Вселенной»: до создания видео кинематографического качества еще далеко.

Кайл Виггерс

Источник: TechCrunch

Источник изображения: сгенерировано инструментом Unbounded AI

В недавнем интервью Collider Джо Руссо, режиссер таких фильмов Marvel, как «Мстители: Финал», предсказал, что в течение двух лет ИИ сможет создать полноценный фильм. В связи с этим я бы сказал, что это достаточно оптимистичная оценка. Но мы приближаемся.

На этой неделе поддерживаемый Google ИИ-стартап Runway (который помог разработать генератор ИИ-изображений Stable Diffusion) выпустил Gen-2, модель, которая генерирует видео на основе текстовых подсказок или существующих изображений. (Gen-2 ранее был доступен только в ограниченном списке ожидания.) Следуя за моделью Gen-1, которую Runway выпустила в феврале, Gen-2 была одной из первых коммерчески доступных моделей преобразования текста в видео.

«Коммерчески доступный» является важным отличием. Преобразование текста в видео, логический следующий логический рубеж для генеративного ИИ после изображений и текста, становится все более важным направлением, особенно среди технологических гигантов, некоторые из которых продемонстрировали преобразование текста в видео за последний год. . Но эти модели все еще находятся на стадии исследования и недоступны для всех, кроме горстки специалистов по данным и инженеров.

Конечно, первое не значит лучше.

Из личного любопытства и в качестве услуги для вас, дорогой читатель, я провел несколько подсказок через Gen-2, чтобы увидеть, что модель может — и не может — выполнить. (В настоящее время «Подиум» предлагает около 100 секунд бесплатного создания видео.) В моем безумии нет особого метода, но я пытаюсь запечатлеть ряд ракурсов, которые профессиональные или любительские режиссеры могут захотеть увидеть на экране или на экране. ноутбук, тип и стиль.

Ограничения Gen-2 сразу стали очевидны: модель создавала 4-секундные видеоролики с такой низкой частотой кадров, что местами она заикалась, как слайд-шоу.

Неясно, является ли это технической проблемой или попыткой Runway сэкономить вычислительные затраты. Но в любом случае это делает Gen-2 довольно непривлекательным предложением для редакторов, которые хотят избежать постпродакшна.

Помимо проблем с частотой кадров, я также обнаружил, что клипы, сгенерированные Gen-2, имели тенденцию к определенной зернистости или размытости, как если бы к ним применялся какой-то старомодный фильтр Instagram. Кроме того, в других местах есть артефакты, такие как пикселизация вокруг объектов, когда «камера» (из-за отсутствия лучшего слова) обходит их или быстро приближается к ним.

Как и многие генеративные модели, Gen-2 не особенно последователен с точки зрения физики или анатомии. Подобно тому, что создал бы сюрреалист, Gen-2 создавал видео рук и ног людей, слитых вместе, а затем разделенных, в то время как объекты растворялись в полу и исчезали, а тени искажались. И, кстати, человеческое лицо может быть кукольным, с блестящими бесстрастными глазами и бледной кожей, напоминающей дешевый пластик.

Помимо этого, есть вопрос содержания. Gen-2, похоже, с трудом понимает нюансы, и придерживаться одних описаний в подсказках, игнорируя другие, кажется произвольным.

Я попробовал подсказку - "видео подводной утопии, снятое на старую камеру, в стиле фильма "найденные кадры"" - но Gen-2 не генерирует такую утопию, а только похожую на вид от первого лица Dive видео через анонимный коралловый риф. Среди других моих подсказок Gen-2 также не смог создать увеличенный снимок для подсказки, которая специально запрашивала «медленное масштабирование», и не полностью понял, как будет выглядеть средний космонавт.

Связаны ли эти проблемы с набором обучающих данных Gen-2? Может быть.

Gen-2, как и Stable Diffusion, является диффузионной моделью, что означает, что он учится постепенно вычитать шум из начального изображения, полностью состоящего из шума, чтобы шаг за шагом приближаться к реплике. Диффузионные модели учатся, обучаясь на миллионах и миллиардах примеров; в академической статье, подробно описывающей архитектуру Gen-2, Ранвей говорит, что модель была обучена на наборе данных из 240 миллионов изображений и 6,4 миллиона видеоклипов, обученных на внутреннем наборе данных.

Ключевое значение имеет разнообразие примеров. Если набор данных не содержит много анимационных клипов, то модель — без опорных точек — не сможет генерировать анимацию приемлемого качества. (Конечно, анимация — это широкая область, и даже если в наборе данных есть фрагменты аниме или рисованной анимации, модель не обязательно будет хорошо обобщаться для всех типов анимации).

Положительным моментом является то, что Gen-2 проходит тест на поверхностную предвзятость. Хотя было обнаружено, что генеративные модели ИИ, такие как DALL-E 2, усиливают социальные предубеждения, создавая образы авторитетных должностей, таких как «генеральный директор или директор», которые в основном изображали белых мужчин, Gen-2 был более эффективным в создании немного больше разнообразие в содержании - по крайней мере, в моих тестах.

Основываясь на подсказке «Видео, на котором генеральный директор входит в конференц-зал», Gen-2 создал видео мужчин и женщин (хотя мужчин было больше, чем женщин), сидящих за одинаковыми столами для конференций. Между тем, Gen-2 выводит азиатскую женщину-врача за столом, согласно описанию «Видео врача, работающего в офисе».

Тем не менее, любая подсказка, включающая слово «медсестра», оказывалась менее положительной, постоянно показывая молодых белых женщин. То же самое касается фразы «официант». Очевидно, что у Gen-2 еще много работы.

Вывод из всего этого для меня заключается в том, что Gen-2 — это скорее новая игрушка, чем действительно полезный инструмент в любом рабочем процессе видео. Можно ли преобразовать эти результаты во что-то более связное? Может быть. Но в зависимости от видео это может быть больше работы, чем сама съемка.

Это не отказ от технологии. То, что удалось сделать Runway, впечатляет: они эффективно обыграли технологических гигантов, получив преимущество преобразования текста в видео. Я уверен, что некоторые пользователи обнаружат, что использование Gen-2 не требует ни реализма, ни большой настраиваемости. (Генеральный директор Runway Кристобаль Валенсуэла недавно сказал Bloomberg, что он рассматривает Gen-2 как инструмент для художников и дизайнеров, помогающий в их творческом процессе).

Я тоже пробовал сам. Gen-2 понимает ряд стилей, таких как аниме и пластилиновая анимация, которые подходят для более низкой частоты кадров. Можно связать несколько частей вместе, чтобы создать повествовательную композицию с небольшой модификацией и редактированием.

Чтобы избежать дипфейков, Runway заявляет, что использует комбинацию искусственного интеллекта и модерации, чтобы пользователи не создавали видео, содержащие порнографию или сцены насилия или нарушающие авторские права. Я могу подтвердить, что у Gen-2 есть фильтр контента — на самом деле, даже слишком. Это не надежные методы, нам нужно посмотреть, насколько хорошо они работают на практике.

Но, по крайней мере, сейчас кинематографисты, аниматоры, компьютерные художники и специалисты по этике могут спать спокойно. Пройдет как минимум несколько итераций, прежде чем технология Runway приблизится к производству видео кинематографического качества — если, конечно, она до него доберется.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить