Фактичні вимірювання моделі Runway AI Gen-2, закулісної технологічної компанії «The Instant Universe»: попереду ще довгий шлях, щоб створити відео високої якості

Автор Кайл Віггерс

Джерело: TechCrunch

Джерело зображення: створено інструментом Unbounded AI

У недавньому інтерв’ю Collider Джо Руссо, режисер таких фільмів Marvel, як «Месники: Фінал», передбачив, що протягом двох років ШІ зможе створити повноцінний фільм. У цьому плані я б сказав, що це досить оптимістична оцінка. Але ми наближаємось.

Цього тижня стартап Runway за підтримки Google (який допоміг розробити генератор зображень зі штучним інтелектом Stable Diffusion) випустив Gen-2, модель, яка генерує відео на основі текстових підказок або наявних зображень. (Раніше Gen-2 був доступний лише в обмеженому списку очікування.) Продовженням моделі Gen-1, яку Runway випустила в лютому, Gen-2 була однією з перших комерційно доступних моделей тексту у відео.

«Комерційно доступний» є важливою відмінністю. Перетворення тексту у відео, логічний наступний логічний рубіж для генеративного ШІ після зображень і тексту, стає все більшою сферою уваги, особливо серед технологічних гігантів, деякі з яких продемонстрували перетворення тексту у відео протягом останнього року. . Але ці моделі все ще знаходяться на стадії дослідження і недоступні для всіх, крім кількох науковців та інженерів із обробки даних.

Звичайно, перше не означає краще.

З особистої цікавості та як послуга для вас, дорогий читачу, я пропустив кілька підказок через Gen-2, щоб побачити, чого ця модель може — а чого ні — досягти. (Runway наразі пропонує близько 100 секунд безкоштовного створення відео.) Для мого божевілля немає особливого способу, але я намагаюся захопити ряд ракурсів, які професійні чи аматорські режисери можуть захотіти побачити на екрані чи ноутбук, тип і стиль.

Обмеження Gen-2 стали очевидними одразу: модель створювала 4-секундні відеоролики з такою низькою частотою кадрів, що подекуди вони затримувалися, як слайд-шоу.

Незрозуміло, чи це технічна проблема, чи спроба Runway заощадити обчислювальні витрати. Але в будь-якому випадку це робить Gen-2 досить непривабливою пропозицією для редакторів, які хочуть уникнути пост-продакшну.

Окрім проблем із частотою кадрів, я також виявив, що кліпи, згенеровані Gen-2, зазвичай мають певну зернистість або розмитість, наче до них застосовано якийсь старомодний фільтр Instagram. Крім того, є артефакти в інших місцях, як-от піксельація навколо об’єктів, коли «камера» (через відсутність кращого слова) обходить їх або швидко наближає їх.

Як і багато генеративних моделей, Gen-2 не є особливо послідовним з точки зору фізики чи анатомії. Подібно до того, що створив би сюрреаліст, Gen-2 створив відео рук і ніг людей, злитих разом, а потім розділених, тоді як об’єкти танули на підлозі та зникали, а тіні спотворювалися. І, за наказом, людське обличчя може бути схожим на ляльку, з блискучими очима без емоцій і блідою шкірою, що нагадує дешевий пластик.

Крім цього, є питання змісту. Здається, Gen-2 важко зрозуміти нюанси, і дотримання певних описів у підказках, ігноруючи інші, здається довільним.

Я спробував натякнути — «відео підводної утопії, зняте старою камерою, стиль фільму «знайдено кадри»», — але Gen-2 не генерує такої утопії, лише таку, яка виглядає як перегляд від першої особи Dive відео через анонімний кораловий риф. Серед інших моїх підказок Gen-2 також не зміг створити збільшений знімок для підказки, яка спеціально запитувала «повільне масштабування», а також не міг повністю зрозуміти, як виглядатиме середній астронавт.

Чи пов’язані ці проблеми з набором навчальних даних Gen-2? Може бути.

Gen-2, як і Stable Diffusion, є дифузійною моделлю, що означає, що вона вивчає, як поступово віднімати шум із вихідного зображення, яке повністю складається з шуму, щоб крок за кроком наближатися до сигналу. Дифузійні моделі навчаються, навчаючись на мільйонах чи мільярдах прикладів; в академічній статті, де детально описується архітектура Gen-2, Runway каже, що модель навчалася на наборі даних із 240 мільйонів зображень і 6,4 мільйонів відеокліпів, навчених на внутрішньому наборі даних.

Ключовим є різноманітність прикладів. Якщо набір даних не містить багато анімаційних кліпів, тоді модель – без контрольних точок – не зможе генерувати анімації прийнятної якості. (Звичайно, анімація — це широке поле, і навіть якби в наборі даних були кліпи аніме або намальована анімація, модель не обов’язково добре узагальнювала б усі типи анімації).

Позитивною стороною є те, що Gen-2 проходить перевірку поверхневого упередження. У той час як генеративні моделі штучного інтелекту, такі як DALL-E 2, як виявилося, посилюють соціальні упередження, генеруючи образи авторитетних посад, таких як «генеральний директор або директор», які здебільшого зображують білих чоловіків, Gen-2 був ефективнішим у створенні трохи більше різноманітність у змісті - принаймні в моїх тестах.

На основі підказки «Відео генерального директора, який заходить у конференц-зал», Gen-2 створив відео чоловіків і жінок (хоча чоловіків було більше, ніж жінок), які сидять за однаковими столами для переговорів. Тим часом Gen-2 показує азіатську жінку-лікаря за столом, згідно з описом «Відео лікаря, що працює в офісі».

Тим не менш, будь-яка підказка, яка включала слово «медсестра», виглядала менш позитивно, постійно показуючи молодих білих жінок. Те саме стосується словосполучення «офіціант». Очевидно, у Gen-2 ще багато роботи.

Висновок із усього цього для мене полягає в тому, що Gen-2 — це радше нова іграшка, ніж справді корисний інструмент у будь-якому робочому процесі відео. Чи можна відредагувати ці результати у щось більш узгоджене? Може бути. Але залежно від відео, це може бути більше роботи, ніж зйомка відео.

Це не для того, щоб відкинути технологію. Те, що Runway зробила, вражає, фактично обійшовши технологічних гігантів, щоб скористатися перевагою перетворення тексту у відео. Я впевнений, що деякі користувачі побачать, що використання Gen-2 не потребує ні реалізму, ні великих можливостей налаштування. (Генеральний директор Runway Крістобаль Валенсуела нещодавно сказав Bloomberg, що він бачить Gen-2 як інструмент для художників і дизайнерів, який допоможе їм у творчому процесі).

Я теж сам пробував. Gen-2 розуміє низку стилів, таких як аніме та глиняна анімація, які підходять для нижчої частоти кадрів. Неможливо з’єднати кілька фрагментів, щоб створити оповідну композицію з невеликими змінами та редагуванням.

Щоб уникнути глибоких фейків, Runway каже, що використовує комбінацію штучного інтелекту та людської модерації, щоб запобігти створенню відеороликів, які містять порнографію чи насильство або порушують авторські права. Я можу підтвердити, що у Gen-2 є фільтр вмісту — насправді трохи забагато. Це не безпомилкові методи, ми повинні побачити, наскільки добре вони працюють на практиці.

Але принаймні на даний момент кінематографісти, аніматори, CGI-художники та фахівці з етики можуть бути спокійні. Пройде принаймні кілька ітерацій, перш ніж технологія Runway наблизиться до створення відео кінематографічної якості — якщо припустити, що вона досягне цього.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити