Mesure réelle du modèle Runway AI Gen-2, la société technologique des coulisses de "The Instant Universe": Il reste encore un long chemin à parcourir pour générer une vidéo de qualité cinématographique

2023-06-12 06:05:01

Par Kyle Wiggers

Source : TechCrunch

Source de l'image : générée par l'outil d'IA illimitée

Dans une récente interview avec Collider, Joe Russo, réalisateur de films Marvel tels que Avengers : Endgame, a prédit que d'ici deux ans, l'IA sera capable de créer un film à part entière. À cet égard, je dirais qu'il s'agit d'une estimation assez optimiste. Mais on se rapproche.

Cette semaine, la startup AI soutenue par Google Runway (qui a aidé à développer le générateur d'images AI Stable Diffusion) a publié Gen-2, un modèle qui génère des vidéos basées sur des invites textuelles ou des images existantes. (Gen-2 n'était auparavant disponible que sur une liste d'attente limitée.) Suite au modèle Gen-1 lancé par Runway en février, le Gen-2 était l'un des premiers modèles de texte en vidéo disponibles dans le commerce.

"Disponible dans le commerce" est une distinction importante. Le texte en vidéo, la prochaine frontière logique logique pour l'IA générative après les images et le texte, devient un domaine d'intérêt plus important, en particulier parmi les géants de la technologie, dont certains ont fait la démonstration du texte en vidéo au cours de l'année écoulée. . Mais ces modèles sont encore en phase de recherche et inaccessibles à une poignée de data scientists et d'ingénieurs.

Bien sûr, premier ne veut pas dire meilleur.

Par curiosité personnelle et pour vous rendre service, cher lecteur, j'ai parcouru quelques indices sur le Gen-2 pour voir ce que le modèle pouvait – et ne pouvait pas – accomplir. (Runway offre actuellement environ 100 secondes de génération vidéo gratuite.) Il n'y a pas vraiment de méthode à ma folie, mais j'essaie de capturer une gamme d'angles que les réalisateurs professionnels ou amateurs pourraient vouloir voir à l'écran ou sur un ordinateur portable, type et style.

Les limites de Gen-2 sont devenues immédiatement apparentes, le modèle générant des vidéos de 4 secondes à une fréquence d'images si faible qu'il bégayait comme un diaporama par endroits.

Ce qui n'est pas clair, c'est s'il s'agit d'un problème technique ou de la tentative de Runway de réduire les coûts de calcul. Mais dans les deux cas, cela fait de la Gen-2 une proposition plutôt peu attrayante pour les éditeurs qui cherchent à éviter le travail de post-production.

Outre les problèmes de fréquence d'images, j'ai également constaté que les clips générés par Gen-2 avaient tendance à partager un certain grain ou flou, comme s'ils avaient une sorte de filtre Instagram à l'ancienne qui leur était appliqué. De plus, il y a des artefacts ailleurs, comme la pixellisation autour des objets lorsque la "caméra" (faute d'un meilleur mot) les contourne ou les zoome rapidement.

Comme de nombreux modèles génératifs, Gen-2 n'est pas particulièrement cohérent en termes de physique ou d'anatomie. Comme quelque chose qu'un surréaliste créerait, Gen-2 a produit des vidéos de bras et de jambes fusionnés puis séparés, tandis que des objets se fondaient dans le sol et disparaissaient, et que les ombres étaient déformées. Et - au bon moment - le visage humain pourrait ressembler à une poupée, avec des yeux brillants et sans émotion et une peau pâle rappelant le plastique bon marché.

Au-delà, il y a la question du contenu. Gen-2 semble avoir du mal à comprendre les nuances, et s'en tenir à certaines descriptions dans les invites tout en ignorant les autres semble arbitraire.

J'ai essayé un indice - "une vidéo d'une utopie sous-marine, filmée avec un vieil appareil photo, style de film" found footage "" - mais Gen-2 ne génère pas une telle utopie, une seule qui ressemble à une vue à la première personne vidéo, à travers un récif corallien anonyme. Parmi mes autres invites, la Gen-2 n'a pas non plus réussi à générer une prise de vue agrandie pour une invite qui demandait spécifiquement un "zoom lent", ni à saisir pleinement à quoi ressemblerait un astronaute moyen.

Ces problèmes sont-ils liés à l'ensemble de données d'entraînement Gen-2 ? Peut être.

Gen-2, comme Stable Diffusion, est un modèle de diffusion, ce qui signifie qu'il apprend à soustraire progressivement le bruit d'une image de départ entièrement faite de bruit pour approcher le repère étape par étape. Les modèles de diffusion apprennent en s'entraînant sur des millions à des milliards d'exemples ; dans un article académique détaillant l'architecture Gen-2, Runway indique que le modèle a été formé sur un ensemble de données de 240 millions d'images et 6,4 millions de clips vidéo formés sur l'ensemble de données interne.

La variété des exemples est essentielle. Si l'ensemble de données ne contient pas beaucoup de clips d'animation, le modèle (sans points de référence) ne pourra pas générer d'animations de qualité raisonnable. (Bien sûr, l'animation est un vaste domaine, et même si l'ensemble de données contenait des clips d'anime ou d'animation dessinée à la main, le modèle ne se généraliserait pas nécessairement bien à tous les types d'animation).

Du côté positif, le Gen-2 réussit le test de biais superficiel. Alors que les modèles d'IA générative comme le DALL-E 2 se sont avérés renforcer les préjugés sociaux, générant des images de postes d'autorité - tels que "PDG ou directeur" - qui représentaient principalement des hommes blancs, Gen-2 était plus efficace pour générer un peu plus variété de contenu - du moins dans mes tests.

Sur la base de l'invite "Une vidéo d'un PDG entrant dans une salle de conférence", Gen-2 a généré des vidéos d'hommes et de femmes (bien qu'il y ait plus d'hommes que de femmes) assis autour de tables de conférence similaires. Pendant ce temps, Gen-2 sort une femme médecin asiatique derrière un bureau, selon la description "Vidéo d'un médecin travaillant dans un bureau".

Pourtant, toute invite contenant le mot "infirmière" s'est avérée moins positive, montrant systématiquement de jeunes femmes blanches. Il en va de même pour l'expression "serveur". De toute évidence, Gen-2 a encore beaucoup de travail à faire.

La conclusion de tout cela, pour moi, est que la Gen-2 est plus un jouet de nouveauté qu'un outil vraiment utile dans n'importe quel flux de travail vidéo. Ces sorties peuvent-elles être éditées en quelque chose de plus cohérent ? Peut être. Mais selon la vidéo, cela peut représenter plus de travail que de filmer les images en premier lieu.

Il ne s'agit pas de rejeter la technologie. Ce que Runway a fait est impressionnant, battant efficacement les géants de la technologie pour prendre l'avantage du texte en vidéo. Je suis sûr que certains utilisateurs trouveront que les utilisations de Gen-2 ne nécessitent pas de réalisme, ni beaucoup de personnalisation. (Le PDG de Runway, Cristóbal Valenzuela, a récemment déclaré à Bloomberg qu'il considérait Gen-2 comme un outil permettant aux artistes et aux designers de les aider dans leur processus de création).

J'ai aussi essayé moi-même. Gen-2 comprend une gamme de styles, tels que l'anime et l'animation d'argile, qui conviennent aux fréquences d'images inférieures. Il n'est pas impossible d'enchaîner plusieurs morceaux pour créer une composition narrative avec un peu de modification et de montage.

Pour éviter les deepfakes, Runway dit utiliser une combinaison d'intelligence artificielle et de modération humaine pour empêcher les utilisateurs de produire des vidéos contenant de la pornographie ou de la violence ou violant les droits d'auteur. Je peux confirmer que Gen-2 a un filtre de contenu - un peu trop, en fait. Ce ne sont pas des méthodes infaillibles, nous devrons voir si elles fonctionnent bien dans la pratique.

Mais au moins pour l'instant, les cinéastes, les animateurs, les artistes CGI et les éthiciens peuvent dormir tranquilles. Il faudra au moins quelques itérations avant que la technologie de Runway ne soit proche de produire une vidéo de qualité cinématographique – en supposant qu'elle y parvienne.

Voir l'original

Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#BTC#
207k publications
#PI#
152k publications
#ETH#
131k publications
4#GateioInto11#
78k publications
5#ContentStar#
65k publications
6#BOME#
60k publications
7#GT#
59k publications
8#DOGE#
55k publications
9#MAGA#
52k publications
10#SLERF#
51k publications

Épingler