Medición real del modelo Runway AI Gen-2, la compañía de tecnología detrás de escena de "The Instant Universe": todavía queda un largo camino por recorrer para generar un video con calidad de película

2023-06-12 06:05:01

Por Kyle Wiggers

Fuente: TechCrunch

Fuente de la imagen: generada por la herramienta de IA ilimitada

En una entrevista reciente con Collider, Joe Russo, director de películas de Marvel como Avengers: Endgame, predijo que dentro de dos años, la IA podrá crear una película completa. En este sentido, diría que se trata de una estimación bastante optimista. Pero nos estamos acercando.

Esta semana, la startup de IA respaldada por Google Runway (que ayudó a desarrollar el generador de imágenes de IA Stable Diffusion) lanzó Gen-2, un modelo que genera video basado en indicaciones de texto o imágenes existentes. (Anteriormente, Gen-2 solo estaba disponible en una lista de espera limitada). Como continuación del modelo Gen-1 que Runway lanzó en febrero, Gen-2 fue uno de los primeros modelos de texto a video disponibles comercialmente.

"Disponible comercialmente" es una distinción importante. Texto a video, la próxima frontera lógica para la IA generativa después de las imágenes y el texto, se está convirtiendo en un área de enfoque más grande, especialmente entre los gigantes tecnológicos, algunos de los cuales han demostrado texto a video durante el año pasado. . Pero estos modelos aún se encuentran en la fase de investigación y son inaccesibles para todos, excepto para un puñado de científicos e ingenieros de datos.

Por supuesto, primero no significa mejor.

Por curiosidad personal y como un servicio para usted, querido lector, analicé algunos consejos a través del Gen-2 para ver lo que el modelo podía y no podía lograr. (Runway actualmente ofrece alrededor de 100 segundos de generación de video gratis). No hay mucho método para mi locura, pero estoy tratando de capturar una variedad de ángulos que los directores profesionales o aficionados pueden querer ver en la pantalla o en la pantalla. una laptop, tipo y estilo.

Las limitaciones de Gen-2 se hicieron evidentes de inmediato, con el modelo generando videos de 4 segundos de duración a una velocidad de fotogramas tan baja que tartamudeaba como una presentación de diapositivas en algunos lugares.

Lo que no está claro es si se trata de un problema técnico o del intento de Runway de ahorrar costos computacionales. Pero en cualquier caso, esto hace que Gen-2 sea una propuesta bastante poco atractiva para los editores que buscan evitar el trabajo de posproducción.

Además de los problemas de velocidad de fotogramas, también descubrí que los clips generados por Gen-2 tendían a compartir cierta granulosidad o borrosidad, como si se les hubiera aplicado algún tipo de filtro de Instagram anticuado. Además, hay artefactos en otros lugares, como la pixelación alrededor de los objetos cuando la "cámara" (a falta de una palabra mejor) los rodea o los acerca rápidamente.

Como muchos modelos generativos, Gen-2 no es particularmente consistente en términos de física o anatomía. Como algo que crearía un surrealista, Gen-2 produjo videos de brazos y piernas de personas fusionados y luego separados, mientras los objetos se derretían en el piso y desaparecían, y las sombras se distorsionaban. Y, en el momento justo, el rostro humano podría ser como el de una muñeca, con ojos brillantes y sin emociones y una piel pálida que recuerda al plástico barato.

Más allá de eso, está la cuestión del contenido. Gen-2 parece tener dificultades para comprender los matices, y apegarse a ciertas descripciones en las indicaciones mientras ignora otras parece arbitrario.

Intenté una pista: "un video de una utopía submarina, filmado con una cámara vieja, al estilo de película de 'metraje encontrado'", pero Gen-2 no genera tal utopía, solo una que parece una vista en primera persona Buceo video, a través de un arrecife de coral anónimo. Entre mis otras indicaciones, el Gen-2 tampoco pudo generar una toma ampliada para una indicación que pedía específicamente un "zoom lento", ni entendió completamente cómo se vería un astronauta promedio.

¿Estos problemas están relacionados con el conjunto de datos de entrenamiento Gen-2? Tal vez.

Gen-2, como Stable Diffusion, es un modelo de difusión, lo que significa que aprende a restar gradualmente el ruido de una imagen inicial hecha completamente de ruido para acercarse a la señal paso a paso. Los modelos de difusión aprenden entrenándose en millones o miles de millones de ejemplos; en un artículo académico que detalla la arquitectura Gen-2, Runway dice que el modelo fue entrenado en un conjunto de datos de 240 millones de imágenes y 6,4 millones de clips de video entrenados en el conjunto de datos interno.

La variedad de ejemplos es clave. Si el conjunto de datos no contiene muchos clips de animación, entonces el modelo, al carecer de puntos de referencia, no podrá generar animaciones de calidad razonable. (Por supuesto, la animación es un campo amplio, e incluso si el conjunto de datos tuviera clips de anime o animación dibujada a mano, el modelo no necesariamente se generalizaría bien a todos los tipos de animación).

En el lado positivo, Gen-2 pasa la prueba de sesgo superficial. Si bien se descubrió que los modelos de IA generativa como DALL-E 2 refuerzan los sesgos sociales, generando imágenes de puestos de autoridad, como "CEO o Director", que en su mayoría representaban a hombres blancos, Gen-2 fue más efectivo para generar un poco más. variedad en el contenido, al menos en mis pruebas.

Basado en el mensaje "Un video de un CEO entrando a una sala de conferencias", Gen-2 generó videos de hombres y mujeres (aunque había más hombres que mujeres) sentados alrededor de mesas de conferencias similares. Mientras tanto, Gen-2 muestra a una doctora asiática detrás de un escritorio, según la descripción "Video de un doctor trabajando en una oficina".

Aún así, cualquier mensaje que incluyera la palabra "enfermera" resultó menos positivo, mostrando consistentemente a mujeres jóvenes blancas. Lo mismo ocurre con la frase "camarero". Claramente, Gen-2 todavía tiene mucho trabajo por hacer.

La conclusión de todo esto, para mí, es que Gen-2 es más un juguete novedoso que una herramienta verdaderamente útil en cualquier flujo de trabajo de video. ¿Se pueden editar estos resultados en algo más coherente? Tal vez. Pero dependiendo del video, esto podría ser más trabajo que filmar las imágenes en primer lugar.

Esto no es para descartar la tecnología. Lo que Runway ha hecho es impresionante, superando efectivamente a los gigantes tecnológicos para aprovechar la ventaja de texto a video. Estoy seguro de que algunos usuarios encontrarán que los usos de Gen-2 no requieren realismo ni mucha personalización. (El CEO de Runway, Cristóbal Valenzuela, le dijo recientemente a Bloomberg que ve a Gen-2 como una herramienta para ayudar a los artistas y diseñadores en su proceso creativo).

También lo probé yo mismo. Gen-2 comprende una variedad de estilos, como el anime y la animación con plastilina, que son adecuados para velocidades de cuadro más bajas. No es imposible unir varias piezas para crear una composición narrativa con una pequeña modificación y edición.

Para evitar las falsificaciones profundas, Runway dice que está utilizando una combinación de inteligencia artificial y moderación humana para evitar que los usuarios produzcan videos que incluyan pornografía o violencia o violen los derechos de autor. Puedo confirmar que Gen-2 tiene un filtro de contenido, de hecho, un poco demasiado. Estos no son métodos infalibles, tendremos que ver qué tan bien funcionan en la práctica.

Pero al menos por ahora, los cineastas, animadores, artistas CGI y especialistas en ética pueden estar tranquilos. Pasarán al menos algunas iteraciones antes de que la tecnología de Runway se acerque a producir video de calidad cinematográfica, suponiendo que llegue allí.

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
207k publicaciones
#PI#
152k publicaciones
#ETH#
131k publicaciones
4#GateioInto11#
78k publicaciones
5#ContentStar#
65k publicaciones
6#BOME#
60k publicaciones
7#GT#
59k publicaciones
8#DOGE#
55k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado