Medição real do modelo Runway AI Gen-2, a empresa de tecnologia dos bastidores do "The Instant Universe": ainda há um longo caminho a percorrer para gerar um vídeo com qualidade de filme
Fonte da imagem: Gerada pela ferramenta Unbounded AI
Em uma entrevista recente ao Collider, Joe Russo, diretor de filmes da Marvel como Avengers: Endgame, previu que dentro de dois anos, a IA será capaz de criar um filme completo. Nesse sentido, eu diria que essa é uma estimativa bastante otimista. Mas estamos nos aproximando.
Esta semana, a Runway, startup de IA apoiada pelo Google (que ajudou a desenvolver o gerador de imagem AI Stable Diffusion) lançou o Gen-2, um modelo que gera vídeo com base em prompts de texto ou imagens existentes. (Anteriormente, o Gen-2 estava disponível apenas em uma lista de espera limitada.) Uma continuação do modelo Gen-1 lançado pela Runway em fevereiro, o Gen-2 foi um dos primeiros modelos de texto para vídeo disponíveis comercialmente.
"Comercialmente disponível" é uma distinção importante. Texto para vídeo, a próxima fronteira lógica para IA generativa depois de imagens e texto, está se tornando uma área de foco maior, especialmente entre os gigantes da tecnologia, alguns dos quais demonstraram texto para vídeo no ano passado. . Mas esses modelos ainda estão em fase de pesquisa e são inacessíveis a todos, exceto a um punhado de cientistas e engenheiros de dados.
Claro, primeiro não significa melhor.
Por curiosidade pessoal e como um serviço para você, caro leitor, dei algumas dicas no Gen-2 para ver o que o modelo poderia - e não poderia - realizar. (Atualmente, a Runway oferece cerca de 100 segundos de geração de vídeo gratuita.) Não há muito método para minha loucura, mas estou tentando capturar uma variedade de ângulos que diretores profissionais ou amadores podem querer ver na tela ou em um laptop, tipo e estilo.
As limitações do Gen-2 tornaram-se imediatamente aparentes, com o modelo gerando vídeos de 4 segundos em uma taxa de quadros tão baixa que gaguejava como uma apresentação de slides em alguns lugares.
O que não está claro é se isso é um problema técnico ou uma tentativa da Runway de economizar custos computacionais. Mas em ambos os casos, isso torna o Gen-2 uma proposta pouco atraente para editores que procuram evitar o trabalho de pós-produção.
Além dos problemas de taxa de quadros, também descobri que os clipes gerados pela Gen-2 tendiam a compartilhar uma certa granulação ou desfoque, como se tivessem algum tipo de filtro antiquado do Instagram aplicado a eles. Além disso, existem artefatos em outros lugares, como pixelização em torno de objetos quando a "câmera" (por falta de uma palavra melhor) os contorna ou os aproxima rapidamente.
Como muitos modelos generativos, o Gen-2 não é particularmente consistente em termos de física ou anatomia. Como algo que um surrealista criaria, o Gen-2 produziu vídeos de braços e pernas de pessoas fundidos e depois separados, enquanto os objetos derretiam no chão e desapareciam, e as sombras eram distorcidas. E - na deixa - o rosto humano pode ser como o de uma boneca, com olhos brilhantes e sem emoção e pele pálida que lembra plástico barato.
Além disso, há a questão do conteúdo. Gen-2 parece ter dificuldade em entender as nuances, e seguir certas descrições em prompts enquanto ignora outras parece arbitrário.
Eu tentei uma dica - "um vídeo de uma utopia subaquática, filmada com uma câmera antiga, estilo de filme 'found footage" - mas Gen-2 não gera tal utopia, apenas uma que parece uma visão em primeira pessoa Dive vídeo, através de um recife de coral anônimo. Entre meus outros prompts, o Gen-2 também falhou em gerar uma foto com zoom para um prompt que pedia especificamente um "zoom lento", nem compreendia totalmente como seria um astronauta comum.
Esses problemas estão relacionados ao conjunto de dados de treinamento Gen-2? Talvez.
Gen-2, como Stable Diffusion, é um modelo de difusão, o que significa que ele aprende como subtrair gradualmente o ruído de uma imagem inicial feita inteiramente de ruído para abordar a sugestão passo a passo. Os modelos de difusão aprendem treinando em milhões a bilhões de exemplos; em um artigo acadêmico detalhando a arquitetura Gen-2, a Runway diz que o modelo foi treinado em um conjunto de dados de 240 milhões de imagens e 6,4 milhões de videoclipes. treinados no conjunto de dados interno.
A variedade de exemplos é fundamental. Se o conjunto de dados não contiver muitos clipes de animação, o modelo - sem pontos de referência - não poderá gerar animações de qualidade razoável. (Claro, a animação é um campo amplo e, mesmo que o conjunto de dados tivesse clipes de anime ou animação desenhada à mão, o modelo não necessariamente generalizaria bem para todos os tipos de animação).
No lado positivo, o Gen-2 passa no teste de viés superficial. Enquanto modelos generativos de IA como o DALL-E 2 reforçavam preconceitos sociais, gerando imagens de posições de autoridade - como "CEO ou diretor" - que retratavam principalmente homens brancos, o Gen-2 foi mais eficaz em gerar um pouco mais de variedade de conteúdo - pelo menos em meus testes.
Com base no prompt "Um vídeo de um CEO entrando em uma sala de conferência", o Gen-2 gerou vídeos de homens e mulheres (embora houvesse mais homens do que mulheres) sentados em torno de mesas de conferência semelhantes. Enquanto isso, Gen-2 mostra uma médica asiática atrás de uma mesa, de acordo com a descrição "Vídeo de um médico trabalhando em um escritório".
Ainda assim, qualquer sugestão que incluísse a palavra "enfermeira" era menos positiva, mostrando consistentemente mulheres brancas jovens. O mesmo vale para a frase "garçom". Claramente, Gen-2 ainda tem muito trabalho a fazer.
A conclusão de tudo isso, para mim, é que o Gen-2 é mais um brinquedo inovador do que uma ferramenta realmente útil em qualquer fluxo de trabalho de vídeo. Essas saídas podem ser editadas em algo mais coerente? Talvez. Mas dependendo do vídeo, isso pode ser mais trabalhoso do que filmar em primeiro lugar.
Isso não é descartar a tecnologia. O que a Runway fez é impressionante, superando efetivamente os gigantes da tecnologia para aproveitar a vantagem do texto para vídeo. Tenho certeza de que alguns usuários descobrirão que os usos do Gen-2 não exigem realismo nem muita personalização. (O CEO da Runway, Cristóbal Valenzuela, disse recentemente à Bloomberg que vê o Gen-2 como uma ferramenta para artistas e designers ajudarem em seu processo criativo).
Eu também tentei eu mesmo. O Gen-2 entende uma variedade de estilos, como anime e animação de argila, que são adequados para taxas de quadros mais baixas. Não é impossível juntar várias peças para criar uma composição narrativa com uma pequena modificação e edição.
Para evitar deepfakes, a Runway diz que está usando uma combinação de inteligência artificial e moderação humana para impedir que os usuários produzam vídeos que incluam pornografia ou violência ou violem direitos autorais. Posso confirmar que o Gen-2 tem um filtro de conteúdo - um pouco demais, na verdade. Estes não são métodos infalíveis, teremos que ver como eles funcionam na prática.
Mas, pelo menos por enquanto, cineastas, animadores, artistas CGI e especialistas em ética podem ficar tranquilos. Levará pelo menos algumas iterações antes que a tecnologia da Runway chegue perto de produzir vídeo com qualidade cinematográfica - supondo que chegue lá.
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Medição real do modelo Runway AI Gen-2, a empresa de tecnologia dos bastidores do "The Instant Universe": ainda há um longo caminho a percorrer para gerar um vídeo com qualidade de filme
Por Kyle Wiggers
Fonte: TechCrunch
Em uma entrevista recente ao Collider, Joe Russo, diretor de filmes da Marvel como Avengers: Endgame, previu que dentro de dois anos, a IA será capaz de criar um filme completo. Nesse sentido, eu diria que essa é uma estimativa bastante otimista. Mas estamos nos aproximando.
Esta semana, a Runway, startup de IA apoiada pelo Google (que ajudou a desenvolver o gerador de imagem AI Stable Diffusion) lançou o Gen-2, um modelo que gera vídeo com base em prompts de texto ou imagens existentes. (Anteriormente, o Gen-2 estava disponível apenas em uma lista de espera limitada.) Uma continuação do modelo Gen-1 lançado pela Runway em fevereiro, o Gen-2 foi um dos primeiros modelos de texto para vídeo disponíveis comercialmente.
"Comercialmente disponível" é uma distinção importante. Texto para vídeo, a próxima fronteira lógica para IA generativa depois de imagens e texto, está se tornando uma área de foco maior, especialmente entre os gigantes da tecnologia, alguns dos quais demonstraram texto para vídeo no ano passado. . Mas esses modelos ainda estão em fase de pesquisa e são inacessíveis a todos, exceto a um punhado de cientistas e engenheiros de dados.
Claro, primeiro não significa melhor.
Por curiosidade pessoal e como um serviço para você, caro leitor, dei algumas dicas no Gen-2 para ver o que o modelo poderia - e não poderia - realizar. (Atualmente, a Runway oferece cerca de 100 segundos de geração de vídeo gratuita.) Não há muito método para minha loucura, mas estou tentando capturar uma variedade de ângulos que diretores profissionais ou amadores podem querer ver na tela ou em um laptop, tipo e estilo.
As limitações do Gen-2 tornaram-se imediatamente aparentes, com o modelo gerando vídeos de 4 segundos em uma taxa de quadros tão baixa que gaguejava como uma apresentação de slides em alguns lugares.
Além dos problemas de taxa de quadros, também descobri que os clipes gerados pela Gen-2 tendiam a compartilhar uma certa granulação ou desfoque, como se tivessem algum tipo de filtro antiquado do Instagram aplicado a eles. Além disso, existem artefatos em outros lugares, como pixelização em torno de objetos quando a "câmera" (por falta de uma palavra melhor) os contorna ou os aproxima rapidamente.
Como muitos modelos generativos, o Gen-2 não é particularmente consistente em termos de física ou anatomia. Como algo que um surrealista criaria, o Gen-2 produziu vídeos de braços e pernas de pessoas fundidos e depois separados, enquanto os objetos derretiam no chão e desapareciam, e as sombras eram distorcidas. E - na deixa - o rosto humano pode ser como o de uma boneca, com olhos brilhantes e sem emoção e pele pálida que lembra plástico barato.
Eu tentei uma dica - "um vídeo de uma utopia subaquática, filmada com uma câmera antiga, estilo de filme 'found footage" - mas Gen-2 não gera tal utopia, apenas uma que parece uma visão em primeira pessoa Dive vídeo, através de um recife de coral anônimo. Entre meus outros prompts, o Gen-2 também falhou em gerar uma foto com zoom para um prompt que pedia especificamente um "zoom lento", nem compreendia totalmente como seria um astronauta comum.
Esses problemas estão relacionados ao conjunto de dados de treinamento Gen-2? Talvez.
Gen-2, como Stable Diffusion, é um modelo de difusão, o que significa que ele aprende como subtrair gradualmente o ruído de uma imagem inicial feita inteiramente de ruído para abordar a sugestão passo a passo. Os modelos de difusão aprendem treinando em milhões a bilhões de exemplos; em um artigo acadêmico detalhando a arquitetura Gen-2, a Runway diz que o modelo foi treinado em um conjunto de dados de 240 milhões de imagens e 6,4 milhões de videoclipes. treinados no conjunto de dados interno.
A variedade de exemplos é fundamental. Se o conjunto de dados não contiver muitos clipes de animação, o modelo - sem pontos de referência - não poderá gerar animações de qualidade razoável. (Claro, a animação é um campo amplo e, mesmo que o conjunto de dados tivesse clipes de anime ou animação desenhada à mão, o modelo não necessariamente generalizaria bem para todos os tipos de animação).
Com base no prompt "Um vídeo de um CEO entrando em uma sala de conferência", o Gen-2 gerou vídeos de homens e mulheres (embora houvesse mais homens do que mulheres) sentados em torno de mesas de conferência semelhantes. Enquanto isso, Gen-2 mostra uma médica asiática atrás de uma mesa, de acordo com a descrição "Vídeo de um médico trabalhando em um escritório".
A conclusão de tudo isso, para mim, é que o Gen-2 é mais um brinquedo inovador do que uma ferramenta realmente útil em qualquer fluxo de trabalho de vídeo. Essas saídas podem ser editadas em algo mais coerente? Talvez. Mas dependendo do vídeo, isso pode ser mais trabalhoso do que filmar em primeiro lugar.
Isso não é descartar a tecnologia. O que a Runway fez é impressionante, superando efetivamente os gigantes da tecnologia para aproveitar a vantagem do texto para vídeo. Tenho certeza de que alguns usuários descobrirão que os usos do Gen-2 não exigem realismo nem muita personalização. (O CEO da Runway, Cristóbal Valenzuela, disse recentemente à Bloomberg que vê o Gen-2 como uma ferramenta para artistas e designers ajudarem em seu processo criativo).
Para evitar deepfakes, a Runway diz que está usando uma combinação de inteligência artificial e moderação humana para impedir que os usuários produzam vídeos que incluam pornografia ou violência ou violem direitos autorais. Posso confirmar que o Gen-2 tem um filtro de conteúdo - um pouco demais, na verdade. Estes não são métodos infalíveis, teremos que ver como eles funcionam na prática.
Mas, pelo menos por enquanto, cineastas, animadores, artistas CGI e especialistas em ética podem ficar tranquilos. Levará pelo menos algumas iterações antes que a tecnologia da Runway chegue perto de produzir vídeo com qualidade cinematográfica - supondo que chegue lá.