Meta anunció el marco de IA audio2photoreal, que puede generar escenas de diálogo de personajes ingresando archivos de doblaje

Bit News Meta anunció recientemente un marco de IA llamado audio2photoreal, que es capaz de generar una serie de modelos de personajes NPC realistas y "sincronizar los labios" y "posar" automáticamente los modelos de personajes con la ayuda de archivos de voz en off existentes.

El informe oficial de investigación señaló que después de recibir el archivo de doblaje, el marco fotorrealista Audio2 primero generará una serie de modelos NPC y luego utilizará la tecnología de cuantificación y el algoritmo de difusión para generar acciones de modelo, en las que la tecnología de cuantificación proporciona una referencia de muestra de acción para el marco y el algoritmo de difusión se utiliza para mejorar el efecto de las acciones de los personajes generadas por el marco.

El cuarenta y tres por ciento de los evaluadores en el experimento controlado estaban "muy satisfechos" con las escenas de diálogo de los personajes generadas por el marco, por lo que los investigadores consideraron que el marco fotorrealista de Audio2 era capaz de generar movimientos "más dinámicos y expresivos" que los productos de la competencia en la industria. Se informa que el equipo de investigación ahora ha hecho público el código y el conjunto de datos relevantes en GitHub.

AUDIO0.94%

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
194k publicaciones
#ETH#
121k publicaciones
#PI#
105k publicaciones
4#GateioInto11#
77k publicaciones
5#ContentStar#
64k publicaciones
6#BOME#
60k publicaciones
7#GT#
57k publicaciones
8#DOGE#
53k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado