Bit News Meta anunció recientemente un marco de IA llamado audio2photoreal, que es capaz de generar una serie de modelos de personajes NPC realistas y "sincronizar los labios" y "posar" automáticamente los modelos de personajes con la ayuda de archivos de voz en off existentes.
El informe oficial de investigación señaló que después de recibir el archivo de doblaje, el marco fotorrealista Audio2 primero generará una serie de modelos NPC y luego utilizará la tecnología de cuantificación y el algoritmo de difusión para generar acciones de modelo, en las que la tecnología de cuantificación proporciona una referencia de muestra de acción para el marco y el algoritmo de difusión se utiliza para mejorar el efecto de las acciones de los personajes generadas por el marco.
El cuarenta y tres por ciento de los evaluadores en el experimento controlado estaban "muy satisfechos" con las escenas de diálogo de los personajes generadas por el marco, por lo que los investigadores consideraron que el marco fotorrealista de Audio2 era capaz de generar movimientos "más dinámicos y expresivos" que los productos de la competencia en la industria. Se informa que el equipo de investigación ahora ha hecho público el código y el conjunto de datos relevantes en GitHub.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Meta anunció el marco de IA audio2photoreal, que puede generar escenas de diálogo de personajes ingresando archivos de doblaje
Bit News Meta anunció recientemente un marco de IA llamado audio2photoreal, que es capaz de generar una serie de modelos de personajes NPC realistas y "sincronizar los labios" y "posar" automáticamente los modelos de personajes con la ayuda de archivos de voz en off existentes.
El informe oficial de investigación señaló que después de recibir el archivo de doblaje, el marco fotorrealista Audio2 primero generará una serie de modelos NPC y luego utilizará la tecnología de cuantificación y el algoritmo de difusión para generar acciones de modelo, en las que la tecnología de cuantificación proporciona una referencia de muestra de acción para el marco y el algoritmo de difusión se utiliza para mejorar el efecto de las acciones de los personajes generadas por el marco.
El cuarenta y tres por ciento de los evaluadores en el experimento controlado estaban "muy satisfechos" con las escenas de diálogo de los personajes generadas por el marco, por lo que los investigadores consideraron que el marco fotorrealista de Audio2 era capaz de generar movimientos "más dinámicos y expresivos" que los productos de la competencia en la industria. Se informa que el equipo de investigación ahora ha hecho público el código y el conjunto de datos relevantes en GitHub.