NVIDIA Expands Riva ASR Capabilities with Whisper and Canary Models

2025-02-21 17:09:48

Generación de resúmenes en curso

Rebeca Moen

21 de febrero de 2025 10:54

NVIDIA mejora su Riva ASR con nuevas capacidades multilingües utilizando los modelos Whisper y Canary, integrando funciones avanzadas para la traducción de voz fuera de línea y automática.

¡NVIDIA expande las capacidades de Riva ASR con los modelos Whisper y Canary!(https://img.gateio.im/social/moments-640ea0fcb3b5ee18827a1ee3ad912a1a)

NVIDIA ha dado grandes pasos en el avance de sus sistemas de reconocimiento automático del habla (ASR) al introducir capacidades mejoradas a través del contenedor y SDK Riva 2.18.0. Estos desarrollos forman parte de los esfuerzos continuos de NVIDIA para refinar sus microservicios de inteligencia artificial para el habla y la traducción acelerados por GPU, como detalla Sven Chilton en el blog para desarrolladores de NVIDIA.

Integración de Nuevos Modelos

La última iteración de Riva incluye soporte para la arquitectura Parakeet, que facilita la transmisión multilingüe de ASR, y los modelos Whisper y Canary para ASR sin conexión y traducción automática del habla (AST). Whisper, desarrollado por OpenAI, y los modelos Distil-Whisper de HuggingFace, son ahora parte integral de las capacidades de ASR sin conexión de Riva, lo que permite la transcripción y traducción de grabaciones de audio en numerosos idiomas directamente al inglés.

Los modelos Canary amplían aún más la funcionalidad de Riva al admitir ASR y AST sin conexión en múltiples combinaciones de idiomas, incluidas las traducciones de cualquier idioma al inglés, del inglés a cualquier idioma y de cualquier idioma a cualquier idioma. Estos modelos satisfacen diversas necesidades lingüísticas, ofreciendo un sólido soporte para tareas de detección y traducción de idiomas.

Desactivación selectiva de NMT

Una de las características destacadas introducidas en esta actualización es la capacidad de desactivar selectivamente partes del proceso de Traducción Automática Neural NMT utilizando la etiqueta SSML. Esta característica permite a los usuarios especificar segmentos de texto que no deben ser traducidos, proporcionando un mayor control sobre las salidas de traducción. Además, un nuevo diccionario DNT permite la especificación de cómo ciertas palabras o frases deben ser traducidas, mejorando la personalización de los procesos de traducción.

Implementación y Uso

La implementación de estas nuevas capacidades se simplifica a través de la carpeta de recursos de inicio rápido de Riva Skills, que incluye scripts y archivos de configuración necesarios para configurar un servidor Riva con funcionalidades de Whisper y Canary. Los usuarios pueden elegir entre los modelos Whisper y Canary según sus necesidades específicas de ASR, utilizando los scripts proporcionados para optimizar la implementación del modelo según la arquitectura de su GPU.

El compromiso de NVIDIA de ampliar el alcance lingüístico y funcional de sus sistemas ASR es evidente en la integración de estos modelos y funciones avanzados. Al admitir una gama más amplia de idiomas y ofrecer controles de traducción mejorados, Riva continúa estableciendo estándares de la industria en tecnología de reconocimiento de voz y traducción.

Para obtener más información sobre los últimos avances ASR de NVIDIA, visite el blog de desarrolladores de NVIDIA.

Image source: Shutterstock

ASR2.91%

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Show My Alpha Points
11k Popularidad
2Crypto Market Rebound
164k Popularidad
3SEC Crypto Project
19k Popularidad
4CandyDrop Airdrop Event 6.0
98k Popularidad
5White House Crypto Report
82k Popularidad

Anclado