NVIDIA améliore son Riva ASR avec de nouvelles capacités multilingues en utilisant les modèles Whisper et Canary, intégrant des fonctionnalités avancées pour la traduction automatique et hors ligne de la parole.
NVIDIA a fait des progrès significatifs dans l'avancement de ses systèmes de Reconnaissance Automatique de la Parole (ASR) en introduisant des capacités améliorées à travers le conteneur et le SDK Riva 2.18.0. Ces développements font partie des efforts continus de NVIDIA pour affiner ses microservices d'IA de traduction et de parole accélérés par GPU, comme détaillé par Sven Chilton sur le blog des développeurs de NVIDIA.
Intégration de nouveaux modèles
La dernière itération de Riva inclut le support de l'architecture Parakeet, qui facilite la transcription automatique multilingue en streaming, ainsi que les modèles Whisper et Canary pour la transcription automatique hors ligne et la traduction automatique de la parole (AST). Whisper, développé par OpenAI, et les modèles Distil-Whisper par HuggingFace, sont désormais intégrés aux capacités de transcription automatique hors ligne de Riva, permettant la transcription et la traduction d'enregistrements audio dans de nombreuses langues directement en anglais.
Les modèles Canary étendent encore davantage la fonctionnalité de Riva en prenant en charge la transcription automatique de la parole (ASR) et la transcription automatique de la parole (AST) hors ligne dans de multiples combinaisons de langues, y compris les traductions de n'importe quelle langue vers l'anglais, de l'anglais vers n'importe quelle langue, et de n'importe quelle langue vers n'importe quelle langue. Ces modèles répondent à des besoins linguistiques divers, offrant un support robuste pour la détection et la traduction de langues.
Désactivation sélective de la TNN
Une des caractéristiques notables introduites dans cette mise à jour est la possibilité de désactiver sélectivement des parties du processus de traduction neuronale (NMT) en utilisant la balise SSML. Cette fonctionnalité permet aux utilisateurs de spécifier des segments de texte qui ne doivent pas être traduits, offrant un plus grand contrôle sur les sorties de traduction. De plus, un nouveau dictionnaire DNT permet de spécifier comment certains mots ou phrases doivent être traduits, améliorant la personnalisation des processus de traduction.
Déploiement et utilisation
Le déploiement de ces nouvelles fonctionnalités est simplifié grâce au dossier de ressources Riva Skills Quick Start, qui comprend les scripts et les fichiers de configuration nécessaires à la configuration d’un serveur Riva avec les fonctionnalités Whisper et Canary. Les utilisateurs peuvent choisir entre les modèles Whisper et Canary en fonction de leurs besoins ASR spécifiques, en utilisant les scripts fournis pour optimiser le déploiement du modèle en fonction de leur architecture GPU.
L’engagement de NVIDIA à étendre la portée linguistique et fonctionnelle de ses systèmes ASR est évident dans l’intégration de ces modèles et fonctionnalités avancés. En prenant en charge un plus large éventail de langues et en offrant des contrôles de traduction améliorés, Riva continue d’établir les normes de l’industrie en matière de reconnaissance vocale et de technologie de traduction.
Pour plus d'informations sur les dernières avancées ASR de NVIDIA, visitez le NVIDIA Developer Blog.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
NVIDIA étend les capacités ASR de Riva avec les modèles Whisper et Canary
Rebeca Moen
21 févr. 2025 10:54
NVIDIA améliore son Riva ASR avec de nouvelles capacités multilingues en utilisant les modèles Whisper et Canary, intégrant des fonctionnalités avancées pour la traduction automatique et hors ligne de la parole.
NVIDIA a fait des progrès significatifs dans l'avancement de ses systèmes de Reconnaissance Automatique de la Parole (ASR) en introduisant des capacités améliorées à travers le conteneur et le SDK Riva 2.18.0. Ces développements font partie des efforts continus de NVIDIA pour affiner ses microservices d'IA de traduction et de parole accélérés par GPU, comme détaillé par Sven Chilton sur le blog des développeurs de NVIDIA.
Intégration de nouveaux modèles
La dernière itération de Riva inclut le support de l'architecture Parakeet, qui facilite la transcription automatique multilingue en streaming, ainsi que les modèles Whisper et Canary pour la transcription automatique hors ligne et la traduction automatique de la parole (AST). Whisper, développé par OpenAI, et les modèles Distil-Whisper par HuggingFace, sont désormais intégrés aux capacités de transcription automatique hors ligne de Riva, permettant la transcription et la traduction d'enregistrements audio dans de nombreuses langues directement en anglais.
Les modèles Canary étendent encore davantage la fonctionnalité de Riva en prenant en charge la transcription automatique de la parole (ASR) et la transcription automatique de la parole (AST) hors ligne dans de multiples combinaisons de langues, y compris les traductions de n'importe quelle langue vers l'anglais, de l'anglais vers n'importe quelle langue, et de n'importe quelle langue vers n'importe quelle langue. Ces modèles répondent à des besoins linguistiques divers, offrant un support robuste pour la détection et la traduction de langues.
Désactivation sélective de la TNN
Une des caractéristiques notables introduites dans cette mise à jour est la possibilité de désactiver sélectivement des parties du processus de traduction neuronale (NMT) en utilisant la balise SSML. Cette fonctionnalité permet aux utilisateurs de spécifier des segments de texte qui ne doivent pas être traduits, offrant un plus grand contrôle sur les sorties de traduction. De plus, un nouveau dictionnaire DNT permet de spécifier comment certains mots ou phrases doivent être traduits, améliorant la personnalisation des processus de traduction.
Déploiement et utilisation
Le déploiement de ces nouvelles fonctionnalités est simplifié grâce au dossier de ressources Riva Skills Quick Start, qui comprend les scripts et les fichiers de configuration nécessaires à la configuration d’un serveur Riva avec les fonctionnalités Whisper et Canary. Les utilisateurs peuvent choisir entre les modèles Whisper et Canary en fonction de leurs besoins ASR spécifiques, en utilisant les scripts fournis pour optimiser le déploiement du modèle en fonction de leur architecture GPU.
L’engagement de NVIDIA à étendre la portée linguistique et fonctionnelle de ses systèmes ASR est évident dans l’intégration de ces modèles et fonctionnalités avancés. En prenant en charge un plus large éventail de langues et en offrant des contrôles de traduction améliorés, Riva continue d’établir les normes de l’industrie en matière de reconnaissance vocale et de technologie de traduction.
Pour plus d'informations sur les dernières avancées ASR de NVIDIA, visitez le NVIDIA Developer Blog.
Source de l'image : Shutterstock