NVIDIA étend les capacités ASR de Riva avec les modèles Whisper et Canary

robot
Création du résumé en cours

Rebeca Moen

21 févr. 2025 10:54

NVIDIA améliore son Riva ASR avec de nouvelles capacités multilingues en utilisant les modèles Whisper et Canary, intégrant des fonctionnalités avancées pour la traduction automatique et hors ligne de la parole.

NVIDIA étend les capacités Riva ASR avec les modèles Whisper et Canary

NVIDIA a fait des progrès significatifs dans l'avancement de ses systèmes de Reconnaissance Automatique de la Parole (ASR) en introduisant des capacités améliorées à travers le conteneur et le SDK Riva 2.18.0. Ces développements font partie des efforts continus de NVIDIA pour affiner ses microservices d'IA de traduction et de parole accélérés par GPU, comme détaillé par Sven Chilton sur le blog des développeurs de NVIDIA.

Intégration de nouveaux modèles

La dernière itération de Riva inclut le support de l'architecture Parakeet, qui facilite la transcription automatique multilingue en streaming, ainsi que les modèles Whisper et Canary pour la transcription automatique hors ligne et la traduction automatique de la parole (AST). Whisper, développé par OpenAI, et les modèles Distil-Whisper par HuggingFace, sont désormais intégrés aux capacités de transcription automatique hors ligne de Riva, permettant la transcription et la traduction d'enregistrements audio dans de nombreuses langues directement en anglais.

Les modèles Canary étendent encore davantage la fonctionnalité de Riva en prenant en charge la transcription automatique de la parole (ASR) et la transcription automatique de la parole (AST) hors ligne dans de multiples combinaisons de langues, y compris les traductions de n'importe quelle langue vers l'anglais, de l'anglais vers n'importe quelle langue, et de n'importe quelle langue vers n'importe quelle langue. Ces modèles répondent à des besoins linguistiques divers, offrant un support robuste pour la détection et la traduction de langues.

Désactivation sélective de la TNN

Une des caractéristiques notables introduites dans cette mise à jour est la possibilité de désactiver sélectivement des parties du processus de traduction neuronale (NMT) en utilisant la balise SSML. Cette fonctionnalité permet aux utilisateurs de spécifier des segments de texte qui ne doivent pas être traduits, offrant un plus grand contrôle sur les sorties de traduction. De plus, un nouveau dictionnaire DNT permet de spécifier comment certains mots ou phrases doivent être traduits, améliorant la personnalisation des processus de traduction.

Déploiement et utilisation

Le déploiement de ces nouvelles fonctionnalités est simplifié grâce au dossier de ressources Riva Skills Quick Start, qui comprend les scripts et les fichiers de configuration nécessaires à la configuration d’un serveur Riva avec les fonctionnalités Whisper et Canary. Les utilisateurs peuvent choisir entre les modèles Whisper et Canary en fonction de leurs besoins ASR spécifiques, en utilisant les scripts fournis pour optimiser le déploiement du modèle en fonction de leur architecture GPU.

L’engagement de NVIDIA à étendre la portée linguistique et fonctionnelle de ses systèmes ASR est évident dans l’intégration de ces modèles et fonctionnalités avancés. En prenant en charge un plus large éventail de langues et en offrant des contrôles de traduction améliorés, Riva continue d’établir les normes de l’industrie en matière de reconnaissance vocale et de technologie de traduction.

Pour plus d'informations sur les dernières avancées ASR de NVIDIA, visitez le NVIDIA Developer Blog.

Source de l'image : Shutterstock

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)