NVIDIA nâng cấp Riva ASR của mình với khả năng đa ngôn ngữ mới bằng cách sử dụng các mô hình Whisper và Canary, tích hợp các tính năng tiên tiến cho việc dịch giọng nói offline và tự động.
NVIDIA đã đạt được những bước tiến quan trọng trong việc phát triển hệ thống Nhận dạng Giọng nói Tự động ASR( của mình bằng cách giới thiệu các khả năng cải tiến thông qua container và SDK Riva 2.18.0. Những tiến triển này là một phần của những nỗ lực liên tục của NVIDIA để tinh chỉnh các dịch vụ AI micro dựa trên GPU cho giọng nói và dịch thuật, như được mô tả bởi Sven Chilton trên Blog của Nhà phát triển NVIDIA.
Tích hợp các Mô hình Mới
Phiên bản mới nhất của Riva bao gồm hỗ trợ cho kiến trúc Parakeet, giúp tạo điều kiện cho ASR đa ngôn ngữ trực tuyến, và các mô hình Whisper và Canary cho ASR ngoại tuyến và Dịch Tiếng Nói Tự Động )AST(. Whisper, được phát triển bởi OpenAI, và các mô hình Distil-Whisper của HuggingFace, hiện là một phần không thể thiếu của khả năng ASR ngoại tuyến của Riva, cho phép chép văn bản và dịch các bản ghi âm sang tiếng Anh trực tiếp từ nhiều ngôn ngữ.
Các mô hình Canary mở rộng thêm tính năng của Riva bằng cách hỗ trợ ASR và AST ngoại tuyến trong nhiều kết hợp ngôn ngữ, bao gồm các bản dịch Any-to-English, English-to-Any và Any-to-Any. Các mô hình này phục vụ cho nhu cầu ngôn ngữ đa dạng, cung cấp sự hỗ trợ mạnh mẽ cho các nhiệm vụ phát hiện ngôn ngữ và dịch thuật.
Tắt NMT Lựa Chọn
Một trong những tính năng đáng chú ý được giới thiệu trong bản cập nhật này là khả năng vô hiệu hóa một cách chọn lọc các phần của quá trình Dịch Máy Nơ-ron )NMT( bằng cách sử dụng thẻ SSML. Tính năng này cho phép người dùng chỉ định các đoạn văn bản không nên được dịch, cung cấp sự kiểm soát lớn hơn đối với kết quả dịch. Ngoài ra, từ điển DNT mới cho phép chỉ định cách mà một số từ hoặc cụm từ cụ thể nên được dịch, nâng cao tính cá nhân hóa của quá trình dịch.
Triển khai và sử dụng
Triển khai các khả năng mới này được tinh gọn thông qua thư mục tài nguyên Khởi đầu Nhanh Riva Skills, bao gồm các tập lệnh và tệp cấu hình cần thiết để thiết lập máy chủ Riva với các chức năng Whisper và Canary. Người dùng có thể lựa chọn giữa các mô hình Whisper và Canary dựa trên nhu cầu ASR cụ thể của họ, sử dụng các tập lệnh được cung cấp để tối ưu hóa việc triển khai mô hình theo kiến trúc GPU của họ.
Cam kết của NVIDIA trong việc mở rộng phạm vi ngôn ngữ và chức năng của hệ thống ASR của mình được thể hiện rõ trong việc tích hợp các mô hình và tính năng tiên tiến này. Bằng việc hỗ trợ một loạt ngôn ngữ rộng hơn và cung cấp các điều khiển dịch chuyển cải tiến, Riva tiếp tục đặt ra tiêu chuẩn ngành trong công nghệ nhận dạng giọng nói và dịch thuật.
Để biết thêm thông tin về các tiến bộ ASR mới nhất của NVIDIA, hãy truy cập NVIDIA Developer Blog.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
NVIDIA Mở rộng khả năng ASR của Riva với các mô hình Whisper và Canary
Rebeca Moen
21 tháng 2, 2025 10:54
NVIDIA nâng cấp Riva ASR của mình với khả năng đa ngôn ngữ mới bằng cách sử dụng các mô hình Whisper và Canary, tích hợp các tính năng tiên tiến cho việc dịch giọng nói offline và tự động.
! NVIDIA mở rộng khả năng Riva ASR với các mô hình Whisper và Canary
NVIDIA đã đạt được những bước tiến quan trọng trong việc phát triển hệ thống Nhận dạng Giọng nói Tự động ASR( của mình bằng cách giới thiệu các khả năng cải tiến thông qua container và SDK Riva 2.18.0. Những tiến triển này là một phần của những nỗ lực liên tục của NVIDIA để tinh chỉnh các dịch vụ AI micro dựa trên GPU cho giọng nói và dịch thuật, như được mô tả bởi Sven Chilton trên Blog của Nhà phát triển NVIDIA.
Tích hợp các Mô hình Mới
Phiên bản mới nhất của Riva bao gồm hỗ trợ cho kiến trúc Parakeet, giúp tạo điều kiện cho ASR đa ngôn ngữ trực tuyến, và các mô hình Whisper và Canary cho ASR ngoại tuyến và Dịch Tiếng Nói Tự Động )AST(. Whisper, được phát triển bởi OpenAI, và các mô hình Distil-Whisper của HuggingFace, hiện là một phần không thể thiếu của khả năng ASR ngoại tuyến của Riva, cho phép chép văn bản và dịch các bản ghi âm sang tiếng Anh trực tiếp từ nhiều ngôn ngữ.
Các mô hình Canary mở rộng thêm tính năng của Riva bằng cách hỗ trợ ASR và AST ngoại tuyến trong nhiều kết hợp ngôn ngữ, bao gồm các bản dịch Any-to-English, English-to-Any và Any-to-Any. Các mô hình này phục vụ cho nhu cầu ngôn ngữ đa dạng, cung cấp sự hỗ trợ mạnh mẽ cho các nhiệm vụ phát hiện ngôn ngữ và dịch thuật.
Tắt NMT Lựa Chọn
Một trong những tính năng đáng chú ý được giới thiệu trong bản cập nhật này là khả năng vô hiệu hóa một cách chọn lọc các phần của quá trình Dịch Máy Nơ-ron )NMT( bằng cách sử dụng thẻ SSML. Tính năng này cho phép người dùng chỉ định các đoạn văn bản không nên được dịch, cung cấp sự kiểm soát lớn hơn đối với kết quả dịch. Ngoài ra, từ điển DNT mới cho phép chỉ định cách mà một số từ hoặc cụm từ cụ thể nên được dịch, nâng cao tính cá nhân hóa của quá trình dịch.
Triển khai và sử dụng
Triển khai các khả năng mới này được tinh gọn thông qua thư mục tài nguyên Khởi đầu Nhanh Riva Skills, bao gồm các tập lệnh và tệp cấu hình cần thiết để thiết lập máy chủ Riva với các chức năng Whisper và Canary. Người dùng có thể lựa chọn giữa các mô hình Whisper và Canary dựa trên nhu cầu ASR cụ thể của họ, sử dụng các tập lệnh được cung cấp để tối ưu hóa việc triển khai mô hình theo kiến trúc GPU của họ.
Cam kết của NVIDIA trong việc mở rộng phạm vi ngôn ngữ và chức năng của hệ thống ASR của mình được thể hiện rõ trong việc tích hợp các mô hình và tính năng tiên tiến này. Bằng việc hỗ trợ một loạt ngôn ngữ rộng hơn và cung cấp các điều khiển dịch chuyển cải tiến, Riva tiếp tục đặt ra tiêu chuẩn ngành trong công nghệ nhận dạng giọng nói và dịch thuật.
Để biết thêm thông tin về các tiến bộ ASR mới nhất của NVIDIA, hãy truy cập NVIDIA Developer Blog.
Nguồn hình ảnh: Shutterstock