Tin tức từ币界网, Jiēyuè Xīngchén đã phát hành mô hình nhận dạng giọng nói tự động thế hệ mới StepAudio 2.5 ASR, hiện đã được triển khai toàn diện trên nền tảng mở của họ. Phiên bản này tiên phong đưa công nghệ dự đoán nhiều token của mô hình ngôn ngữ lớn (MTP) vào lĩnh vực nhận dạng giọng nói, vừa nâng cao đáng kể tốc độ suy luận, vừa tái sử dụng cửa sổ ngữ cảnh 32K của mô hình lớn, phá vỡ giới hạn của việc chuyển đổi âm thanh dài truyền thống cần cắt ghép. Mô hình mới bằng cách trực tiếp tái sử dụng cửa sổ ngữ cảnh 32K, hỗ trợ đọc một lần toàn bộ âm thanh dài tối đa 30 phút. Trong thử nghiệm đầu vào đầy tải 30 phút, mô hình không xuất hiện giảm độ chính xác theo thời gian, và tỷ lệ lỗi tổng hợp của nó trên 10 bộ dữ liệu kiểm tra mở nguồn chính thức tiếng Anh và Trung như Librispeech đều thấp hơn các đối thủ cạnh tranh.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim