Taalas, một công ty chip AI, có đội ngũ chỉ hơn hai mươi người nhưng đã huy động hơn 200 triệu USD vốn đầu tư.
Sản phẩm đầu tiên HC1 đi theo một hướng cực đoan: sử dụng công nghệ Mask ROM để cố định trực tiếp trọng số của Llama3.18B vào lớp kim loại của chip, các đơn vị tính toán và tham số mô hình nằm trên cùng một mảnh silicon, gần như từ bỏ khả năng lập trình lại, đổi lấy tối ưu hóa về thông lượng, độ trễ và hiệu quả năng lượng cực hạn. Hiện tại họ cố định là Llama3.18B, trải nghiệm thử thì trả lời không đáng tin cậy, rất không ổn định. Nhưng vấn đề là nó quá nhanh, trải nghiệm cực kỳ phản trực giác, có thể nghiền nát Groq, với khả năng xuất 17,000 tokens/giây trên một chip, chỉ chớp mắt đã tạo ra hàng chục nghìn từ, khả năng này còn vượt xa cả truy vấn cơ sở dữ liệu. Nếu trong tương lai các mô hình lớn thực sự chỉ còn vài công ty hàng đầu tiếp tục đổi mới, cấu trúc mô hình dần ổn định, tần suất cập nhật trọng số chậm lại, thì việc thiết kế một chip riêng cho một mô hình nhất định có thể không phải là điều điên rồ. Chúng ta hiện tại giả định mô hình sẽ luôn biến đổi mạnh mẽ, vì vậy khả năng tính toán phải linh hoạt. Nhưng nếu mô hình bắt đầu hướng tới tiêu chuẩn hóa? Ghi trọng số vào silicon rồi dùng kiến trúc cực kỳ chuyên dụng để tối ưu hóa thông lượng, giảm thiểu chi phí. Hiện tại, xu hướng mô hình bắt đầu tập trung hóa, một khi cấu trúc của các mô hình hàng đầu ổn định, thì thực sự đáng để phát triển một dòng chip chuyên dụng dựa trên cấu trúc của chính nó. Tiềm năng bùng nổ của con đường này có thể rất đáng kinh ngạc. Nếu đúng như vậy, có một câu hỏi phản biện không theo đám đông: Liệu hình thái GPU có thực sự là đỉnh cao vĩnh viễn?
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Taalas, một công ty chip AI, có đội ngũ chỉ hơn hai mươi người nhưng đã huy động hơn 200 triệu USD vốn đầu tư.
Sản phẩm đầu tiên HC1 đi theo một hướng cực đoan: sử dụng công nghệ Mask ROM để cố định trực tiếp trọng số của Llama3.18B vào lớp kim loại của chip, các đơn vị tính toán và tham số mô hình nằm trên cùng một mảnh silicon, gần như từ bỏ khả năng lập trình lại, đổi lấy tối ưu hóa về thông lượng, độ trễ và hiệu quả năng lượng cực hạn.
Hiện tại họ cố định là Llama3.18B, trải nghiệm thử thì trả lời không đáng tin cậy, rất không ổn định.
Nhưng vấn đề là nó quá nhanh, trải nghiệm cực kỳ phản trực giác, có thể nghiền nát Groq, với khả năng xuất 17,000 tokens/giây trên một chip, chỉ chớp mắt đã tạo ra hàng chục nghìn từ, khả năng này còn vượt xa cả truy vấn cơ sở dữ liệu.
Nếu trong tương lai các mô hình lớn thực sự chỉ còn vài công ty hàng đầu tiếp tục đổi mới, cấu trúc mô hình dần ổn định, tần suất cập nhật trọng số chậm lại, thì việc thiết kế một chip riêng cho một mô hình nhất định có thể không phải là điều điên rồ.
Chúng ta hiện tại giả định mô hình sẽ luôn biến đổi mạnh mẽ, vì vậy khả năng tính toán phải linh hoạt.
Nhưng nếu mô hình bắt đầu hướng tới tiêu chuẩn hóa?
Ghi trọng số vào silicon rồi dùng kiến trúc cực kỳ chuyên dụng để tối ưu hóa thông lượng, giảm thiểu chi phí.
Hiện tại, xu hướng mô hình bắt đầu tập trung hóa, một khi cấu trúc của các mô hình hàng đầu ổn định, thì thực sự đáng để phát triển một dòng chip chuyên dụng dựa trên cấu trúc của chính nó.
Tiềm năng bùng nổ của con đường này có thể rất đáng kinh ngạc.
Nếu đúng như vậy, có một câu hỏi phản biện không theo đám đông: Liệu hình thái GPU có thực sự là đỉnh cao vĩnh viễn?