Cạnh tranh vé AI: Các công ty lớn của Trung Quốc cạnh tranh GPU

Nguồn丨Later LatePost

Text丨Zhang Jiahao

Cả thế giới đang tranh giành sức mạnh tính toán, và các công ty lớn của Trung Quốc càng cấp bách hơn.

Vào nửa cuối năm 2022, trong khi AI sáng tạo đang bùng nổ, a16z, một quỹ đầu tư mạo hiểm nổi tiếng ở Thung lũng Silicon, đã đến thăm hàng chục công ty khởi nghiệp AI và các công ty công nghệ lớn. Họ phát hiện ra rằng các công ty khởi nghiệp đã dành 80% -90% số tiền tài trợ ban đầu của họ cho các nền tảng điện toán đám mây để đào tạo các mô hình của riêng họ. Họ ước tính rằng ngay cả khi sản phẩm của các công ty này đã trưởng thành, họ vẫn phải dành 10% -20% doanh thu của mình cho các công ty điện toán đám mây hàng năm. Nó tương đương với một "thuế AI".

Điều này đã mang lại một thị trường rộng lớn để cung cấp các khả năng mô hình và dịch vụ đào tạo trên đám mây, đồng thời cho các khách hàng và công ty khởi nghiệp khác thuê sức mạnh tính toán. Chỉ riêng ở Trung Quốc, ít nhất hàng chục công ty mới thành lập và các công ty vừa và nhỏ đang tạo ra các mô hình ngôn ngữ lớn phức tạp của riêng họ và tất cả họ đều phải thuê GPU từ các nền tảng điện toán đám mây. Theo tính toán của a16z, chi phí điện toán AI hàng năm của một công ty chỉ vượt quá 50 triệu đô la Mỹ trước khi có đủ quy mô để hỗ trợ mua hàng loạt GPU.

Theo "LatePost", sau lễ hội mùa xuân năm nay, tất cả các công ty Internet lớn ở Trung Quốc có dịch vụ điện toán đám mây đều đã đặt hàng lớn với Nvidia. Byte đã đặt hàng hơn 1 tỷ đô la Mỹ GPU từ Nvidia trong năm nay và một công ty lớn khác đã đặt hàng ít nhất hơn 1 tỷ nhân dân tệ.

Chỉ riêng Byte có thể đã đặt hàng trong năm nay gần bằng tổng số GPU thương mại mà Nvidia đã bán tại Trung Quốc vào năm ngoái. Vào tháng 9 năm ngoái, khi chính phủ Hoa Kỳ ban hành các hạn chế xuất khẩu đối với A100 và H100 (GPU thương mại trung tâm dữ liệu thế hệ thứ hai mới nhất của NVIDIA), Nvidia đã phản hồi rằng điều này có thể ảnh hưởng đến 400 triệu đô la Mỹ (khoảng 2,8 tỷ nhân dân tệ) của họ tại thị trường Trung Quốc. quý IV năm ngoái. RMB) doanh số tiềm năng. Dựa trên tính toán này, doanh số bán GPU của trung tâm dữ liệu Nvidia tại Trung Quốc vào năm 2022 sẽ vào khoảng 10 tỷ nhân dân tệ.

So với những gã khổng lồ ở nước ngoài, các công ty công nghệ lớn của Trung Quốc đang khẩn trương mua GPU hơn. Trong quá trình giảm chi phí và tăng hiệu quả trong hai năm qua, một số nền tảng điện toán đám mây đã giảm mua GPU và không đủ dự trữ. Ngoài ra, không ai có thể đảm bảo rằng GPU hiệu suất cao có thể mua hôm nay sẽ phải chịu những hạn chế mới vào ngày mai.

Từ cắt giảm đơn đặt hàng đến thêm mua hàng, trong khi di chuyển nội bộ

Trước đầu năm nay, nhu cầu về GPU từ các công ty công nghệ lớn của Trung Quốc rất thấp.

GPU có hai mục đích sử dụng chính trong các công ty công nghệ Internet lớn của Trung Quốc: một là hỗ trợ nội bộ doanh nghiệp và thực hiện một số nghiên cứu AI tiên tiến, hai là bán GPU trên nền tảng điện toán đám mây.

Một người từ Byte nói với LatePost rằng sau khi OpenAI phát hành GPT-3 vào tháng 6 năm 2020, Byte đã đào tạo một mô hình ngôn ngữ tổng quát lớn với hàng tỷ tham số, lúc đó GPU chính được sử dụng là tiền thân của A100.V100. Do quy mô tham số hạn chế, khả năng tạo ra mô hình này ở mức trung bình và Byte không thể nhìn thấy khả năng thương mại hóa của nó vào thời điểm đó, "không thể tính được ROI (lợi tức đầu tư)", lần này nỗ lực đã thất bại.

Ali cũng tích cực mua GPU trong năm 2018-2019. Theo nguồn tin từ đám mây của Alibaba, số tiền mua hàng của Ali vào thời điểm đó ít nhất lên tới hàng chục nghìn nhân dân tệ và các mẫu được mua chủ yếu là V100 và T4 do Nvidia phát hành trước đó. Tuy nhiên, chỉ khoảng 1/10 số GPU này được trao cho Học viện DAMO để nghiên cứu và phát triển công nghệ AI. Sau khi phát hành mô hình lớn M6 có thông số nghìn tỷ vào năm 2021, Học viện Pháp đã tiết lộ rằng 480 chiếc V100 đã được sử dụng để huấn luyện M6.

Nhiều GPU mà Alibaba mua vào thời điểm đó đã được trao cho Alibaba Cloud để cho bên ngoài thuê. Tuy nhiên, bao gồm cả Alibaba Cloud, một nhóm các công ty điện toán đám mây Trung Quốc đã đánh giá quá cao nhu cầu AI tại thị trường Trung Quốc. Một nhà đầu tư công nghệ cho biết, trước sự bùng nổ của các mô hình quy mô lớn, sức mạnh tính toán GPU của các nhà cung cấp đám mây lớn trong nước không phải là thiếu hàng mà lo bán, thậm chí các nhà cung cấp đám mây còn phải giảm giá để bán tài nguyên. Năm ngoái, Alibaba Cloud đã giảm giá sáu lần và giá cho thuê GPU giảm hơn 20%.

Trong bối cảnh giảm chi phí và tăng hiệu quả, đồng thời theo đuổi "tăng trưởng chất lượng" và lợi nhuận, có thể hiểu rằng Ali đã giảm quy mô mua sắm GPU sau năm 2020 và Tencent cũng cắt giảm một đợt GPU Nvidia vào cuối năm ngoái .

Tuy nhiên, không lâu sau đó, vào đầu năm 2022, ChatGPT đã thay đổi quan điểm của mọi người và nhanh chóng đạt được sự đồng thuận: mô hình lớn là cơ hội lớn không thể bỏ lỡ.

Những người sáng lập của mỗi công ty đều trực tiếp chú ý đến tiến độ của mô hình lớn: Zhang Yiming, người sáng lập ByteDance, bắt đầu đọc các bài báo về trí tuệ nhân tạo; Zhang Yong, chủ tịch hội đồng quản trị của Alibaba, đã tiếp quản Alibaba Cloud và đã công bố tiến độ của mô hình lớn của Alibaba tại Hội nghị thượng đỉnh về đám mây của Alibaba. , phần mềm và dịch vụ đều đáng để làm lại dựa trên khả năng của mô hình lớn.”

Một người của Byte cho biết trước đây, khi đăng ký mua GPU trong Byte, cần phải giải thích tỷ lệ đầu vào-đầu ra, mức độ ưu tiên và tầm quan trọng của doanh nghiệp. Nhưng bây giờ mô hình kinh doanh quy mô lớn là một hoạt động kinh doanh mới ở cấp độ chiến lược của công ty và ROI không thể được tính trong thời gian này và phải đầu tư.

Phát triển các mô hình quy mô lớn cho mục đích chung của riêng họ chỉ là bước đầu tiên. Mục tiêu lớn hơn của mỗi công ty là tung ra các dịch vụ đám mây cung cấp khả năng mô hình quy mô lớn. Đây là một thị trường thực sự rộng lớn có thể phù hợp với đầu tư.

Dịch vụ đám mây Azure của Microsoft không có sự hiện diện mạnh mẽ trên thị trường điện toán đám mây của Trung Quốc, nó chủ yếu phục vụ hoạt động kinh doanh tại Trung Quốc của các công ty đa quốc gia ở Trung Quốc trong mười năm. Nhưng bây giờ khách hàng phải xếp hàng chờ đợi vì đây là nhà môi giới đám mây duy nhất cho việc thương mại hóa OpenAI.

Tại hội nghị thượng đỉnh về đám mây vào tháng 4, Ali một lần nữa nhấn mạnh rằng MaaS (Mô hình dưới dạng Dịch vụ) là xu hướng tương lai của điện toán đám mây, ngoài thử nghiệm mô hình cơ bản chung mở và tự phát triển "Tongyi Qianwen", nó còn phát hành một loạt of help customers in the cloud.Công cụ đào tạo và sử dụng mô hình lớn. Ngay sau đó, Tencent và Byte Volcano Engine cũng phát hành các phiên bản dịch vụ cụm đào tạo mới của riêng họ. Tencent cho biết, sử dụng một thế hệ cụm mới để đào tạo một mô hình lớn với hàng nghìn tỷ tham số, thời gian có thể được nén xuống còn 4 ngày, Byte cho biết cụm mới của họ hỗ trợ đào tạo mô hình quy mô lớn cấp độ Wanka. các công ty ở Trung Quốc, hầu hết trong số họ đã sử dụng động cơ núi lửa.

Tất cả các nền tảng này đều sử dụng GPU Nvidia A100 và H100, hoặc các phiên bản rút gọn đặc biệt của Nvidia là A800 và H800 sau lệnh cấm vào năm ngoái. cho GPU hiệu năng.

Xung quanh H800 và A800, các công ty công nghệ lớn của Trung Quốc đã bắt đầu một đợt cạnh tranh đơn hàng mới.

Người của một nhà sản xuất đám mây cho biết, các hãng lớn như Byte, Ali chủ yếu đàm phán trực tiếp với nhà máy sản xuất gốc của Nvidia để thu mua, còn các đại lý, chợ đồ cũ khó đáp ứng nhu cầu quá lớn của họ.

Nvidia sẽ thương lượng chiết khấu dựa trên giá niêm yết và quy mô mua hàng. Theo trang web chính thức của Nvidia, giá của A100 là 10.000 đô la Mỹ mỗi chiếc (khoảng 71.000 nhân dân tệ) và giá của H100 là 36.000 đô la Mỹ mỗi chiếc (khoảng 257.000 nhân dân tệ); có thể hiểu rằng giá của A800 và H800 thấp hơn một chút so với phiên bản gốc. .

Việc một công ty Trung Quốc có giành được thẻ phụ thuộc nhiều hơn vào các mối quan hệ kinh doanh, chẳng hạn như liệu họ có phải là khách hàng lớn của Nvidia trong quá khứ hay không. “Việc bạn nói chuyện với Nvidia ở Trung Quốc hay đến Hoa Kỳ để nói chuyện trực tiếp với Lao Huang (Huang Renxun, người sáng lập kiêm CEO của Nvidia) sẽ tạo ra sự khác biệt.” Một người từ một nhà cung cấp dịch vụ đám mây cho biết.

Một số công ty cũng sẽ tiến hành “hợp tác kinh doanh” với Nvidia, khi mua GPU phổ biến của trung tâm dữ liệu, họ cũng mua các sản phẩm khác để phấn đấu được ưu tiên cung cấp. Điều này giống như cách phân phối của Hermès, nếu muốn mua một chiếc túi bình dân, bạn thường phải phối nó với quần áo và giày dép trị giá hàng chục nghìn tệ.

Dựa trên thông tin ngành mà chúng tôi có được, các đơn đặt hàng mới của Byte trong năm nay tương đối mạnh, vượt mức 1 tỷ USD.

Theo một người thân cận với Nvidia, có tổng cộng 100.000 chiếc A100 và H800 đã đến và chưa đến. Trong số đó, H800 chỉ mới bắt đầu được sản xuất vào tháng 3 năm nay và phần chip này sẽ đến từ việc mua thêm trong năm nay. Được biết, với tiến độ sản xuất hiện tại, một số chiếc H800 sẽ không được giao cho khách hàng cho đến cuối năm nay.

ByteDance bắt đầu xây dựng trung tâm dữ liệu của riêng mình vào năm 2017. Các trung tâm dữ liệu trước đây phụ thuộc nhiều hơn vào CPU cho mọi phép tính. Cho đến năm 2020, Byte đã chi nhiều tiền hơn cho CPU Intel so với GPU Nvidia. Những thay đổi trong việc mua byte cũng phản ánh rằng trong nhu cầu điện toán của các công ty công nghệ lớn ngày nay, điện toán thông minh đang bắt kịp với điện toán chung.

Được biết, một công ty Internet lớn đã đặt ít nhất 10.000 đơn hàng cấp độ với Nvidia trong năm nay, với giá trị ước tính hơn 1 tỷ nhân dân tệ dựa trên giá danh mục.

Tencent dẫn đầu trong việc thông báo rằng họ đã sử dụng H800. Hiện tại, dịch vụ này đã được mở cho khách hàng doanh nghiệp để thử nghiệm các ứng dụng, nhanh hơn tiến độ của hầu hết các công ty Trung Quốc.

Được biết, Alibaba Cloud cũng đã đề xuất nội bộ vào tháng 5 năm nay lấy "Trận chiến điện toán thông minh" làm trận chiến số một trong năm nay và đặt ra ba mục tiêu: quy mô máy, quy mô khách hàng và quy mô doanh thu; trong số đó, chỉ số quan trọng của quy mô máy là số lượng GPU.

Trước sự xuất hiện của GPU mới, các hãng cũng đang có những động thái nội bộ nhằm ưu tiên hỗ trợ phát triển các dòng máy lớn.

Cách để giải phóng nhiều nguồn lực hơn cùng một lúc là cắt bỏ một số hướng ít quan trọng hơn hoặc những hướng không có triển vọng rõ ràng trong ngắn hạn. "Các công ty lớn có nhiều doanh nghiệp sống dở chết dở chiếm dụng tài nguyên." Một học viên AI trong một công ty Internet lớn cho biết.

Vào tháng 5 năm nay, Viện Pháp Ali đã bãi bỏ phòng thí nghiệm lái xe tự hành: khoảng 1/3 trong số hơn 300 nhân viên được bổ nhiệm vào đội kỹ thuật tân binh, và những người còn lại đã bị sa thải. Sự phát triển của lái xe tự động cũng yêu cầu GPU hiệu suất cao để đào tạo. Sự điều chỉnh này có thể không liên quan trực tiếp đến mô hình lớn, nhưng nó đã cho phép Ali có được một loạt "GPU miễn phí".

Byte và Meituan trực tiếp chia sẻ GPU từ nhóm công nghệ thương mại mang lại doanh thu quảng cáo cho công ty.

Theo "LatePost", ngay sau Lễ hội mùa xuân năm nay, Byte đã phân phối một lô A100 ban đầu được lên kế hoạch bổ sung vào nhóm công nghệ thương mại hóa Byte cho Zhu Wenjia, người đứng đầu bộ phận công nghệ sản phẩm TikTok. Zhu Wenjia đang dẫn đầu nghiên cứu và phát triển các mô hình byte lớn. Nhóm kỹ thuật thương mại hóa là bộ phận kinh doanh cốt lõi hỗ trợ thuật toán đề xuất quảng cáo Douyin.

Meituan bắt đầu phát triển các mô hình lớn vào khoảng quý đầu tiên của năm nay. Được biết, Meituan gần đây đã chuyển một lô bộ nhớ video 80G phiên bản cao nhất A100 từ nhiều bộ phận, ưu tiên cung cấp các mẫu lớn để các bộ phận này chuyển sang GPU có cấu hình thấp hơn.

Bilibili, nơi có nguồn tài chính kém dồi dào hơn nhiều so với các nền tảng lớn, cũng có kế hoạch cho các mô hình lớn. Được biết, Trạm B trước đó đã đặt trước hàng trăm GPU. Năm nay, Bilibili một mặt tiếp tục mua thêm GPU, mặt khác cũng đang phối hợp nhiều bộ phận để phân bổ đều card cho các dòng máy lớn. “Có bộ phận phát 10 vé, có bộ phận phát 20 vé.” Một người ở gần ga B cho biết.

Các công ty Internet như Byte, Meituan và Station B thường có một số tài nguyên GPU dư thừa trong các bộ phận kỹ thuật ban đầu hỗ trợ tìm kiếm và đề xuất.

Tuy nhiên, số lượng GPU có thể thu được bằng phương pháp loại bỏ phía đông và bổ sung cho phương Tây này là có hạn, và các GPU lớn cần thiết để đào tạo các mô hình lớn vẫn phải dựa vào sự tích lũy trong quá khứ của mỗi công ty và chờ đợi sự xuất hiện của GPU mới.

Cả thế giới đang tranh giành sức mạnh tính toán

Cuộc đua giành GPU cho trung tâm dữ liệu của Nvidia cũng đang diễn ra trên khắp thế giới. Tuy nhiên, các đại gia nước ngoài đã mua một số lượng lớn GPU trước đó và số lượng mua cũng lớn hơn và việc đầu tư trong những năm gần đây tương đối liên tục.

Vào năm 2022, Meta và Oracle đã đầu tư rất nhiều vào A100. Meta đã hợp tác với Nvidia để xây dựng cụm siêu máy tính RSC vào tháng 1 năm ngoái, chứa 16.000 chiếc A100. Tháng 11 cùng năm, Oracle thông báo mua hàng chục nghìn A100 và H100 để xây dựng một trung tâm điện toán mới. Giờ đây, trung tâm điện toán đã triển khai hơn 32.700 chiếc A100 và những chiếc H100 mới lần lượt được ra mắt.

Kể từ lần đầu tiên Microsoft đầu tư vào OpenAI vào năm 2019, hãng đã cung cấp hàng chục nghìn GPU cho OpenAI. Vào tháng 3 năm nay, Microsoft thông báo rằng họ đã giúp OpenAI xây dựng một trung tâm điện toán mới, bao gồm hàng chục nghìn A100. Tháng 5 năm nay, Google ra mắt Compute Engine A3, một cụm máy tính với 26.000 chiếc H100, phục vụ các công ty muốn tự đào tạo các mô hình lớn.

Hành động và tâm lý hiện tại của các công ty lớn Trung Quốc khẩn cấp hơn so với các đại gia nước ngoài. Lấy Baidu làm ví dụ, họ đã đặt hàng chục nghìn đơn đặt hàng GPU mới với Nvidia trong năm nay. Thứ tự về độ lớn có thể so sánh với các công ty như Google, mặc dù khối lượng của Baidu nhỏ hơn nhiều, doanh thu năm ngoái của nó là 123,6 tỷ nhân dân tệ, chỉ bằng 6% so với Google.

Được biết, Byte, Tencent, Ali và Baidu, bốn công ty công nghệ ở Trung Quốc đã đầu tư nhiều nhất vào AI và điện toán đám mây, đã tích lũy được hàng chục nghìn A100 trong quá khứ. Trong số đó, A100 có số byte tuyệt đối nhất. Không bao gồm các đơn đặt hàng mới trong năm nay, tổng số Byte A100 và người tiền nhiệm V100 của nó là gần 100.000.

Trong số các công ty đang phát triển, Shangtang cũng đã thông báo trong năm nay rằng tổng cộng 27.000 GPU đã được triển khai trong cụm máy tính "thiết bị lớn AI" của mình, bao gồm 10.000 chiếc A100. Ngay cả Magic Square, một công ty đầu tư định lượng dường như không liên quan gì đến AI, cũng đã mua 10.000 A100 trước đó.

Chỉ nhìn vào con số tổng, số GPU này dường như là quá đủ để các công ty đào tạo các mô hình lớn, theo trường hợp trên trang web chính thức của Nvidia, OpenAI đã sử dụng 10.000 V100 khi đào tạo GPT-3 với 175 tỷ tham số để đào tạo GPT-3. , 1 tháng đào tạo cần 1024 khối A100.So với V100, A100 có hiệu suất cải thiện 4,3 lần. Tuy nhiên, một số lượng lớn GPU mà các công ty lớn của Trung Quốc mua trước đây phải hỗ trợ các doanh nghiệp hiện có hoặc được bán trên nền tảng điện toán đám mây và không thể được sử dụng tự do để phát triển mô hình quy mô lớn và hỗ trợ bên ngoài cho nhu cầu mô hình quy mô lớn của khách hàng.

Điều này cũng giải thích sự khác biệt lớn trong việc ước tính tài nguyên máy tính của các học viên AI Trung Quốc. Zhang Yaqin, Viện trưởng Viện Nghiên cứu Công nghiệp Thông minh Thanh Hoa, cho biết tại Diễn đàn Thanh Hoa vào cuối tháng 4, "Nếu thêm một phần sức mạnh tính toán của Trung Quốc vào, nó tương đương với 500.000 A100 và không có vấn đề gì khi đào tạo năm mô hình. " Yin Qi, Giám đốc điều hành của công ty AI Megvii Technology, đã chấp nhận "Caixin" cho biết trong một cuộc phỏng vấn: Trung Quốc hiện chỉ có tổng cộng khoảng 40.000 chiếc A100 có thể được sử dụng để đào tạo người mẫu quy mô lớn.

Nó chủ yếu phản ánh chi phí vốn đầu tư vào tài sản cố định như chip, máy chủ và trung tâm dữ liệu, đồng thời có thể minh họa một cách trực quan thứ tự khoảng cách lớn về tài nguyên máy tính của các công ty lớn của Trung Quốc và nước ngoài.

Baidu, công ty đầu tiên thử nghiệm các sản phẩm giống như ChatGPT, có chi phí vốn hàng năm từ 800 triệu đến 2 tỷ đô la Mỹ kể từ năm 2020, của Ali là từ 6 tỷ đến 8 tỷ đô la Mỹ và của Tencent là từ 7 tỷ đến 11 tỷ đô la Mỹ. . Trong cùng thời kỳ, chi phí vốn hàng năm của Amazon, Meta, Google và Microsoft, bốn công ty công nghệ Mỹ có trung tâm dữ liệu tự xây dựng, đều vượt ít nhất 15 tỷ USD.

Trong ba năm xảy ra dịch bệnh, chi phí vốn của các công ty nước ngoài tiếp tục tăng. Chi tiêu vốn của Amazon năm ngoái đã đạt 58 tỷ đô la Mỹ, Meta và Google đều là 31,4 tỷ đô la Mỹ và Microsoft là gần 24 tỷ đô la Mỹ. Đầu tư của các công ty Trung Quốc đang giảm sau năm 2021. Chi phí vốn của Tencent và Baidu đều giảm hơn 25% so với cùng kỳ năm ngoái.

GPU để đào tạo các mô hình lớn đã không còn đủ, nếu các công ty Trung Quốc thực sự muốn đầu tư lâu dài vào các mô hình lớn và kiếm tiền để “bán xẻng” cho các nhu cầu mô hình khác, họ sẽ cần tiếp tục gia tăng tài nguyên GPU trong tương lai.

Đi nhanh hơn OpenAI đã đáp ứng thách thức này. Vào giữa tháng 5, Giám đốc điều hành OpenAI SamAltman cho biết trong một cuộc giao tiếp quy mô nhỏ với một nhóm các nhà phát triển rằng do không đủ GPU nên dịch vụ API hiện tại của OpenAI không đủ ổn định và tốc độ không đủ nhanh. 4's multimodal Các khả năng không thể được mở rộng cho mọi người dùng và họ không có kế hoạch phát hành các sản phẩm tiêu dùng mới trong tương lai gần. Theo một báo cáo do cơ quan tư vấn kỹ thuật TrendForce công bố vào tháng 6 năm nay, OpenAI cần khoảng 30.000 A100 để liên tục tối ưu hóa và thương mại hóa ChatGPT.

Microsoft, công ty hợp tác sâu rộng với OpenAI, cũng đang gặp phải tình trạng tương tự: Vào tháng 5 năm nay, một số người dùng phàn nàn rằng tốc độ trả lời của New Bing chậm và Microsoft trả lời rằng đó là do tốc độ bổ sung GPU không theo kịp. với tốc độ tăng trưởng người dùng. Microsoft Office 365 Copilot, được nhúng với các khả năng của mô hình quy mô lớn, hiện chưa được mở trên quy mô lớn. Con số mới nhất là hơn 600 công ty đang dùng thử - tổng số người dùng Office 365 trên toàn thế giới là gần 300 triệu.

Nếu một công ty lớn của Trung Quốc không chỉ nhằm mục đích đào tạo và phát hành một mô hình lớn mà thực sự muốn sử dụng mô hình lớn để tạo ra các sản phẩm phục vụ nhiều người dùng hơn và hỗ trợ thêm cho các khách hàng khác đào tạo nhiều mô hình lớn hơn trên đám mây, thì họ cần phải đặt trước nhiều hơn.Nhiều GPU.

**Tại sao chỉ có bốn thẻ đó? **

Về đào tạo mô hình lớn AI, không có sản phẩm thay thế nào cho A100, H100 và phiên bản rút gọn A800 và H800 được cung cấp đặc biệt cho Trung Quốc. Theo quỹ phòng hộ định lượng Khaveen Investments, thị phần GPU trung tâm dữ liệu của Nvidia sẽ đạt 88% vào năm 2022, AMD và Intel sẽ chia phần còn lại.

Tại hội nghị GTC năm 2020, Huang Renxun đã ra mắt với A100.

Sức mạnh không thể thay thế của GPU Nvidia hiện nay đến từ cơ chế đào tạo của các mô hình lớn, các bước cốt lõi của nó là đào tạo trước và tinh chỉnh, trước là đặt nền tảng, tương đương với việc học phổ thông để tốt nghiệp đại học, cái sau được tối ưu hóa cho các kịch bản và nhiệm vụ cụ thể để cải thiện hiệu suất công việc.

Liên kết đào tạo trước đặc biệt chuyên sâu về tính toán và nó có yêu cầu cực kỳ cao về hiệu suất của một GPU và khả năng truyền dữ liệu giữa nhiều thẻ.

Hiện tại chỉ có A100 và H100 mới có thể cung cấp hiệu quả tính toán cần thiết cho quá trình đào tạo trước.Chúng có vẻ đắt tiền nhưng lại là lựa chọn rẻ nhất. Ngày nay, AI vẫn đang trong giai đoạn đầu của việc sử dụng thương mại và chi phí ảnh hưởng trực tiếp đến việc liệu một dịch vụ có khả dụng hay không.

Một số kiểu máy trước đây, chẳng hạn như VGG16, có thể nhận ra mèo là mèo, chỉ có 130 triệu thông số, vào thời điểm đó, một số công ty sẽ sử dụng card đồ họa cấp tiêu dùng dòng RTX để chơi game để chạy các mô hình AI. Thang tham số của GPT-3 được phát hành hơn hai năm trước đã lên tới 175 tỷ.

Theo yêu cầu tính toán khổng lồ của các mô hình lớn, việc sử dụng nhiều GPU hiệu suất thấp hơn để tạo thành sức mạnh tính toán là không khả thi. Vì khi sử dụng nhiều GPU để đào tạo, cần phải truyền dữ liệu và đồng bộ hóa thông tin thông số giữa các chip, lúc này một số GPU sẽ ở trạng thái nhàn rỗi và không thể bão hòa mọi lúc. Do đó, hiệu suất của một thẻ càng thấp, càng nhiều thẻ được sử dụng và tổn thất năng lượng tính toán càng lớn. Khi OpenAI sử dụng 10.000 V100 để đào tạo GPT-3, tỷ lệ sử dụng năng lượng điện toán là dưới 50%.

A100 và H100 có cả khả năng tính toán cao của một thẻ và băng thông cao để cải thiện việc truyền dữ liệu giữa các thẻ. FP32 của A100 (đề cập đến phép tính lưu trữ và mã hóa 4 byte) có sức mạnh tính toán là 19,5 TFLOPS (1 TFLOPS có nghĩa là một nghìn tỷ phép tính dấu phẩy động mỗi giây) và sức mạnh tính toán FP32 của H100 cao tới 134 TFLOPS. Khoảng 4 lần so với MI250.

A100 và H100 cũng cung cấp khả năng truyền dữ liệu hiệu quả để giảm thiểu sức mạnh tính toán nhàn rỗi. Trò gian lận độc quyền của Nvidia là các công nghệ giao thức truyền thông như NVLink và NVSwitch đã ra mắt từ năm 2014. NVLink thế hệ thứ tư được sử dụng trên H100 có thể tăng băng thông giao tiếp hai chiều của GPU trong cùng một máy chủ lên 900 GB/giây (900 GB dữ liệu mỗi giây), gấp 7 lần so với thế hệ PCle mới nhất (một điểm -tiêu chuẩn truyền dẫn nối tiếp tốc độ cao -to-point) nhiều.

Năm ngoái, các quy định của Bộ Thương mại Hoa Kỳ về xuất khẩu GPU cũng bị mắc kẹt ở hai dòng sức mạnh tính toán và băng thông: sức mạnh tính toán của dòng trên là 4800 TOPS và băng thông của dòng trên là 600 GB/s.

A800 và H800 có sức mạnh tính toán giống như phiên bản gốc, nhưng giảm băng thông. Băng thông của A800 đã bị giảm từ 600GB/s của A100 xuống còn 400GB/s.Thông số cụ thể của H800 vẫn chưa được tiết lộ.Theo Bloomberg, băng thông của nó chỉ bằng khoảng một nửa so với H100 (900GB/s) s).Khi thực hiện cùng một tác vụ AI, H800 sẽ Mất nhiều thời gian hơn 10%-30% so với H100. Một kỹ sư AI suy đoán rằng hiệu quả đào tạo của H800 có thể không tốt bằng A100, nhưng nó đắt hơn.

Mặc dù vậy, hiệu năng của A800 và H800 vẫn vượt trội so với các sản phẩm cùng loại của các hãng lớn và startup khác. Bị giới hạn bởi hiệu suất và kiến trúc chuyên dụng hơn, chip AI hoặc chip GPU do nhiều công ty tung ra hiện chủ yếu được sử dụng cho lý luận AI, điều này rất khó cho việc đào tạo trước mô hình quy mô lớn. Nói một cách đơn giản, đào tạo AI là tạo ra một mô hình, lý luận AI là sử dụng mô hình và đào tạo yêu cầu hiệu suất chip cao hơn.

Ngoài khoảng cách về hiệu suất, con hào sâu hơn của Nvidia là hệ sinh thái phần mềm.

Đầu năm 2006, Nvidia đã ra mắt nền tảng điện toán CUDA, một công cụ phần mềm điện toán song song, các nhà phát triển có thể sử dụng CUDA để thực hiện đào tạo và suy luận AI hiệu quả hơn và tận dụng tốt sức mạnh tính toán của GPU. CUDA đã trở thành cơ sở hạ tầng AI ngày nay và các khung, thư viện và công cụ AI chính thống đều được phát triển dựa trên CUDA.

Nếu GPU và chip AI không phải Nvidia muốn kết nối với CUDA, chúng cần cung cấp phần mềm thích ứng của riêng mình, nhưng chỉ là một phần hiệu suất của CUDA và quá trình lặp lại cập nhật sẽ chậm hơn. Các khung AI như PyTorch đang cố gắng phá vỡ thế độc quyền sinh thái phần mềm của CUDA và cung cấp nhiều khả năng phần mềm hơn để hỗ trợ GPU của các nhà sản xuất khác, nhưng điều này đã hạn chế sức hấp dẫn đối với các nhà phát triển.

Một học viên AI cho biết công ty của anh ấy đã liên hệ với một nhà sản xuất GPU không phải của NVIDIA, họ đưa ra mức giá chip và dịch vụ thấp hơn Nvidia, đồng thời hứa sẽ cung cấp dịch vụ kịp thời hơn, nhưng họ đánh giá rằng việc đào tạo và phát triển tổng thể bằng cách sử dụng các GPU khác sẽ tốn kém. cao hơn của Nvidia, và nó sẽ phải chịu sự không chắc chắn của kết quả và mất nhiều thời gian hơn.

"Mặc dù A100 đắt tiền, nhưng nó thực sự rẻ nhất để sử dụng," anh nói. Đối với các công ty công nghệ lớn và các công ty khởi nghiệp hàng đầu có ý định nắm bắt cơ hội từ các mô hình lớn, tiền thường không phải là vấn đề và thời gian là nguồn tài nguyên quý giá hơn.

Trong ngắn hạn, điều duy nhất ảnh hưởng đến doanh số GPU trung tâm dữ liệu của Nvidia có thể là năng lực sản xuất của TSMC.

H100/800 là quy trình 4 nm và A100/800 là quy trình 7 nm, 4 con chip này đều do TSMC sản xuất. Theo báo cáo của phương tiện truyền thông Trung Quốc Đài Loan, Nvidia đã bổ sung 10.000 đơn đặt hàng GPU trung tâm dữ liệu mới cho TSMC trong năm nay và đã đặt một đơn hàng siêu khẩn cấp, có thể rút ngắn thời gian sản xuất tới 50%. Thông thường, TSMC sẽ mất vài tháng để sản xuất A100. Tình trạng tắc nghẽn sản xuất hiện nay chủ yếu là do không đủ năng lực sản xuất bao bì tiên tiến, với khoảng cách từ 10 đến 20%, sẽ mất 3-6 tháng để tăng dần.

Kể từ khi GPU phù hợp cho tính toán song song được đưa vào học sâu, trong hơn mười năm, động lực phát triển AI là phần cứng và phần mềm, đồng thời sự chồng chéo giữa sức mạnh tính toán GPU, các mô hình và thuật toán đã tiến lên phía trước: phát triển mô hình thúc đẩy sức mạnh tính toán nhu cầu; sức mạnh tính toán tăng lên, Nó cũng làm cho việc đào tạo quy mô lớn hơn mà ban đầu khó đạt được trở thành có thể.

Trong làn sóng bùng nổ học sâu cuối cùng được thể hiện bằng nhận dạng hình ảnh, khả năng phần mềm AI của Trung Quốc có thể so sánh với mức tiên tiến nhất thế giới; sức mạnh tính toán là khó khăn hiện tại - thiết kế và sản xuất chip đòi hỏi sự tích lũy lâu hơn, liên quan đến chuỗi cung ứng dài và nhiều rào cản bằng sáng chế.

Mô hình lớn là một tiến bộ lớn khác trong lớp mô hình và thuật toán, không có thời gian để từ từ, các công ty muốn xây dựng mô hình lớn hoặc cung cấp khả năng điện toán đám mây cho các mô hình lớn phải có đủ sức mạnh tính toán tiên tiến càng sớm càng tốt. Cuộc chiến giành GPU sẽ không dừng lại cho đến khi làn sóng cổ vũ hoặc làm các công ty đầu tiên thất vọng.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)