ในช่วงต้นปี 2549 Nvidia ได้เปิดตัวแพลตฟอร์มการประมวลผล CUDA ซึ่งเป็นซอฟต์แวร์ประมวลผลแบบคู่ขนาน นักพัฒนาสามารถใช้ CUDA เพื่อดำเนินการฝึกอบรม AI และการใช้เหตุผลอย่างมีประสิทธิภาพมากขึ้นและใช้ประโยชน์จากพลังการประมวลผลของ GPU ได้อย่างเต็มที่ CUDA ได้กลายเป็นโครงสร้างพื้นฐานของ AI ในปัจจุบัน และเฟรมเวิร์ก AI ไลบรารี่ และเครื่องมือกระแสหลักล้วนได้รับการพัฒนาบนพื้นฐานของ CUDA
หาก GPU และชิป AI ที่ไม่ใช่ Nvidia ต้องการเชื่อมต่อกับ CUDA พวกเขาจำเป็นต้องมีซอฟต์แวร์ปรับแต่งของตัวเอง แต่เป็นเพียงส่วนหนึ่งของประสิทธิภาพของ CUDA และการทำซ้ำการอัปเดตจะช้าลง เฟรมเวิร์ก AI เช่น PyTorch กำลังพยายามทำลายการผูกขาดทางนิเวศวิทยาของซอฟต์แวร์ของ CUDA และให้ความสามารถด้านซอฟต์แวร์มากขึ้นเพื่อรองรับ GPU ของผู้ผลิตรายอื่น แต่สิ่งนี้ดึงดูดนักพัฒนาได้จำกัด
การแข่งขันเพื่อชิงตั๋ว AI: บริษัทยักษ์ใหญ่ของจีนแข่งขันกันเพื่อแย่งชิง GPU
ที่มา丨Later LatePost
ข้อความ丨Zhang Jiahao
ในช่วงครึ่งหลังของปี 2022 ในขณะที่ AI เชิงกำเนิดกำลังเฟื่องฟู a16z ซึ่งเป็นบริษัทร่วมทุนที่มีชื่อเสียงใน Silicon Valley ได้ไปเยี่ยมบริษัทสตาร์ทอัพด้าน AI และบริษัทเทคโนโลยีขนาดใหญ่หลายสิบแห่ง พวกเขาพบว่าสตาร์ทอัพให้เงิน 80%-90% ของเงินทุนในช่วงแรกกับแพลตฟอร์มคลาวด์คอมพิวติ้งเพื่อฝึกฝนโมเดลของตนเอง พวกเขาประเมินว่าแม้ว่าผลิตภัณฑ์ของบริษัทเหล่านี้จะเติบโตเต็มที่ แต่พวกเขาก็ต้องให้รายได้ 10%-20% แก่บริษัทคลาวด์คอมพิวติ้งทุกปี มันเทียบเท่ากับ "ภาษี AI"
สิ่งนี้นำมาซึ่งตลาดขนาดใหญ่สำหรับการจัดหาความสามารถด้านโมเดลและบริการฝึกอบรมบนคลาวด์ และการให้เช่าพลังการประมวลผลแก่ลูกค้ารายอื่นและสตาร์ทอัพ ในประเทศจีนเพียงแห่งเดียว บริษัทสตาร์ทอัพและบริษัทขนาดเล็กและขนาดกลางหลายสิบแห่งกำลังสร้างโมเดลภาษาขนาดใหญ่ที่ซับซ้อนของตนเอง และพวกเขาทั้งหมดต้องเช่า GPU จากแพลตฟอร์มคลาวด์คอมพิวติ้ง จากการคำนวณของ a16z ค่าใช้จ่ายด้านการประมวลผล AI ของบริษัทต่อปีจะเกิน 50 ล้านดอลลาร์สหรัฐเท่านั้นก่อนที่จะมีขนาดเพียงพอที่จะรองรับการซื้อ GPU แบบเป็นชุด
จากข้อมูลของ "LatePost" หลังจากเทศกาลฤดูใบไม้ผลิปีนี้ บริษัทอินเทอร์เน็ตรายใหญ่ในจีนทั้งหมดที่ให้บริการคลาวด์คอมพิวติ้งได้สั่งซื้อจำนวนมากกับ Nvidia Byte ได้สั่งซื้อ GPU มากกว่า 1 พันล้านเหรียญสหรัฐจาก Nvidia ในปีนี้ และบริษัทขนาดใหญ่อีกแห่งหนึ่งได้สั่งซื้ออย่างน้อยมากกว่า 1 พันล้านหยวน
Byte เพียงอย่างเดียวอาจทำการสั่งซื้อในปีนี้ใกล้เคียงกับจำนวน GPU เชิงพาณิชย์ทั้งหมดที่ Nvidia จำหน่ายในจีนเมื่อปีที่แล้ว ในเดือนกันยายนปีที่แล้ว เมื่อรัฐบาลสหรัฐฯ ออกข้อจำกัดในการส่งออก A100 และ H100 (GPU เชิงพาณิชย์สำหรับศูนย์ข้อมูลสองรุ่นล่าสุดของ NVIDIA) Nvidia ตอบโต้ว่าสิ่งนี้อาจส่งผลกระทบต่อ 400 ล้านดอลลาร์สหรัฐ (ประมาณ 2.8 พันล้านหยวน) ในตลาดจีน ในไตรมาสที่สี่ของปีที่แล้ว RMB) ยอดขายที่มีศักยภาพ จากการคำนวณนี้ ยอดขาย GPU สำหรับศูนย์ข้อมูล Nvidia ในประเทศจีนในปี 2565 จะอยู่ที่ประมาณ 1 หมื่นล้านหยวน
เมื่อเทียบกับยักษ์ใหญ่ในต่างประเทศ บริษัทเทคโนโลยีขนาดใหญ่ของจีนต้องการซื้อ GPU อย่างเร่งด่วน ในการลดต้นทุนและเพิ่มประสิทธิภาพในช่วงสองปีที่ผ่านมา แพลตฟอร์มการประมวลผลแบบคลาวด์บางแพลตฟอร์มได้ลดการซื้อ GPU และมีปริมาณสำรองไม่เพียงพอ นอกจากนี้ ไม่มีใครรับประกันได้ว่า GPU ประสิทธิภาพสูงที่ซื้อได้ในวันนี้จะอยู่ภายใต้ข้อจำกัดใหม่ในวันพรุ่งนี้
จากการตัดคำสั่งซื้อเพื่อเพิ่มการซื้อในขณะที่ย้ายภายใน
ก่อนต้นปีนี้ ความต้องการ GPU จากบริษัทเทคโนโลยีขนาดใหญ่ของจีนนั้นค่อนข้างจืดชืด
GPU มีประโยชน์หลักสองประการในบริษัทเทคโนโลยีอินเทอร์เน็ตขนาดใหญ่ของจีน หนึ่งคือเพื่อสนับสนุนธุรกิจภายในองค์กรและทำการวิจัยเกี่ยวกับ AI ที่ล้ำสมัย และอีกประการหนึ่งคือเพื่อขาย GPU บนแพลตฟอร์มการประมวลผลแบบคลาวด์
บุคคลจาก Byte บอกกับ "LatePost" ว่าหลังจาก OpenAI เปิดตัว GPT-3 ในเดือนมิถุนายน 2020 Byte ได้ฝึกฝนโมเดลภาษากำเนิดขนาดใหญ่ที่มีพารามิเตอร์นับพันล้าน ในเวลานั้น GPU ที่ใช้เป็นหลักคือรุ่นก่อนของ A100 V100 เนื่องจากขนาดพารามิเตอร์ที่จำกัด ความสามารถในการสร้างของโมเดลนี้จึงอยู่ในระดับปานกลาง และ Byte ไม่สามารถมองเห็นความเป็นไปได้ในเชิงพาณิชย์ในเวลานั้น "ไม่สามารถคำนวณ ROI (ผลตอบแทนจากการลงทุน) ได้" ความพยายามครั้งนี้ไร้ผล .
นอกจากนี้ Ali ยังซื้อ GPU ในปี 2018-2019 อีกด้วย ตามแหล่งข่าวของอาลีบาบาคลาวด์ การซื้อของอาลีในเวลานั้นมีมูลค่าอย่างน้อยหลายหมื่นหยวน และรุ่นที่ซื้อส่วนใหญ่เป็น V100 และ T4 ที่ออกก่อนหน้านี้โดย Nvidia อย่างไรก็ตาม มีเพียงประมาณหนึ่งในสิบของ GPU เหล่านี้เท่านั้นที่มอบให้กับ DAMO Academy สำหรับการวิจัยและพัฒนาเทคโนโลยี AI หลังจากเปิดตัว M6 รุ่นใหญ่ที่มีพารามิเตอร์หลายล้านล้านพารามิเตอร์ในปี 2564 Dharma Academy เปิดเผยว่ามีการใช้ V100 จำนวน 480 เครื่องในการฝึก M6
GPUs ที่ซื้อโดย Alibaba ในเวลานั้นถูกมอบให้กับ Alibaba Cloud สำหรับการเช่าภายนอก อย่างไรก็ตาม รวมถึง Alibaba Cloud กลุ่มบริษัทคลาวด์คอมพิวติ้งของจีนได้ประเมินความต้องการ AI ในตลาดจีนสูงเกินไป นักลงทุนด้านเทคโนโลยีกล่าวว่าก่อนที่จะมีโมเดลขนาดใหญ่เพิ่มขึ้น พลังการประมวลผล GPU ของผู้จำหน่ายระบบคลาวด์ในประเทศรายใหญ่ไม่ได้ขาดตลาด แต่กังวลเกี่ยวกับการขาย และผู้จำหน่ายระบบคลาวด์ถึงกับต้องลดราคาเพื่อขายทรัพยากร ปีที่แล้ว Alibaba Cloud ลดราคา 6 ครั้ง และราคาเช่า GPU ลดลงมากกว่า 20%
ในบริบทของการลดต้นทุนและเพิ่มประสิทธิภาพ ตลอดจนการแสวงหา "การเติบโตด้านคุณภาพ" และผลกำไร เป็นที่เข้าใจกันว่า Ali ได้ลดขนาดการจัดหา GPU หลังปี 2020 และ Tencent ยังลด GPU ของ Nvidia ชุดเดียวเมื่อปลายปีที่แล้ว .
อย่างไรก็ตาม หลังจากนั้นไม่นานในช่วงต้นปี 2022 ChatGPT ได้เปลี่ยนมุมมองของทุกคน และได้รับฉันทามติอย่างรวดเร็ว: โมเดลขนาดใหญ่คือโอกาสที่ยิ่งใหญ่ที่ไม่ควรพลาด
ผู้ก่อตั้งของแต่ละบริษัทให้ความสนใจเป็นการส่วนตัวกับความก้าวหน้าของโมเดลขนาดใหญ่: Zhang Yiming ผู้ก่อตั้ง ByteDance เริ่มอ่านเอกสารปัญญาประดิษฐ์ Zhang Yong ประธานคณะกรรมการบริหารของ Alibaba เข้าซื้อกิจการ Alibaba Cloud และประกาศ ความคืบหน้าของรุ่นใหญ่ของอาลีบาบาที่งาน Alibaba Cloud Summit ซอฟต์แวร์ และบริการล้วนคุ้มค่าที่จะทำใหม่ตามความสามารถของรุ่นใหญ่”
บุคคลจาก Byte กล่าวว่าในอดีตเมื่อสมัครซื้อ GPU ภายใน Byte จำเป็นต้องอธิบายอัตราส่วนอินพุต - เอาต์พุตลำดับความสำคัญทางธุรกิจและความสำคัญ แต่ตอนนี้ธุรกิจแบบจำลองขนาดใหญ่เป็นธุรกิจใหม่ในระดับกลยุทธ์ของบริษัท และไม่สามารถคำนวณ ROI ได้ในขณะนี้ และต้องทำการลงทุน
การพัฒนาโมเดลขนาดใหญ่เพื่อวัตถุประสงค์ทั่วไปของตนเองเป็นเพียงขั้นตอนแรกเท่านั้น เป้าหมายใหญ่ ๆ ของแต่ละบริษัทคือการเปิดตัวบริการคลาวด์ที่ให้ความสามารถของโมเดลขนาดใหญ่ซึ่งเป็นตลาดขนาดใหญ่ที่สามารถจับคู่การลงทุนได้อย่างแท้จริง
Azure บริการคลาวด์ของ Microsoft ไม่ได้มีความแข็งแกร่งในตลาดคลาวด์คอมพิวติ้งของจีน ให้บริการหลักแก่ธุรกิจจีนของบริษัทข้ามชาติในจีนเป็นเวลา 10 ปี แต่ตอนนี้ลูกค้าต้องรอต่อแถวเพราะเป็นนายหน้าคลาวด์เพียงรายเดียวสำหรับการค้า OpenAI
ในการประชุมสุดยอดคลาวด์ในเดือนเมษายน Ali เน้นย้ำอีกครั้งว่า MaaS (Model as a Service) เป็นแนวโน้มในอนาคตของ cloud computing นอกเหนือจากการทดสอบ "Tongyi Qianwen" โมเดลพื้นฐานทั่วไปแบบเปิดและพัฒนาตนเองแล้ว ยังเปิดตัวชุด ของการช่วยเหลือลูกค้าในระบบ Cloud เครื่องมือสำหรับการฝึกอบรมและใช้งานแบบจำลองขนาดใหญ่ หลังจากนั้นไม่นาน Tencent และ Byte Volcano Engine ก็เปิดตัวบริการคลัสเตอร์การฝึกอบรมเวอร์ชันใหม่ของตนเอง Tencent กล่าวว่าการใช้คลัสเตอร์รุ่นใหม่เพื่อฝึกโมเดลขนาดใหญ่ที่มีพารามิเตอร์หลายล้านล้านพารามิเตอร์สามารถบีบอัดเวลาเหลือ 4 วัน Byte กล่าวว่าคลัสเตอร์ใหม่ของพวกเขารองรับการฝึกอบรมโมเดลขนาดใหญ่ระดับ Wanka บริษัทในจีนส่วนใหญ่ใช้เครื่องยนต์ภูเขาไฟอยู่แล้ว
แพลตฟอร์มทั้งหมดเหล่านี้ใช้ GPU ของ Nvidia A100 และ H100 หรือ A800 และ H800 รุ่นย่อของ Nvidia ที่เปิดตัวเป็นพิเศษหลังจากการแบนเมื่อปีที่แล้ว Bandwidth ของโปรเซสเซอร์ทั้งสองนี้อยู่ที่ประมาณ 3/4 และประมาณครึ่งหนึ่งของรุ่นเดิม สำหรับ GPU ประสิทธิภาพ
รอบ H800 และ A800 บริษัทเทคโนโลยีรายใหญ่ของจีนได้เริ่มการแข่งขันการสั่งซื้อรอบใหม่
บุคคลจากผู้ผลิตระบบคลาวด์กล่าวว่า บริษัทขนาดใหญ่เช่น Byte และ Ali ส่วนใหญ่เจรจาโดยตรงกับโรงงานดั้งเดิมของ Nvidia เพื่อจัดซื้อ ส่วนตัวแทนและตลาดมือสองนั้นยากที่จะตอบสนองความต้องการมหาศาลของพวกเขา
Nvidia จะต่อรองส่วนลดตามราคาปลีกและขนาดการซื้อ ตามเว็บไซต์อย่างเป็นทางการของ Nvidia ราคาของ A100 อยู่ที่ 10,000 เหรียญสหรัฐต่อชิ้น (ประมาณ 71,000 หยวน) และราคาของ H100 อยู่ที่ 36,000 เหรียญสหรัฐต่อชิ้น (ประมาณ 257,000 หยวน) เป็นที่เข้าใจกันว่าราคาของ A800 และ H800 นั้นถูกกว่าเล็กน้อย กว่ารุ่นเดิม..
การที่บริษัทจีนจะได้การ์ดนั้นขึ้นอยู่กับความสัมพันธ์ทางธุรกิจมากกว่า เช่น เคยเป็นลูกค้ารายใหญ่ของ Nvidia มาก่อนหรือไม่ "มันสร้างความแตกต่างไม่ว่าคุณจะคุยกับ Nvidia ในประเทศจีนหรือไปที่สหรัฐอเมริกาเพื่อพูดคุยโดยตรงกับ Lao Huang (Huang Renxun ผู้ก่อตั้งและ CEO ของ Nvidia)" ผู้ให้บริการระบบคลาวด์กล่าว
บางบริษัทจะดำเนินการ "ความร่วมมือทางธุรกิจ" กับ Nvidia เมื่อซื้อ GPU ศูนย์ข้อมูลยอดนิยม พวกเขายังซื้อผลิตภัณฑ์อื่นๆ เพื่อแย่งชิงการจัดหาที่มีลำดับความสำคัญ นี่เหมือนกับการจัดจำหน่ายของ Hermès หากคุณต้องการซื้อกระเป๋ายอดนิยมคุณมักจะต้องจับคู่กับเสื้อผ้าและรองเท้าที่มีมูลค่าหลายหมื่นหยวน
จากข้อมูลอุตสาหกรรมที่เราได้รับ คำสั่งซื้อใหม่ของ Byte ในปีนี้ค่อนข้างรุนแรง เกินระดับ 1 พันล้านดอลลาร์
จากข้อมูลของผู้ใกล้ชิดกับ Nvidia ระบุว่ามี A100 และ H800 รวม 100,000 ชิ้นที่มาถึงและยังไม่มาถึง ในหมู่พวกเขา H800 เพิ่งเริ่มผลิตในเดือนมีนาคมปีนี้ และชิปส่วนนี้น่าจะมาจากการซื้อเพิ่มเติมในปีนี้ เป็นที่เข้าใจกันว่าด้วยกำหนดการผลิตปัจจุบัน H800 บางรุ่นจะไม่ส่งมอบจนกว่าจะสิ้นปีนี้
ByteDance เริ่มสร้างศูนย์ข้อมูลของตัวเองในปี 2560 ศูนย์ข้อมูลเคยพึ่งพา CPU มากขึ้นสำหรับการคำนวณทั้งหมด จนถึงปี 2020 Byte ใช้จ่ายกับ CPU ของ Intel มากกว่า GPU ของ Nvidia การเปลี่ยนแปลงในการซื้อแบบไบต์ยังสะท้อนให้เห็นว่าในความต้องการด้านการประมวลผลของบริษัทเทคโนโลยีขนาดใหญ่ในปัจจุบัน การประมวลผลแบบอัจฉริยะกำลังไล่ตามการประมวลผลแบบทั่วไป
เป็นที่เข้าใจกันว่าบริษัทอินเทอร์เน็ตรายใหญ่ได้สั่งซื้ออย่างน้อย 10,000 รายการกับ Nvidia ในปีนี้ โดยมีมูลค่าประมาณกว่า 1 พันล้านหยวนตามราคาในแคตตาล็อก
Tencent เป็นผู้นำในการประกาศว่าใช้ H800 แล้ว โดย Tencent Cloud ได้ใช้ H800 ในเวอร์ชันใหม่ของบริการคอมพิวเตอร์ประสิทธิภาพสูงที่เปิดตัวในเดือนมีนาคมปีนี้ โดยกล่าวว่า นี่เป็นการเปิดตัวภายในประเทศครั้งแรก ในปัจจุบัน บริการนี้ได้เปิดให้ลูกค้าองค์กรทดสอบแอปพลิเคชัน ซึ่งเร็วกว่าความก้าวหน้าของบริษัทจีนส่วนใหญ่
เป็นที่เข้าใจกันว่า Alibaba Cloud ยังได้เสนอภายในเดือนพฤษภาคมปีนี้ว่าจะใช้ "Smart Computing Battle" เป็นการแข่งขันอันดับหนึ่งในปีนี้ และตั้งเป้าหมายไว้ 3 ประการ ได้แก่ ขนาดเครื่อง ขนาดลูกค้า และขนาดรายได้ ในหมู่พวกเขา ตัวบ่งชี้ที่สำคัญ ขนาดเครื่องคือจำนวน GPU
ก่อนการมาถึงของ GPU รุ่นใหม่ บริษัทต่าง ๆ กำลังดำเนินการภายในเพื่อให้ความสำคัญกับการสนับสนุนการพัฒนาโมเดลขนาดใหญ่
วิธีที่จะปล่อยทรัพยากรมากขึ้นในคราวเดียวคือการตัดทิศทางที่สำคัญน้อยกว่าออก หรือทิศทางที่ไม่มีแนวโน้มที่ชัดเจนในระยะสั้น "บริษัทขนาดใหญ่มีธุรกิจที่ตายไปแล้วครึ่งหนึ่งที่ครอบครองทรัพยากร" ผู้ปฏิบัติงานด้าน AI ในบริษัทอินเทอร์เน็ตรายใหญ่แห่งหนึ่งกล่าว
ในเดือนพฤษภาคมปีนี้ Ali Dharma Institute ได้ยกเลิกห้องปฏิบัติการขับขี่อัตโนมัติ โดยพนักงานราว 1 ใน 3 ของจำนวนกว่า 300 คนได้รับมอบหมายให้ดูแลทีมเทคนิคมือใหม่ ส่วนที่เหลือถูกปลดออก Dharma Institute เลิกจ้างธุรกิจขับขี่อัตโนมัติอีกต่อไป การพัฒนาการขับขี่อัตโนมัติยังต้องการ GPU ประสิทธิภาพสูงสำหรับการฝึกอบรมอีกด้วย การปรับเปลี่ยนนี้อาจไม่เกี่ยวข้องโดยตรงกับรุ่นใหญ่ แต่ทำให้ Ali ได้รับชุด "GPU ฟรี"
Byte และ Meituan แบ่งปัน GPU โดยตรงจากทีมเทคโนโลยีเชิงพาณิชย์ที่นำรายได้จากโฆษณามาสู่บริษัท
ตามรายงานของ "LatePost" ไม่นานหลังจากเทศกาลฤดูใบไม้ผลิปีนี้ Byte ได้แจกจ่าย A100 ชุดหนึ่งซึ่งแต่เดิมมีแผนจะเพิ่มในทีมเทคโนโลยีเชิงพาณิชย์ของ Byte ให้กับ Zhu Wenjia หัวหน้าฝ่ายเทคโนโลยีผลิตภัณฑ์ TikTok Zhu Wenjia เป็นผู้นำด้านการวิจัยและพัฒนาโมเดลขนาดใหญ่แบบไบต์ ทีมเทคนิคการค้าเป็นแผนกธุรกิจหลักที่สนับสนุนอัลกอริทึมคำแนะนำการโฆษณา Douyin
Meituan เริ่มพัฒนาโมเดลขนาดใหญ่ประมาณไตรมาสแรกของปีนี้ เป็นที่เข้าใจกันว่า Meituan เพิ่งโอนชุด A100 หน่วยความจำวิดีโอ 80G เวอร์ชันบนสุดจากหลายแผนก โดยให้ความสำคัญกับการจัดหาโมเดลขนาดใหญ่ เพื่อให้แผนกเหล่านี้สามารถเปลี่ยนไปใช้ GPU ที่มีการกำหนดค่าต่ำกว่าได้
Bilibili ซึ่งมีทรัพยากรทางการเงินน้อยกว่าแพลตฟอร์มขนาดใหญ่มาก ก็มีแผนสำหรับโมเดลขนาดใหญ่เช่นกัน เป็นที่เข้าใจกันว่า Station B ได้สำรอง GPU ไว้หลายร้อยตัวก่อนหน้านี้ ในปีนี้ ด้านหนึ่ง Bilibili ยังคงซื้อ GPU เพิ่มเติม และในทางกลับกัน ก็กำลังประสานงานกับแผนกต่างๆ เพื่อกระจายการ์ดไปยังโมเดลขนาดใหญ่อย่างเท่าเทียมกัน "บางแผนกให้ตั๋ว 10 ใบ บางแผนกให้ตั๋ว 20 ใบ" คนใกล้สถานี B กล่าว
บริษัทอินเทอร์เน็ต เช่น Byte, Meituan และ Station B โดยทั่วไปจะมีทรัพยากร GPU ที่ซ้ำซ้อนในแผนกเทคนิคที่แต่เดิมรองรับการค้นหาและคำแนะนำ ออกมา"
อย่างไรก็ตามจำนวน GPU ที่สามารถหาได้จากวิธีการรื้อตะวันออกและเสริมตะวันตกนี้มีจำกัด และ GPU ขนาดใหญ่ที่จำเป็นสำหรับการฝึกอบรมโมเดลขนาดใหญ่ยังคงต้องอาศัยการสะสมในอดีตของแต่ละบริษัทและรอการมาของ GPU ใหม่
โลกทั้งใบกำลังแย่งชิงอำนาจในการคำนวณ
การแข่งขันสำหรับ GPU ศูนย์ข้อมูลของ Nvidia ก็เกิดขึ้นทั่วโลกเช่นกัน อย่างไรก็ตาม ยักษ์ใหญ่ในต่างประเทศซื้อ GPU จำนวนมากก่อนหน้านี้ และปริมาณการซื้อก็มากขึ้น และการลงทุนในช่วงไม่กี่ปีที่ผ่านมาก็ค่อนข้างต่อเนื่อง
ในปี 2565 Meta และ Oracle ได้ลงทุนมหาศาลใน A100 แล้ว Meta ร่วมมือกับ Nvidia เพื่อสร้างคลัสเตอร์ซูเปอร์คอมพิวเตอร์ RSC เมื่อเดือนมกราคมที่ผ่านมา ซึ่งมี A100 จำนวน 16,000 เครื่อง ในเดือนพฤศจิกายนปีเดียวกัน Oracle ประกาศซื้อ A100 และ H100 หลายหมื่นเครื่องเพื่อสร้างศูนย์คอมพิวเตอร์แห่งใหม่ ขณะนี้ศูนย์คอมพิวเตอร์ได้ใช้งาน A100 มากกว่า 32,700 เครื่อง และเปิดตัว H100 ใหม่ทีละรุ่นๆ
ตั้งแต่ Microsoft ลงทุนใน OpenAI เป็นครั้งแรกในปี 2019 ก็ได้ให้ GPU หลายหมื่นตัวแก่ OpenAI ในเดือนมีนาคมปีนี้ Microsoft ประกาศว่าได้ช่วย OpenAI สร้างศูนย์คอมพิวเตอร์แห่งใหม่ รวมถึง A100 หลายหมื่นเครื่อง ในเดือนพฤษภาคมปีนี้ Google ได้เปิดตัว Compute Engine A3 ซึ่งเป็นคลัสเตอร์คอมพิวเตอร์ที่มี H100 จำนวน 26,000 เครื่อง ให้บริการแก่บริษัทที่ต้องการฝึกโมเดลขนาดใหญ่ด้วยตัวเอง
การกระทำและความคิดในปัจจุบันของบริษัทยักษ์ใหญ่ของจีนนั้นเร่งด่วนกว่าบริษัทยักษ์ใหญ่ในต่างประเทศ ยกตัวอย่าง Baidu ที่ทำการสั่งซื้อ GPU ใหม่หลายหมื่นรายการกับ Nvidia ในปีนี้ ลำดับความสำคัญเทียบได้กับบริษัทต่างๆ เช่น Google แม้ว่าปริมาณของ Baidu จะน้อยกว่ามาก รายได้ของบริษัทในปีที่แล้วอยู่ที่ 123,600 ล้านหยวน หรือเพียง 6% ของ Google
เป็นที่เข้าใจกันว่า Byte, Tencent, Ali และ Baidu ซึ่งเป็นบริษัทเทคโนโลยีของจีนสี่แห่งที่ลงทุนมากที่สุดใน AI และคลาวด์คอมพิวติ้ง ได้สะสม A100 หลายหมื่นเครื่องในอดีต ในหมู่พวกเขา A100 มีจำนวนไบต์ที่แน่นอนที่สุด หากไม่รวมคำสั่งซื้อใหม่ในปีนี้ จำนวนรวมของ Byte A100 และรุ่นก่อน V100 อยู่ที่เกือบ 100,000 รายการ
ในบรรดาบริษัทที่กำลังเติบโต Shangtang ยังประกาศในปีนี้ว่ามีการใช้ GPU ทั้งหมด 27,000 ตัวในคลัสเตอร์คอมพิวเตอร์ "AI large device" ซึ่งรวมถึง A100 10,000 ตัว แม้แต่ Magic Square ซึ่งเป็นบริษัทการลงทุนเชิงปริมาณที่ดูเหมือนว่าจะไม่เกี่ยวข้องกับ AI ก็เคยซื้อ A100 จำนวน 10,000 ลำมาก่อน
เพียงแค่ดูจำนวนทั้งหมด GPU เหล่านี้ก็ดูเหมือนจะมากเกินพอสำหรับบริษัทต่างๆ ในการฝึกโมเดลขนาดใหญ่ จากกรณีบนเว็บไซต์อย่างเป็นทางการของ Nvidia OpenAI ใช้ 10,000 V100 เมื่อฝึก GPT-3 ด้วยพารามิเตอร์ 175 พันล้านพารามิเตอร์ ในการเทรน GPT-3 จำเป็นต้องใช้ A100 จำนวน 1,024 บล็อกสำหรับการฝึกอบรม 1 เดือน เมื่อเทียบกับ V100 แล้ว A100 มีการปรับปรุงประสิทธิภาพ 4.3 เท่า อย่างไรก็ตาม GPU จำนวนมากที่ซื้อโดยบริษัทขนาดใหญ่ของจีนในอดีตต้องสนับสนุนธุรกิจที่มีอยู่หรือขายบนแพลตฟอร์มคลาวด์คอมพิวติ้ง และไม่สามารถใช้อย่างอิสระสำหรับการพัฒนาโมเดลขนาดใหญ่และการสนับสนุนภายนอกสำหรับความต้องการของลูกค้าโมเดลขนาดใหญ่
สิ่งนี้ยังอธิบายถึงความแตกต่างอย่างมากในการประมาณทรัพยากรคอมพิวเตอร์โดยผู้ปฏิบัติงานด้าน AI ชาวจีน Zhang Yaqin คณบดีของ Tsinghua Intelligent Industry Research Institute กล่าวในการประชุม Tsinghua Forum เมื่อปลายเดือนเมษายนว่า "หากเพิ่มพลังการประมวลผลของจีนเข้าไปหนึ่งชิ้น ก็จะเทียบเท่ากับ A100 ถึง 500,000 เครื่อง และจะฝึกโมเดล 5 รุ่นก็ไม่มีปัญหา Yin Qi ซีอีโอของบริษัท AI Megvii Technology ยอมรับ "Caixin" กล่าวในการให้สัมภาษณ์ว่า ปัจจุบันจีนมี A100 ทั้งหมดประมาณ 40,000 ลำเท่านั้นที่สามารถใช้สำหรับการฝึกโมเดลขนาดใหญ่ได้
โดยส่วนใหญ่จะสะท้อนถึงรายจ่ายฝ่ายทุนในการลงทุนในสินทรัพย์ถาวร เช่น ชิป เซิร์ฟเวอร์ และศูนย์ข้อมูล และสามารถแสดงให้เห็นลำดับของช่องว่างขนาดใหญ่ในทรัพยากรคอมพิวเตอร์ของบริษัทขนาดใหญ่ของจีนและต่างประเทศ
Baidu ซึ่งเป็นรายแรกที่ทดสอบผลิตภัณฑ์ที่คล้ายกับ ChatGPT มีรายจ่ายฝ่ายทุนต่อปีระหว่าง 800 ล้านเหรียญสหรัฐถึง 2 พันล้านเหรียญสหรัฐตั้งแต่ปี 2020 โดย Ali อยู่ระหว่าง 6 พันล้านเหรียญสหรัฐถึง 8 พันล้านเหรียญสหรัฐ และของ Tencent อยู่ระหว่าง 7 พันล้านเหรียญสหรัฐถึง 11 พันล้านเหรียญสหรัฐ . ในช่วงเวลาเดียวกัน ค่าใช้จ่ายด้านทุนประจำปีของ Amazon, Meta, Google และ Microsoft ซึ่งเป็นบริษัทเทคโนโลยีอเมริกันสี่แห่งที่มีศูนย์ข้อมูลที่สร้างขึ้นเอง ล้วนมีมูลค่าเกิน 15 พันล้านเหรียญสหรัฐเป็นอย่างน้อย
ในช่วงสามปีของการแพร่ระบาด รายจ่ายฝ่ายทุนของบริษัทในต่างประเทศยังคงเพิ่มขึ้นอย่างต่อเนื่อง ค่าใช้จ่ายด้านทุนของ Amazon ในปีที่แล้วสูงถึง 58 พันล้านดอลลาร์สหรัฐ ทั้ง Meta และ Google อยู่ที่ 31.4 พันล้านดอลลาร์สหรัฐ และ Microsoft อยู่ที่เกือบ 24 พันล้านดอลลาร์สหรัฐ การลงทุนของบริษัทจีนกำลังหดตัวหลังปี 2564 ค่าใช้จ่ายด้านการลงทุนของ Tencent และ Baidu ลดลงมากกว่า 25% เมื่อเทียบเป็นรายปีในปีที่แล้ว
ก้าวให้เร็วขึ้น OpenAI ได้พบกับความท้าทายนี้ ในช่วงกลางเดือนพฤษภาคม SamAltman CEO ของ OpenAI กล่าวในการสื่อสารขนาดเล็กกับกลุ่มนักพัฒนาว่าเนื่องจาก GPU ไม่เพียงพอ บริการ API ปัจจุบันของ OpenAI ไม่เสถียรพอและความเร็วไม่เร็วพอ ก่อนที่จะมี GPU มากขึ้น GPT- Multimodal ของ 4 ความสามารถนี้ไม่สามารถขยายไปยังผู้ใช้ทุกคนได้ และพวกเขาไม่ได้วางแผนที่จะออกผลิตภัณฑ์สำหรับผู้บริโภคใหม่ในอนาคตอันใกล้นี้ ตามรายงานที่เผยแพร่โดยหน่วยงานที่ปรึกษาด้านเทคนิค TrendForce ในเดือนมิถุนายนปีนี้ OpenAI ต้องการ A100 ประมาณ 30,000 เครื่องเพื่อเพิ่มประสิทธิภาพและใช้งาน ChatGPT อย่างต่อเนื่อง
Microsoft ซึ่งมีความร่วมมืออย่างลึกซึ้งกับ OpenAI ก็เผชิญกับสถานการณ์ที่คล้ายกันเช่นกัน: ในเดือนพฤษภาคมของปีนี้ ผู้ใช้บางคนบ่นว่าความเร็วในการตอบกลับของ New Bing นั้นช้า และ Microsoft ตอบว่าเป็นเพราะความเร็วในการเติม GPU ไม่สามารถติดตามได้ ด้วยอัตราการเติบโตของผู้ใช้ Microsoft Office 365 Copilot ซึ่งฝังตัวด้วยความสามารถของโมเดลขนาดใหญ่ ยังไม่เปิดให้บริการในสเกลใหญ่ ตัวเลขล่าสุดคือบริษัทมากกว่า 600 แห่งกำลังทดลองใช้ โดยจำนวนผู้ใช้ Office 365 ทั้งหมดทั่วโลกอยู่ที่เกือบ 300 ราย ล้าน.
หากบริษัทขนาดใหญ่ของจีนไม่ได้มีเป้าหมายเพียงฝึกฝนและเผยแพร่โมเดลขนาดใหญ่เท่านั้น แต่ต้องการใช้โมเดลขนาดใหญ่เพื่อสร้างผลิตภัณฑ์ที่ให้บริการแก่ผู้ใช้มากขึ้น และสนับสนุนลูกค้ารายอื่นเพิ่มเติมในการฝึกอบรมโมเดลขนาดใหญ่บนคลาวด์ พวกเขาจำเป็นต้อง จองล่วงหน้ามากขึ้น GPU หลายตัว
**ทำไมต้องสี่ใบนั้น **
ในแง่ของการฝึกแบบจำลองขนาดใหญ่ของ AI ไม่มีสิ่งทดแทนสำหรับ A100, H100 และรุ่นที่ลดลง A800 และ H800 ที่จัดหาให้จีนโดยเฉพาะ จากข้อมูลของกองทุนเฮดจ์ฟันด์เชิงปริมาณ Khaveen Investments ส่วนแบ่งตลาด GPU สำหรับศูนย์ข้อมูลของ Nvidia จะสูงถึง 88% ในปี 2565 และ AMD และ Intel จะแบ่งส่วนที่เหลือ
ความสามารถในการแทนที่ของ Nvidia GPU ในปัจจุบันมาจากกลไกการฝึกฝนของโมเดลขนาดใหญ่ ขั้นตอนหลักคือการเตรียมการล่วงหน้าและการปรับจูน ขั้นตอนแรกคือการวางรากฐานซึ่งเทียบเท่ากับการได้รับการศึกษาทั่วไปเพื่อสำเร็จการศึกษาจากมหาวิทยาลัย ส่วนหลัง ได้รับการปรับให้เหมาะสมสำหรับสถานการณ์และงานเฉพาะเพื่อปรับปรุงประสิทธิภาพการทำงาน
ลิงก์ก่อนการฝึกอบรมนั้นเน้นการคำนวณเป็นพิเศษ และมีข้อกำหนดที่สูงมากสำหรับประสิทธิภาพของ GPU เดี่ยวและความสามารถในการรับส่งข้อมูลระหว่างการ์ดหลายใบ
ขณะนี้มีเพียง A100 และ H100 เท่านั้นที่สามารถให้ประสิทธิภาพการประมวลผลที่จำเป็นสำหรับการฝึกอบรมล่วงหน้า ดูเหมือนแพง แต่เป็นตัวเลือกที่ถูกที่สุด ปัจจุบัน AI ยังอยู่ในช่วงเริ่มต้นของการใช้งานเชิงพาณิชย์ และค่าใช้จ่ายมีผลโดยตรงต่อการให้บริการ
บางรุ่นในอดีตเช่น VGG16 ซึ่งสามารถจำแนกแมวเป็นแมวมีพารามิเตอร์เพียง 130 ล้านพารามิเตอร์ ในเวลานั้น บางบริษัทจะใช้กราฟิกการ์ดระดับผู้บริโภคซีรีส์ RTX เพื่อเรียกใช้โมเดล AI ในการเล่นเกม ขนาดพารามิเตอร์ของ GPT-3 ที่เผยแพร่เมื่อสองปีที่แล้วสูงถึง 175 พันล้าน
ภายใต้ข้อกำหนดการประมวลผลขนาดใหญ่ของโมเดลขนาดใหญ่ จะไม่มีความเป็นไปได้อีกต่อไปที่จะใช้ GPU ประสิทธิภาพต่ำเพื่อสร้างพลังการประมวลผล เนื่องจากเมื่อใช้ GPU หลายตัวในการฝึกอบรมจำเป็นต้องส่งข้อมูลและซิงโครไนซ์ข้อมูลพารามิเตอร์ระหว่างชิป ในขณะนี้ GPU บางตัวจะไม่ได้ใช้งานและไม่สามารถอิ่มตัวได้ตลอดเวลา ดังนั้นยิ่งประสิทธิภาพของการ์ดเดียวต่ำลงเท่าใด ก็จะยิ่งใช้การ์ดมากขึ้นเท่านั้น และการสูญเสียพลังงานในการประมวลผลก็จะยิ่งมากขึ้นเท่านั้น เมื่อ OpenAI ใช้ 10,000 V100 เพื่อฝึก GPT-3 อัตราการใช้พลังงานในการคำนวณจะน้อยกว่า 50%
A100 และ H100 มีทั้งพลังการประมวลผลสูงของการ์ดเดียวและแบนด์วิธสูงเพื่อปรับปรุงการรับส่งข้อมูลระหว่างการ์ด FP32 ของ A100 (อ้างอิงถึงการเข้ารหัส 4 ไบต์และการคำนวณการจัดเก็บ) มีพลังการประมวลผล 19.5 TFLOPS (1 TFLOPS หมายถึงการดำเนินการทศนิยมหนึ่งล้านล้านต่อวินาที) และพลังการประมวลผล FP32 ของ H100 สูงถึง 134 TFLOPS ประมาณ 4 เท่า ของ MI250
A100 และ H100 ยังให้ความสามารถในการรับส่งข้อมูลที่มีประสิทธิภาพเพื่อลดพลังการประมวลผลที่ไม่ได้ใช้งาน กลโกงเฉพาะของ Nvidia คือเทคโนโลยีโปรโตคอลการสื่อสารเช่น NVLink และ NVSwitch ที่เปิดตัวตั้งแต่ปี 2014 NVLink รุ่นที่ 4 ที่ใช้ใน H100 สามารถเพิ่มแบนด์วิธการสื่อสารสองทางของ GPU ภายในเซิร์ฟเวอร์เดียวกันเป็น 900 GB/s (ข้อมูล 900GB ต่อวินาที) ซึ่งเป็น 7 เท่าของ PCle รุ่นล่าสุด (a point -to-point high-speed serial transmission standard) มากมาย
เมื่อปีที่แล้ว กฎระเบียบของกระทรวงพาณิชย์ของสหรัฐอเมริกาเกี่ยวกับการส่งออก GPU นั้นยังติดอยู่ที่พลังการประมวลผลและแบนด์วิธสองบรรทัด: พลังการประมวลผลระดับบนคือ 4800 TOPS และแบนด์วิดท์ระดับบนคือ 600 GB/s
A800 และ H800 มีพลังการประมวลผลเท่ากันกับรุ่นดั้งเดิม แต่แบนด์วิดท์มีส่วนลด แบนด์วิธของ A800 ลดลงจาก 600GB/s ของ A100 เป็น 400GB/s พารามิเตอร์เฉพาะของ H800 ยังไม่ได้รับการเปิดเผย จากข้อมูลของ Bloomberg แบนด์วิธของมันมีเพียงประมาณครึ่งหนึ่งของ H100 เท่านั้น (900 GB/ s) เมื่อทำงาน AI เดียวกัน H800 จะใช้เวลามากกว่า H100 10% -30% วิศวกร AI คาดการณ์ว่าผลการฝึกอบรมของ H800 อาจไม่ดีเท่า A100 แต่มีราคาแพงกว่า
ถึงกระนั้นก็ตาม ประสิทธิภาพของ A800 และ H800 ก็ยังคงมีประสิทธิภาพเหนือกว่าผลิตภัณฑ์ที่คล้ายกันจากบริษัทขนาดใหญ่และสตาร์ทอัพอื่นๆ ชิป AI หรือชิป GPU ที่เปิดตัวโดยบริษัทต่างๆ ถูกจำกัดด้วยประสิทธิภาพและสถาปัตยกรรมที่เฉพาะเจาะจงมากขึ้น โดยปัจจุบันใช้เหตุผลของ AI เป็นหลัก ซึ่งเป็นเรื่องยากสำหรับการฝึกอบรมล่วงหน้าโมเดลขนาดใหญ่ กล่าวอย่างง่ายๆ การฝึกอบรม AI คือการสร้างโมเดล การให้เหตุผลของ AI คือการใช้โมเดล และการฝึกอบรมต้องการประสิทธิภาพของชิปที่สูงขึ้น
นอกเหนือจากช่องว่างด้านประสิทธิภาพแล้ว คูเมืองที่ลึกกว่าของ Nvidia คือระบบนิเวศน์ของซอฟต์แวร์
ในช่วงต้นปี 2549 Nvidia ได้เปิดตัวแพลตฟอร์มการประมวลผล CUDA ซึ่งเป็นซอฟต์แวร์ประมวลผลแบบคู่ขนาน นักพัฒนาสามารถใช้ CUDA เพื่อดำเนินการฝึกอบรม AI และการใช้เหตุผลอย่างมีประสิทธิภาพมากขึ้นและใช้ประโยชน์จากพลังการประมวลผลของ GPU ได้อย่างเต็มที่ CUDA ได้กลายเป็นโครงสร้างพื้นฐานของ AI ในปัจจุบัน และเฟรมเวิร์ก AI ไลบรารี่ และเครื่องมือกระแสหลักล้วนได้รับการพัฒนาบนพื้นฐานของ CUDA
หาก GPU และชิป AI ที่ไม่ใช่ Nvidia ต้องการเชื่อมต่อกับ CUDA พวกเขาจำเป็นต้องมีซอฟต์แวร์ปรับแต่งของตัวเอง แต่เป็นเพียงส่วนหนึ่งของประสิทธิภาพของ CUDA และการทำซ้ำการอัปเดตจะช้าลง เฟรมเวิร์ก AI เช่น PyTorch กำลังพยายามทำลายการผูกขาดทางนิเวศวิทยาของซอฟต์แวร์ของ CUDA และให้ความสามารถด้านซอฟต์แวร์มากขึ้นเพื่อรองรับ GPU ของผู้ผลิตรายอื่น แต่สิ่งนี้ดึงดูดนักพัฒนาได้จำกัด
ผู้ปฏิบัติงานด้าน AI กล่าวว่าบริษัทของเขาได้ติดต่อผู้ผลิต GPU ที่ไม่ใช่ NVIDIA ซึ่งเสนอราคาชิปและบริการที่ต่ำกว่า Nvidia และสัญญาว่าจะให้บริการที่ตรงเวลากว่า แต่พวกเขาตัดสินว่าการฝึกอบรมและการพัฒนาโดยรวมโดยใช้ GPU อื่นจะมีค่าใช้จ่าย สูงกว่าของ Nvidia และจะต้องแบกรับความไม่แน่นอนของผลลัพธ์และใช้เวลามากกว่า
"แม้ว่า A100 จะมีราคาแพง แต่จริง ๆ แล้วมันถูกที่สุดที่จะใช้" เขากล่าว สำหรับบริษัทเทคโนโลยีขนาดใหญ่และสตาร์ทอัพชั้นนำที่ต้องการคว้าโอกาสจากโมเดลขนาดใหญ่ เงินมักจะไม่ใช่ปัญหา และเวลาเป็นทรัพยากรที่มีค่ามากกว่า
ในระยะสั้น สิ่งเดียวที่ส่งผลต่อยอดขาย GPU ของดาต้าเซ็นเตอร์ของ Nvidia อาจเป็นกำลังการผลิตของ TSMC
H100/800 เป็นกระบวนการผลิต 4 นาโนเมตร และ A100/800 เป็นกระบวนการผลิต 7 นาโนเมตร ชิปทั้งสี่นี้ผลิตโดย TSMC ทั้งหมด ตามรายงานของสื่อในไต้หวัน Nvidia ได้เพิ่มคำสั่งซื้อ GPU สำหรับศูนย์ข้อมูลใหม่ 10,000 รายการให้กับ TSMC ในปีนี้ และได้สั่งซื้อด่วนพิเศษ ซึ่งสามารถลดระยะเวลาในการผลิตลงได้ถึง 50% โดยปกติ TSMC จะใช้เวลาหลายเดือนในการผลิต A100 คอขวดของการผลิตในปัจจุบันมีสาเหตุหลักมาจากกำลังการผลิตบรรจุภัณฑ์ขั้นสูงไม่เพียงพอ โดยมีช่องว่าง 10 ถึง 20 เปอร์เซ็นต์ ซึ่งจะใช้เวลา 3-6 เดือนในการค่อยๆ เพิ่มขึ้น
เนื่องจาก GPU ที่เหมาะสำหรับการประมวลผลแบบขนานได้รับการแนะนำในการเรียนรู้เชิงลึก เป็นเวลากว่าสิบปี แรงผลักดันของการพัฒนา AI คือฮาร์ดแวร์และซอฟต์แวร์ และการซ้อนทับกันของพลังการประมวลผล GPU และโมเดลและอัลกอริทึมได้ก้าวไปข้างหน้า: การพัฒนาโมเดลขับเคลื่อนพลังการประมวลผล ความต้องการ พลังการประมวลผลเพิ่มขึ้น นอกจากนี้ ยังทำให้การฝึกอบรมในสเกลใหญ่ขึ้นซึ่งแต่เดิมเป็นเรื่องยากที่จะบรรลุผลได้
ในช่วงคลื่นลูกสุดท้ายของการเรียนรู้เชิงลึกที่เฟื่องฟูด้วยการจดจำภาพ ความสามารถของซอฟต์แวร์ AI ของจีนเทียบได้กับระดับที่ล้ำสมัยที่สุดในโลก พลังการประมวลผลคือความยากในปัจจุบัน การออกแบบและการผลิตชิปต้องใช้การสะสมที่ยาวนานขึ้น เกี่ยวข้องกับห่วงโซ่อุปทานที่ยาวและ อุปสรรคสิทธิบัตรมากมาย
โมเดลขนาดใหญ่เป็นอีกหนึ่งความก้าวหน้าที่ยิ่งใหญ่ในเลเยอร์โมเดลและอัลกอริทึม ไม่มีเวลาช้า บริษัทที่ต้องการสร้างโมเดลขนาดใหญ่หรือให้ความสามารถในการประมวลผลแบบคลาวด์สำหรับโมเดลขนาดใหญ่จะต้องได้รับพลังการประมวลผลขั้นสูงเพียงพอโดยเร็วที่สุด การต่อสู้เพื่อแย่งชิง GPU จะยังไม่ยุติจนกว่าคลื่นจะโห่ร้องหรือทำให้บริษัทแรกผิดหวัง