يتدافع العالم كله للحصول على قوة الحوسبة ، والشركات الصينية الكبيرة أكثر إلحاحًا.
في النصف الثاني من عام 2022 ، بينما يزدهر الذكاء الاصطناعي التوليدي ، زارت a16z ، وهي رأس مال استثماري شهير في وادي السيليكون ، العشرات من شركات الذكاء الاصطناعي الناشئة وشركات التكنولوجيا الكبرى. ووجدوا أن الشركات الناشئة أعطت 80٪ -90٪ من تمويلها المبكر لمنصات الحوسبة السحابية لتدريب نماذجها الخاصة. ويقدرون أنه حتى لو كانت منتجات هذه الشركات ناضجة ، فيجب عليهم تقديم 10٪ -20٪ من عائداتهم لشركات الحوسبة السحابية كل عام. وهي تعادل "ضريبة الذكاء الاصطناعي".
وقد أدى ذلك إلى ظهور سوق كبير لتوفير إمكانات النموذج وخدمات التدريب على السحابة ، وتأجير قوة الحوسبة للعملاء الآخرين والشركات الناشئة. في الصين وحدها ، ما لا يقل عن العشرات من الشركات الناشئة والشركات الصغيرة والمتوسطة الحجم تصنع نماذجها اللغوية الكبيرة المعقدة ، وعليهم جميعًا استئجار وحدات معالجة الرسومات من منصات الحوسبة السحابية. وفقًا لحسابات a16z ، تتجاوز نفقات حوسبة الذكاء الاصطناعي السنوية للشركة 50 مليون دولار أمريكي فقط قبل أن يكون لديها نطاق كافٍ لدعم شرائها الدُفعي لوحدات معالجة الرسومات.
وفقًا لـ "LatePost" ، بعد عيد الربيع هذا العام ، قدمت جميع شركات الإنترنت الكبرى في الصين التي لديها خدمات الحوسبة السحابية طلبات كبيرة مع Nvidia. طلبت بايت أكثر من مليار دولار أمريكي من وحدات معالجة الرسومات من Nvidia هذا العام ، كما طلبت شركة كبيرة أخرى ما لا يقل عن مليار يوان.
ربما تكون بايت وحدها قد قدمت طلبات هذا العام بالقرب من العدد الإجمالي لوحدات معالجة الرسومات التجارية Nvidia التي تم بيعها في الصين العام الماضي. في سبتمبر من العام الماضي ، عندما أصدرت حكومة الولايات المتحدة قيودًا على تصدير A100 و H100 (أحدث GPU التجاري لمركز البيانات من جيلين من NVIDIA) ، ردت Nvidia أن هذا قد يؤثر على 400 مليون دولار أمريكي (حوالي 2.8 مليار يوان) في السوق الصينية في الربع الرابع من العام الماضي. RMB) المبيعات المحتملة. بناءً على هذا الحساب ، ستكون مبيعات وحدات معالجة الرسومات الخاصة بمركز بيانات Nvidia في الصين في عام 2022 حوالي 10 مليارات يوان.
بالمقارنة مع الشركات العملاقة في الخارج ، فإن شركات التكنولوجيا الكبيرة في الصين أكثر إلحاحًا لشراء وحدات معالجة الرسومات. في خفض التكلفة وزيادة الكفاءة في العامين الماضيين ، قللت بعض منصات الحوسبة السحابية من مشتريات GPU ولديها احتياطيات غير كافية. بالإضافة إلى ذلك ، لا يمكن لأحد أن يضمن أن وحدة معالجة الرسومات عالية الأداء التي يمكن شراؤها اليوم ستخضع لقيود جديدة غدًا.
** من قطع الطلبات إلى إضافة مشتريات ، مع الانتقال داخليًا **
قبل بداية هذا العام ، كان الطلب على وحدات معالجة الرسومات من شركات التكنولوجيا الكبرى في الصين فاترًا.
تستخدم وحدات معالجة الرسومات استخدامان رئيسيان في شركات تكنولوجيا الإنترنت الكبيرة في الصين: أحدهما لدعم الشركات داخليًا وإجراء بعض أبحاث الذكاء الاصطناعي المتطورة ، والآخر هو بيع وحدات معالجة الرسومات على منصات الحوسبة السحابية.
قال شخص من Byte لـ "LatePost" إنه بعد أن أصدرت OpenAI GPT-3 في يونيو 2020 ، دربت Byte نموذجًا ضخمًا للغة التوليدية بمليارات المعلمات.في ذلك الوقت ، كانت وحدة معالجة الرسومات المستخدمة بشكل أساسي هي سلف A100. V100. نظرًا للنطاق المحدود للمعلمات ، فإن قدرة التوليد لهذا النموذج متوسطة ، ولم تتمكن Byte من رؤية إمكانية تسويقها في ذلك الوقت ، "لا يمكن حساب العائد على الاستثمار (ROI) (عائد الاستثمار)" ، هذه المرة كانت المحاولة بلا جدوى .
قام علي أيضًا بشراء وحدات معالجة الرسومات بنشاط في 2018-2019. وفقًا لمصدر سحابة Alibaba ، وصلت مشتريات علي في ذلك الوقت على الأقل إلى عشرات الآلاف من اليوانات ، وكانت الطرز المشتراة أساسًا V100 و T4 تم إصدارهما سابقًا بواسطة Nvidia. ومع ذلك ، تم منح حوالي عُشر وحدات معالجة الرسومات هذه إلى أكاديمية DAMO للبحث والتطوير في مجال تكنولوجيا الذكاء الاصطناعي. بعد إصدار نموذج M6 الكبير الذي يحتوي على تريليون معلمة في عام 2021 ، كشفت أكاديمية دارما أن 480 V100s تم استخدامها لتدريب M6.
تم منح المزيد من وحدات معالجة الرسومات التي اشترتها Alibaba في ذلك الوقت إلى Alibaba Cloud للتأجير الخارجي. ومع ذلك ، بما في ذلك Alibaba Cloud ، بالغت مجموعة من شركات الحوسبة السحابية الصينية في تقدير الطلب على الذكاء الاصطناعي في السوق الصينية. قال مستثمر تقني إنه قبل صعود النماذج واسعة النطاق ، لم تكن قوة حوسبة وحدة معالجة الرسومات على بائعي السحابة المحليين الرئيسيين تعاني من نقص في المعروض ، ولكنهم كانوا قلقين بشأن البيع ، واضطر بائعو السحابة إلى خفض الأسعار لبيع الموارد. في العام الماضي ، خفضت Alibaba Cloud الأسعار ست مرات ، وانخفضت أسعار إيجار GPU بأكثر من 20٪.
في سياق خفض التكاليف وزيادة الكفاءة ، ومتابعة "نمو الجودة" والأرباح ، من المفهوم أن علي قد خفض حجم شراء وحدة معالجة الرسومات بعد عام 2020 ، كما قطعت Tencent أيضًا دفعة واحدة من وحدات معالجة الرسومات من Nvidia في نهاية العام الماضي .
ومع ذلك ، لم يمض وقت طويل ، في بداية عام 2022 ، غيرت ChatGPT آراء الجميع ، وسرعان ما تم التوصل إلى توافق في الآراء: النموذج الكبير هو فرصة كبيرة لا يمكن تفويتها.
أولى مؤسسو كل شركة اهتمامًا وثيقًا بتقدم النموذج الكبير شخصيًا: بدأ Zhang Yiming ، مؤسس ByteDance ، في قراءة أوراق الذكاء الاصطناعي ؛ وتولى Zhang Yong ، رئيس مجلس إدارة Alibaba ، مسؤولية Alibaba Cloud و أعلن عن التقدم الذي أحرزه نموذج Alibaba الكبير في قمة Alibaba Cloud. والبرامج والخدمات كلها تستحق إعادة المحاولة استنادًا إلى قدرات النموذج الكبير ".
قال شخص من Byte أنه في الماضي ، عند التقدم لشراء وحدات معالجة الرسومات داخل Byte ، كان من الضروري شرح نسبة المدخلات والمخرجات وأولوية العمل وأهميته. ولكن الآن أصبح نموذج الأعمال واسع النطاق عملاً جديدًا على المستوى الاستراتيجي للشركة ، ولا يمكن حساب عائد الاستثمار في الوقت الحالي ، ويجب الاستثمار.
إن تطوير نماذج واسعة النطاق للأغراض العامة ليس سوى الخطوة الأولى. والهدف الأكبر لكل شركة هو إطلاق الخدمات السحابية التي توفر إمكانات نموذجية واسعة النطاق. هذا سوق كبير حقًا يمكن أن يضاهي الاستثمار.
لا تتمتع خدمة Azure السحابية من Microsoft بحضور قوي في سوق الحوسبة السحابية في الصين ، فقد خدمت بشكل أساسي الأعمال الصينية للشركات متعددة الجنسيات في الصين لمدة عشر سنوات. ولكن الآن يتعين على العملاء الانتظار في طابور لأنها الوسيط السحابي الوحيد لتسويق OpenAI.
في قمة السحابة في أبريل ، أكد علي مرة أخرى أن MaaS (النموذج كخدمة) هو الاتجاه المستقبلي للحوسبة السحابية. بالإضافة إلى اختبار النموذج الأساسي العام المفتوح والمطور ذاتيًا "Tongyi Qianwen" ، فقد أصدر أيضًا سلسلة من مساعدة العملاء في السحابة. أدوات للتدريب واستخدام النماذج الكبيرة. بعد فترة وجيزة ، أصدرت Tencent و Byte Volcano Engine أيضًا إصداراتها الجديدة من خدمات مجموعة التدريب. قال تينسنت إنه باستخدام جيل جديد من المجموعات لتدريب نموذج كبير مع تريليونات من المعلمات ، يمكن ضغط الوقت إلى 4 أيام ؛ قال بايت إن مجموعتهم الجديدة تدعم تدريب نموذج واسع النطاق على مستوى وانكا. العشرات من النماذج واسعة النطاق شركات في الصين ، معظمهم يستخدمون بالفعل محرك بركان.
تستخدم جميع هذه المنصات إما Nvidia A100 و H100 GPU ، أو إصدارات مخفضة من Nvidia تم إطلاقها خصيصًا من A800 و H800 بعد الحظر العام الماضي. يبلغ عرض النطاق الترددي لهذين المعالجات حوالي 3/4 ونصف الإصدار الأصلي ، مما يؤدي إلى تجنب المعايير المحدودة العالية لأداء وحدات معالجة الرسومات.
حول H800 و A800 ، بدأت شركات التكنولوجيا الكبرى في الصين جولة جديدة من منافسة الطلبات.
قال شخص من إحدى الشركات المصنعة السحابية إن الشركات الكبرى مثل Byte و Ali تتفاوض بشكل أساسي مع مصنع Nvidia الأصلي للمشتريات ، ويصعب على الوكلاء والأسواق المستعملة تلبية احتياجاتهم الضخمة.
سوف تتفاوض Nvidia على خصم بناءً على قائمة الأسعار ومقياس الشراء. وفقًا لموقع Nvidia الرسمي ، فإن سعر A100 هو 10000 دولار أمريكي للقطعة الواحدة (حوالي 71000 يوان) ، وسعر H100 هو 36000 دولار أمريكي للقطعة (حوالي 257000 يوان) ؛ من المفهوم أن سعر A800 و H800 أقل قليلاً من النسخة الأصلية.
تعتمد قدرة شركة صينية على الحصول على بطاقة بشكل أكبر على العلاقات التجارية ، مثل ما إذا كانت عميلًا رئيسيًا لشركة Nvidia في الماضي. "هناك فرق سواء تحدثت إلى Nvidia في الصين ، أو تذهب إلى الولايات المتحدة للتحدث مباشرة إلى Lao Huang (Huang Renxun ، المؤسس والرئيس التنفيذي لشركة Nvidia)." قال شخص من بائع السحابة.
ستجري بعض الشركات أيضًا "تعاونًا تجاريًا" مع Nvidia. عند شراء وحدات معالجة رسومات مركز البيانات الشهيرة ، فإنها تشتري أيضًا منتجات أخرى للسعي للحصول على أولوية التوريد. هذا مثل توزيع Hermès ، إذا كنت ترغب في شراء حقيبة مشهورة ، فغالبًا ما تضطر إلى مطابقتها بملابس وأحذية تصل قيمتها إلى عشرات الآلاف من اليوانات.
استنادًا إلى معلومات الصناعة التي حصلنا عليها ، تعتبر طلبات Byte الجديدة هذا العام عدوانية نسبيًا ، حيث تجاوزت مستوى المليار دولار.
وفقًا لشخص مقرب من Nvidia ، هناك ما مجموعه 100000 قطعة من A100 و H800 وصلت ولم تصل. من بينها ، H800 بدأ الإنتاج فقط في مارس من هذا العام ، وينبغي أن يأتي هذا الجزء من الرقائق من مشتريات إضافية هذا العام. من المفهوم أنه مع جدول الإنتاج الحالي ، لن يتم تسليم بعض H800s حتى نهاية هذا العام.
بدأت ByteDance في بناء مركز بيانات خاص بها في عام 2017. اعتادت مراكز البيانات الاعتماد بشكل أكبر على وحدات المعالجة المركزية في جميع العمليات الحسابية.حتى عام 2020 ، أنفقت بايت على وحدات المعالجة المركزية Intel أكثر من وحدات معالجة الرسومات Nvidia. تعكس التغييرات في مشتريات البايت أيضًا أنه في احتياجات الحوسبة لشركات التكنولوجيا الكبيرة اليوم ، فإن الحوسبة الذكية تلحق بالحوسبة العامة.
من المفهوم أن إحدى شركات الإنترنت الكبرى قد قدمت على الأقل طلبًا بمستوى 10000 مستوى مع Nvidia هذا العام ، بقيمة تقدر بأكثر من مليار يوان بناءً على سعر الكتالوج.
أخذت Tencent زمام المبادرة في الإعلان عن أنها استخدمت H800. وقد استخدمت Tencent Cloud بالفعل H800 في الإصدار الجديد من خدمات الحوسبة عالية الأداء التي تم إصدارها في مارس من هذا العام ، قائلة إن هذا هو أول إطلاق محلي. في الوقت الحاضر ، تم فتح هذه الخدمة لعملاء المؤسسات لاختبار التطبيقات ، وهو أسرع من تقدم معظم الشركات الصينية.
من المفهوم أن Alibaba Cloud اقترحت أيضًا داخليًا في مايو من هذا العام اتخاذ "معركة الحوسبة الذكية" باعتبارها المعركة الأولى هذا العام ، ووضع ثلاثة أهداف: مقياس الماكينة ، مقياس العملاء ، ومقياس الإيرادات ؛ من بينها ، المؤشر المهم مقياس الماكينة هو عدد وحدات معالجة الرسومات.
قبل وصول وحدة معالجة الرسومات الجديدة ، تقوم الشركات أيضًا بتحركات داخلية لإعطاء الأولوية لدعم تطوير النماذج الكبيرة.
تتمثل الطريقة لإطلاق المزيد من الموارد في وقت واحد في قطع بعض الاتجاهات الأقل أهمية ، أو الاتجاهات التي لا يوجد فيها احتمال واضح على المدى القصير. قال أحد ممارسي الذكاء الاصطناعي في شركة إنترنت كبرى: "الشركات الكبيرة لديها العديد من الأعمال شبه الميتة التي تشغل الموارد".
في مايو من هذا العام ، ألغى معهد علي دارما مختبر القيادة الذاتية: تم تعيين حوالي ثلث الموظفين الذين يزيد عددهم عن 300 موظف على الفريق الفني المبتدئ ، وتم تسريح البقية.لم يعد معهد دارما يحتفظ بأعمال القيادة المستقلة. يتطلب تطوير القيادة الذاتية أيضًا وحدات معالجة رسومات عالية الأداء للتدريب. قد لا يكون هذا التعديل مرتبطًا بشكل مباشر بالنموذج الكبير ، لكنه سمح لعلي بالحصول على مجموعة من "وحدات معالجة الرسومات المجانية".
يشترك Byte و Meituan مباشرة في وحدات معالجة الرسومات من فريق التكنولوجيا التجارية الذي يجلب عائدات الإعلانات للشركة.
وفقًا لـ "LatePost" ، بعد فترة وجيزة من عيد الربيع هذا العام ، قامت Byte بتوزيع مجموعة من A100s كان من المقرر في الأصل إضافتها إلى فريق تقنية تسويق Byte إلى Zhu Wenjia ، رئيس تقنية منتجات TikTok. يقود Zhu Wenjia البحث والتطوير لنماذج البايت الكبيرة. الفريق الفني للتسويق هو قسم الأعمال الأساسي الذي يدعم خوارزمية توصية إعلان Douyin.
بدأت Meituan في تطوير نماذج كبيرة في الربع الأول من هذا العام تقريبًا. من المفهوم أن Meituan نقلت مؤخرًا مجموعة من إصدار A100 لذاكرة الفيديو 80G من أقسام متعددة ، مع إعطاء الأولوية لتزويد الطرز الكبيرة ، بحيث يمكن لهذه الأقسام التبديل إلى وحدات معالجة الرسومات ذات التكوينات الأقل.
Bilibili ، التي تعد مواردها المالية أقل وفرة بكثير من المنصات الكبيرة ، لديها أيضًا خطط لنماذج كبيرة. من المفهوم أن المحطة B قد حجزت سابقًا المئات من وحدات معالجة الرسومات. هذا العام ، من ناحية ، تواصل Bilibili شراء وحدات معالجة رسومات إضافية ، ومن ناحية أخرى ، تقوم أيضًا بالتنسيق بين الأقسام المختلفة لتوزيع البطاقات بالتساوي على الطرز الكبيرة. "بعض الإدارات تعطي 10 تذاكر ، وبعض الإدارات تعطي 20 تذكرة." قال شخص قريب من المحطة ب.
تمتلك شركات الإنترنت مثل Byte و Meituan و Station B عمومًا بعض موارد GPU الزائدة في الأقسام الفنية التي دعمت البحث والتوصية في الأصل.
ومع ذلك ، فإن عدد وحدات معالجة الرسومات التي يمكن الحصول عليها بهذه الطريقة لتفكيك الشرق وتكملة الغرب محدود ، ولا يزال يتعين على وحدات معالجة الرسومات الكبيرة المطلوبة لتدريب النماذج الكبيرة الاعتماد على التراكم السابق لكل شركة وانتظار وصول وحدات معالجة الرسومات الجديدة.
** يتدافع العالم كله للحصول على قوة الحوسبة **
السباق على وحدات معالجة الرسومات الخاصة بمركز بيانات Nvidia يحدث أيضًا في جميع أنحاء العالم. ومع ذلك ، اشترت الشركات العملاقة في الخارج عددًا كبيرًا من وحدات معالجة الرسومات في وقت سابق ، وكان حجم الشراء أكبر ، وكان الاستثمار في السنوات الأخيرة مستمرًا نسبيًا.
في عام 2022 ، استثمرت Meta و Oracle بالفعل بكثافة في A100. دخلت Meta في شراكة مع Nvidia لبناء مجموعة الحوسبة الفائقة RSC في يناير الماضي ، والتي تحتوي على 16000 A100s. في نوفمبر من نفس العام ، أعلنت Oracle عن شراء عشرات الآلاف من A100 و H100 لبناء مركز حوسبة جديد. الآن قام مركز الحوسبة بنشر أكثر من 32700 طائرة من طراز A100 ، وتم إطلاق H100s جديدة واحدة تلو الأخرى.
منذ أن استثمرت Microsoft لأول مرة في OpenAI في عام 2019 ، قدمت عشرات الآلاف من وحدات معالجة الرسومات إلى OpenAI. في مارس من هذا العام ، أعلنت Microsoft أنها ساعدت OpenAI في بناء مركز حوسبة جديد ، بما في ذلك عشرات الآلاف من A100. في مايو من هذا العام ، أطلقت Google Compute Engine A3 ، وهو مجموعة حوسبة تضم 26000 H100s ، تخدم الشركات التي ترغب في تدريب النماذج الكبيرة بنفسها.
تعتبر الإجراءات والعقلية الحالية للشركات الصينية الكبرى أكثر إلحاحًا من تلك الخاصة بالعمالقة في الخارج. بأخذ Baidu كمثال ، فقد وضعت عشرات الآلاف من طلبات GPU الجديدة مع Nvidia هذا العام. ترتيب الحجم مشابه لشركات مثل Google ، على الرغم من أن حجم Baidu أصغر بكثير ، حيث بلغت عائداتها العام الماضي 123.6 مليار يوان ، أي 6٪ فقط من عائدات Google.
من المفهوم أن شركات التكنولوجيا الصينية الأربع التي استثمرت أكثر في الذكاء الاصطناعي والحوسبة السحابية ، Byte و Tencent و Ali و Baidu ، جمعت عشرات الآلاف من A100 في الماضي. من بينها ، يحتوي A100 على أكبر عدد من البايتات. باستثناء الطلبات الجديدة هذا العام ، فإن العدد الإجمالي لـ Byte A100 وسابقه V100 يقترب من 100000.
من بين الشركات المتنامية ، أعلنت Shangtang أيضًا هذا العام أنه تم نشر ما مجموعه 27000 وحدة معالجة رسومات في مجموعة الحوسبة "جهاز كبير للذكاء الاصطناعي" ، بما في ذلك 10000 وحدة A100. حتى ماجيك سكوير ، وهي شركة استثمار كمي يبدو أنه لا علاقة لها بالذكاء الاصطناعي ، اشترت 10 آلاف A100 من قبل.
بمجرد النظر إلى العدد الإجمالي ، يبدو أن وحدات معالجة الرسومات هذه أكثر من كافية للشركات لتدريب الطرز الكبيرة. وفقًا للحالة على موقع الويب الرسمي لشركة Nvidia ، استخدمت OpenAI 10000 V100s عند تدريب GPT-3 مع 175 مليار معلمة. لتدريب GPT-3 هناك حاجة إلى 1024 قطعة من A100 لمدة شهر واحد من التدريب ، وبالمقارنة مع V100 ، فقد تحسن أداء A100 بمقدار 4.3 مرة. ومع ذلك ، فإن عددًا كبيرًا من وحدات معالجة الرسومات التي تم شراؤها من قبل الشركات الصينية الكبيرة في الماضي يجب أن تدعم الشركات الحالية أو يتم بيعها على منصات الحوسبة السحابية ، ولا يمكن استخدامها بحرية لتطوير النماذج على نطاق واسع والدعم الخارجي لاحتياجات النماذج واسعة النطاق للعملاء.
وهذا يفسر أيضًا الاختلاف الهائل في تقدير موارد الحوسبة من قبل ممارسي الذكاء الاصطناعي الصينيين. قال Zhang Yaqin ، عميد معهد Tsinghua لأبحاث الصناعة الذكية ، في منتدى Tsinghua في نهاية أبريل ، "إذا تمت إضافة قطعة واحدة من قوة الحوسبة في الصين ، فإنها تعادل 500000 A100 ، ولا توجد مشكلة في تدريب خمسة نماذج. "Yin Qi ، الرئيس التنفيذي لشركة Megvii Technology للذكاء الاصطناعي ، قبل" Caixin "قال في مقابلة: الصين لديها حاليًا ما مجموعه حوالي 40.000 A100s التي يمكن استخدامها للتدريب على النماذج واسعة النطاق.
يعكس بشكل أساسي الإنفاق الرأسمالي على الاستثمار في الأصول الثابتة مثل الرقائق والخوادم ومراكز البيانات ، ويمكنه بشكل حدسي توضيح ترتيب فجوة الحجم في موارد الحوسبة للشركات الصينية والأجنبية الكبيرة.
Baidu ، التي كانت أول من اختبر منتجات شبيهة بـ ChatGPT ، لديها نفقات رأسمالية سنوية تتراوح بين 800 مليون دولار أمريكي و 2 مليار دولار أمريكي منذ عام 2020 ، و علي ما بين 6 مليار دولار أمريكي و 8 مليار دولار أمريكي ، و Tencent بين 7 مليار دولار أمريكي و 11 مليار دولار أمريكي. . خلال نفس الفترة ، تجاوزت النفقات الرأسمالية السنوية لشركات Amazon و Meta و Google و Microsoft ، شركات التكنولوجيا الأمريكية الأربع التي لديها مراكز بيانات ذاتية البناء ، 15 مليار دولار أمريكي على الأقل.
خلال السنوات الثلاث للوباء ، استمرت النفقات الرأسمالية للشركات الأجنبية في الارتفاع. بلغت النفقات الرأسمالية لشركة أمازون العام الماضي 58 مليار دولار أمريكي ، وبلغت قيمة كل من ميتا وجوجل 31.4 مليار دولار أمريكي ، ومايكروسوفت ما يقرب من 24 مليار دولار أمريكي. تتقلص استثمارات الشركات الصينية بعد عام 2021. انخفضت النفقات الرأسمالية لكل من Tencent و Baidu بأكثر من 25 ٪ على أساس سنوي في العام الماضي.
لم تعد وحدات معالجة الرسوم (GPU) لتدريب النماذج الكبيرة كافية.إذا كانت الشركات الصينية ترغب حقًا في الاستثمار في نماذج كبيرة لفترة طويلة وكسب المال من أجل "بيع المجارف" لاحتياجات النماذج الأخرى ، فستحتاج إلى الاستمرار في زيادة موارد وحدة معالجة الرسومات في المستقبل.
الذهاب بشكل أسرع واجهت OpenAI هذا التحدي. في منتصف شهر مايو ، قال الرئيس التنفيذي لشركة OpenAI SamAltman في اتصال صغير الحجم مع مجموعة من المطورين أنه نظرًا لعدم كفاية وحدات معالجة الرسومات ، فإن خدمة واجهة برمجة تطبيقات OpenAI الحالية ليست مستقرة بدرجة كافية والسرعة ليست بالسرعة الكافية. قبل أن يكون هناك المزيد من وحدات معالجة الرسومات ، GPT- 4 متعدد الوسائط لا يمكن توسيع القدرات لتشمل كل مستخدم ، وهم لا يخططون لإطلاق منتجات استهلاكية جديدة في المستقبل القريب. وفقًا لتقرير صادر عن وكالة الاستشارات الفنية TrendForce في يونيو من هذا العام ، تحتاج OpenAI إلى حوالي 30،000 A100s لتحسين وتسويق ChatGPT بشكل مستمر.
Microsoft ، التي لديها تعاون عميق مع OpenAI ، تواجه أيضًا موقفًا مشابهًا: في مايو من هذا العام ، اشتكى بعض المستخدمين من أن سرعة إجابة Bing الجديدة كانت بطيئة ، واستجابت Microsoft بأن هذا يرجع إلى أن سرعة تجديد وحدة معالجة الرسومات لا يمكنها مواكبة ذلك. مع معدل نمو المستخدم. Microsoft Office 365 Copilot ، المضمن مع إمكانات النماذج واسعة النطاق ، ليس مفتوحًا حاليًا على نطاق واسع. الرقم الأخير هو أن أكثر من 600 شركة تحاول ذلك ، ويقترب العدد الإجمالي لمستخدمي Office 365 في جميع أنحاء العالم من 300 مليون.
إذا كانت شركة صينية كبيرة لا تهدف فقط إلى تدريب وإصدار نموذج كبير ، ولكنها تريد حقًا استخدام النموذج الكبير لإنشاء منتجات تخدم المزيد من المستخدمين ، ودعم العملاء الآخرين لتدريب المزيد من النماذج الكبيرة على السحابة ، فإنهم بحاجة إلى ذلك احجز أكثر مقدما.
** لماذا هذه البطاقات الأربعة فقط؟ **
فيما يتعلق بتدريب النماذج الكبيرة للذكاء الاصطناعي ، لا توجد بدائل لـ A100 و H100 والإصدار المصغر A800 و H800 اللذين يتم توفيرهما خصيصًا للصين. وفقًا لصندوق التحوط الكمي Khaveen Investments ، ستصل حصة سوق GPU لمركز بيانات Nvidia إلى 88 ٪ في عام 2022 ، وستقوم AMD و Intel بتقسيم الباقي.
في مؤتمر GTC في عام 2020 ، ظهر Huang Renxun لأول مرة مع A100.
يأتي عدم الاستغناء الحالي عن Nvidia GPU من آلية التدريب للنماذج الكبيرة. خطواتها الأساسية هي التدريب المسبق والضبط الدقيق. الأول هو وضع الأساس ، وهو ما يعادل تلقي التعليم العام للتخرج من الجامعة. تم تحسينه لسيناريوهات ومهام محددة لتحسين أداء العمل.
يعتبر ارتباط ما قبل التدريب مكثفًا من الناحية الحسابية بشكل خاص ، وله متطلبات عالية للغاية فيما يتعلق بأداء وحدة معالجة رسومات واحدة وقدرة نقل البيانات بين بطاقات متعددة.
الآن يمكن فقط لـ A100 و H100 توفير كفاءة الحوسبة المطلوبة للتدريب المسبق.يبدو أنها باهظة الثمن ، لكنها الخيار الأرخص. اليوم ، لا يزال الذكاء الاصطناعي في المراحل الأولى من الاستخدام التجاري ، وتؤثر التكلفة بشكل مباشر على ما إذا كانت الخدمة متاحة أم لا.
بعض الطرز في الماضي ، مثل VGG16 ، التي يمكنها التعرف على القطط كقطط ، تحتوي فقط على 130 مليون متغير.في ذلك الوقت ، ستستخدم بعض الشركات بطاقات رسوميات سلسلة RTX للمستهلكين لممارسة الألعاب لتشغيل نماذج الذكاء الاصطناعي. وصل مقياس معلمة GPT-3 الذي تم إصداره منذ أكثر من عامين إلى 175 مليار.
في ظل متطلبات الحوسبة الضخمة للنماذج الكبيرة ، لم يعد من الممكن استخدام المزيد من وحدات معالجة الرسومات منخفضة الأداء لتكوين قوة الحوسبة. لأنه عند استخدام وحدات معالجة رسومات متعددة للتدريب ، من الضروري نقل البيانات ومزامنة معلومات المعلمات بين الرقائق.في هذا الوقت ، ستكون بعض وحدات معالجة الرسومات خاملة ولا يمكن تشبعها طوال الوقت. لذلك ، كلما انخفض أداء بطاقة واحدة ، زاد استخدام البطاقات ، وزاد فقدان طاقة الحوسبة. عندما يستخدم OpenAI 10000 V100s لتدريب GPT-3 ، يكون معدل استخدام طاقة الحوسبة أقل من 50٪.
يتمتع كل من A100 و H100 بقدرة حوسبة عالية لبطاقة واحدة وعرض نطاق ترددي مرتفع لتحسين نقل البيانات بين البطاقات. تتمتع FP32 من A100 (بالإشارة إلى تشفير 4 بايت وحساب التخزين) بقوة حوسبة تبلغ 19.5 TFLOPS (1 TFLOPS تعني تريليون عملية فاصلة عائمة في الثانية) ، وقدرة حوسبة H100's FP32 تصل إلى 134 TFLOPS. حوالي 4 أضعاف ذلك من MI250.
يوفر A100 و H100 أيضًا إمكانات فعالة لنقل البيانات لتقليل طاقة الحوسبة الخاملة. غش Nvidia الحصري هو تقنيات بروتوكول الاتصال مثل NVLink و NVSwitch التي تم إطلاقها منذ عام 2014. يمكن للجيل الرابع من NVLink المستخدم في H100 زيادة عرض النطاق الترددي للاتصال ثنائي الاتجاه لوحدات معالجة الرسومات داخل نفس الخادم إلى 900 جيجابايت / ثانية (900 جيجابايت من البيانات في الثانية) ، وهو ما يعادل 7 أضعاف أحدث جيل من PCle (نقطة) معيار الإرسال التسلسلي عالي السرعة إلى نقطة) كثير.
في العام الماضي ، كانت لوائح وزارة التجارة الأمريكية بشأن تصدير وحدات معالجة الرسومات عالقة أيضًا في سطرين من قوة الحوسبة وعرض النطاق الترددي: كانت قوة الحوسبة العليا 4800 TOPS ، وكان النطاق الترددي للخط الأعلى 600 جيجابايت / ثانية.
يتمتع كل من A800 و H800 بنفس قوة الحوسبة مثل الإصدار الأصلي ، ولكن عرض النطاق الترددي مخفض. تم تقليل عرض النطاق الترددي لـ A800 من 600 جيجابايت / ثانية من A100 إلى 400 جيجابايت / ثانية. لم يتم الكشف عن المعلمات المحددة لـ H800. وفقًا لـ Bloomberg ، فإن عرض النطاق الترددي الخاص به لا يمثل سوى نصف نطاق H100 (900 جيجابايت / ثانية) ق) عند تنفيذ نفس مهمة الذكاء الاصطناعي ، سيستغرق H800 وقتًا أطول بنسبة 10٪ -30٪ من H100. تكهن أحد مهندسي الذكاء الاصطناعي بأن تأثير التدريب على H800 قد لا يكون جيدًا مثل A100 ، لكنه أكثر تكلفة.
ومع ذلك ، لا يزال أداء A800 و H800 يتفوق على المنتجات المماثلة من الشركات الكبرى والشركات الناشئة الأخرى. مقيدة بالأداء والبنى الأكثر تخصصًا ، تُستخدم الآن شرائح الذكاء الاصطناعي أو رقائق GPU التي أطلقتها العديد من الشركات بشكل أساسي لاستدلال الذكاء الاصطناعي ، وهو أمر صعب بالنسبة للتدريب المسبق للنماذج واسعة النطاق. ببساطة ، التدريب على الذكاء الاصطناعي هو صنع نموذج ، منطق الذكاء الاصطناعي هو استخدام النموذج ، والتدريب يتطلب أداء شريحة أعلى.
بالإضافة إلى فجوة الأداء ، فإن خندق Nvidia الأعمق هو بيئة البرامج.
في وقت مبكر من عام 2006 ، أطلقت Nvidia منصة الحوسبة CUDA ، وهي محرك برمجيات حوسبة متوازية.يمكن للمطورين استخدام CUDA لأداء تدريب الذكاء الاصطناعي والتفكير المنطقي بشكل أكثر كفاءة والاستفادة الجيدة من قوة حوسبة GPU. أصبحت CUDA هي البنية التحتية للذكاء الاصطناعي اليوم ، وتم تطوير جميع أطر عمل الذكاء الاصطناعي والمكتبات والأدوات السائدة بناءً على CUDA.
إذا كانت وحدات معالجة الرسومات (GPU) وشرائح الذكاء الاصطناعي (AI) الأخرى بخلاف Nvidia ترغب في الاتصال بـ CUDA ، فإنها تحتاج إلى توفير برنامج التكيف الخاص بها ، ولكن فقط جزء من أداء CUDA ، ويكون تكرار التحديث أبطأ. تحاول أطر عمل الذكاء الاصطناعي مثل PyTorch كسر الاحتكار البيئي لبرامج CUDA وتوفير المزيد من إمكانيات البرامج لدعم وحدات معالجة الرسومات الخاصة بالمصنعين الآخرين ، ولكن هذا لا يلقى استحسان المطورين.
قال أحد ممارسي الذكاء الاصطناعي إن شركته قد اتصلت بشركة مصنعة غير تابعة لـ NVIDIA GPU ، والتي قدمت أسعارًا أقل للرقائق والخدمات من Nvidia ، ووعد بتقديم خدمات في الوقت المناسب ، لكنهم رأوا أن التدريب والتطوير بشكل عام باستخدام وحدات معالجة الرسوميات الأخرى ستكون التكلفة. تكون أعلى من تلك الموجودة في Nvidia ، وسيتعين عليها تحمل عدم اليقين من النتائج وتستغرق المزيد من الوقت.
وقال: "على الرغم من أن A100 غالي الثمن ، إلا أنه أرخص استخدامًا في الواقع". بالنسبة لشركات التكنولوجيا الكبيرة والشركات الناشئة الرائدة التي تنوي اغتنام فرصة النماذج الكبيرة ، لا يمثل المال في كثير من الأحيان مشكلة ، والوقت هو المورد الأكثر قيمة.
على المدى القصير ، قد يكون الشيء الوحيد الذي يؤثر على مبيعات GPU لمركز بيانات Nvidia هو القدرة الإنتاجية لـ TSMC.
إن H100 / 800 عبارة عن عملية 4 نانومتر ، و A100 / 800 هي عملية 7 نانومتر ، هذه الشرائح الأربعة كلها من إنتاج TSMC. وفقًا لتقارير وسائل الإعلام التايوانية الصينية ، أضافت Nvidia 10000 طلب GPU جديد لمركز البيانات إلى TSMC هذا العام ، وقدمت طلبًا عاجلاً للغاية ، والذي يمكن أن يقصر وقت الإنتاج بنسبة تصل إلى 50٪. عادة ، قد يستغرق TSMC عدة أشهر لإنتاج A100. يرجع الاختناق الحالي في الإنتاج بشكل أساسي إلى عدم كفاية الطاقة الإنتاجية للتغليف المتقدم ، مع وجود فجوة من 10 إلى 20 في المائة ، والتي ستستغرق 3-6 أشهر لتزداد تدريجياً.
منذ أن تم إدخال وحدات معالجة الرسومات المناسبة للحوسبة المتوازية في التعلم العميق ، كانت القوة الدافعة لتطوير الذكاء الاصطناعي هي الأجهزة والبرامج لأكثر من عقد ، كما أنه يجعل التدريب على نطاق واسع الذي كان من الصعب تحقيقه في الأصل.
في الموجة الأخيرة من طفرة التعلم العميق المتمثلة في التعرف على الصور ، يمكن مقارنة قدرات برمجيات الذكاء الاصطناعي في الصين مع المستوى الأكثر تطورًا في العالم ؛ قوة الحوسبة هي الصعوبة الحالية - يتطلب تصميم وتصنيع الرقائق تراكمًا أطول ، يتضمن سلسلة إمداد طويلة و العديد من براءات الاختراع.
يعد النموذج الكبير تقدمًا كبيرًا آخر في طبقة النموذج والخوارزمية. لا يوجد وقت لأخذ ذلك ببطء. يجب على الشركات التي ترغب في بناء نماذج كبيرة أو توفير إمكانات الحوسبة السحابية للنماذج الكبيرة الحصول على قوة حوسبة متقدمة كافية في أسرع وقت ممكن. لن تتوقف المعركة على وحدات معالجة الرسومات حتى تهتف الموجة أو تخيب آمال الشركات الأولى.
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
التنافس على تذاكر الذكاء الاصطناعي: الشركات الصينية الكبرى تتنافس على وحدات معالجة الرسومات
المصدر 丨 في وقت لاحق LatePost
نص 丨 Zhang Jiahao
في النصف الثاني من عام 2022 ، بينما يزدهر الذكاء الاصطناعي التوليدي ، زارت a16z ، وهي رأس مال استثماري شهير في وادي السيليكون ، العشرات من شركات الذكاء الاصطناعي الناشئة وشركات التكنولوجيا الكبرى. ووجدوا أن الشركات الناشئة أعطت 80٪ -90٪ من تمويلها المبكر لمنصات الحوسبة السحابية لتدريب نماذجها الخاصة. ويقدرون أنه حتى لو كانت منتجات هذه الشركات ناضجة ، فيجب عليهم تقديم 10٪ -20٪ من عائداتهم لشركات الحوسبة السحابية كل عام. وهي تعادل "ضريبة الذكاء الاصطناعي".
وقد أدى ذلك إلى ظهور سوق كبير لتوفير إمكانات النموذج وخدمات التدريب على السحابة ، وتأجير قوة الحوسبة للعملاء الآخرين والشركات الناشئة. في الصين وحدها ، ما لا يقل عن العشرات من الشركات الناشئة والشركات الصغيرة والمتوسطة الحجم تصنع نماذجها اللغوية الكبيرة المعقدة ، وعليهم جميعًا استئجار وحدات معالجة الرسومات من منصات الحوسبة السحابية. وفقًا لحسابات a16z ، تتجاوز نفقات حوسبة الذكاء الاصطناعي السنوية للشركة 50 مليون دولار أمريكي فقط قبل أن يكون لديها نطاق كافٍ لدعم شرائها الدُفعي لوحدات معالجة الرسومات.
وفقًا لـ "LatePost" ، بعد عيد الربيع هذا العام ، قدمت جميع شركات الإنترنت الكبرى في الصين التي لديها خدمات الحوسبة السحابية طلبات كبيرة مع Nvidia. طلبت بايت أكثر من مليار دولار أمريكي من وحدات معالجة الرسومات من Nvidia هذا العام ، كما طلبت شركة كبيرة أخرى ما لا يقل عن مليار يوان.
ربما تكون بايت وحدها قد قدمت طلبات هذا العام بالقرب من العدد الإجمالي لوحدات معالجة الرسومات التجارية Nvidia التي تم بيعها في الصين العام الماضي. في سبتمبر من العام الماضي ، عندما أصدرت حكومة الولايات المتحدة قيودًا على تصدير A100 و H100 (أحدث GPU التجاري لمركز البيانات من جيلين من NVIDIA) ، ردت Nvidia أن هذا قد يؤثر على 400 مليون دولار أمريكي (حوالي 2.8 مليار يوان) في السوق الصينية في الربع الرابع من العام الماضي. RMB) المبيعات المحتملة. بناءً على هذا الحساب ، ستكون مبيعات وحدات معالجة الرسومات الخاصة بمركز بيانات Nvidia في الصين في عام 2022 حوالي 10 مليارات يوان.
بالمقارنة مع الشركات العملاقة في الخارج ، فإن شركات التكنولوجيا الكبيرة في الصين أكثر إلحاحًا لشراء وحدات معالجة الرسومات. في خفض التكلفة وزيادة الكفاءة في العامين الماضيين ، قللت بعض منصات الحوسبة السحابية من مشتريات GPU ولديها احتياطيات غير كافية. بالإضافة إلى ذلك ، لا يمكن لأحد أن يضمن أن وحدة معالجة الرسومات عالية الأداء التي يمكن شراؤها اليوم ستخضع لقيود جديدة غدًا.
** من قطع الطلبات إلى إضافة مشتريات ، مع الانتقال داخليًا **
قبل بداية هذا العام ، كان الطلب على وحدات معالجة الرسومات من شركات التكنولوجيا الكبرى في الصين فاترًا.
تستخدم وحدات معالجة الرسومات استخدامان رئيسيان في شركات تكنولوجيا الإنترنت الكبيرة في الصين: أحدهما لدعم الشركات داخليًا وإجراء بعض أبحاث الذكاء الاصطناعي المتطورة ، والآخر هو بيع وحدات معالجة الرسومات على منصات الحوسبة السحابية.
قال شخص من Byte لـ "LatePost" إنه بعد أن أصدرت OpenAI GPT-3 في يونيو 2020 ، دربت Byte نموذجًا ضخمًا للغة التوليدية بمليارات المعلمات.في ذلك الوقت ، كانت وحدة معالجة الرسومات المستخدمة بشكل أساسي هي سلف A100. V100. نظرًا للنطاق المحدود للمعلمات ، فإن قدرة التوليد لهذا النموذج متوسطة ، ولم تتمكن Byte من رؤية إمكانية تسويقها في ذلك الوقت ، "لا يمكن حساب العائد على الاستثمار (ROI) (عائد الاستثمار)" ، هذه المرة كانت المحاولة بلا جدوى .
قام علي أيضًا بشراء وحدات معالجة الرسومات بنشاط في 2018-2019. وفقًا لمصدر سحابة Alibaba ، وصلت مشتريات علي في ذلك الوقت على الأقل إلى عشرات الآلاف من اليوانات ، وكانت الطرز المشتراة أساسًا V100 و T4 تم إصدارهما سابقًا بواسطة Nvidia. ومع ذلك ، تم منح حوالي عُشر وحدات معالجة الرسومات هذه إلى أكاديمية DAMO للبحث والتطوير في مجال تكنولوجيا الذكاء الاصطناعي. بعد إصدار نموذج M6 الكبير الذي يحتوي على تريليون معلمة في عام 2021 ، كشفت أكاديمية دارما أن 480 V100s تم استخدامها لتدريب M6.
تم منح المزيد من وحدات معالجة الرسومات التي اشترتها Alibaba في ذلك الوقت إلى Alibaba Cloud للتأجير الخارجي. ومع ذلك ، بما في ذلك Alibaba Cloud ، بالغت مجموعة من شركات الحوسبة السحابية الصينية في تقدير الطلب على الذكاء الاصطناعي في السوق الصينية. قال مستثمر تقني إنه قبل صعود النماذج واسعة النطاق ، لم تكن قوة حوسبة وحدة معالجة الرسومات على بائعي السحابة المحليين الرئيسيين تعاني من نقص في المعروض ، ولكنهم كانوا قلقين بشأن البيع ، واضطر بائعو السحابة إلى خفض الأسعار لبيع الموارد. في العام الماضي ، خفضت Alibaba Cloud الأسعار ست مرات ، وانخفضت أسعار إيجار GPU بأكثر من 20٪.
في سياق خفض التكاليف وزيادة الكفاءة ، ومتابعة "نمو الجودة" والأرباح ، من المفهوم أن علي قد خفض حجم شراء وحدة معالجة الرسومات بعد عام 2020 ، كما قطعت Tencent أيضًا دفعة واحدة من وحدات معالجة الرسومات من Nvidia في نهاية العام الماضي .
ومع ذلك ، لم يمض وقت طويل ، في بداية عام 2022 ، غيرت ChatGPT آراء الجميع ، وسرعان ما تم التوصل إلى توافق في الآراء: النموذج الكبير هو فرصة كبيرة لا يمكن تفويتها.
أولى مؤسسو كل شركة اهتمامًا وثيقًا بتقدم النموذج الكبير شخصيًا: بدأ Zhang Yiming ، مؤسس ByteDance ، في قراءة أوراق الذكاء الاصطناعي ؛ وتولى Zhang Yong ، رئيس مجلس إدارة Alibaba ، مسؤولية Alibaba Cloud و أعلن عن التقدم الذي أحرزه نموذج Alibaba الكبير في قمة Alibaba Cloud. والبرامج والخدمات كلها تستحق إعادة المحاولة استنادًا إلى قدرات النموذج الكبير ".
قال شخص من Byte أنه في الماضي ، عند التقدم لشراء وحدات معالجة الرسومات داخل Byte ، كان من الضروري شرح نسبة المدخلات والمخرجات وأولوية العمل وأهميته. ولكن الآن أصبح نموذج الأعمال واسع النطاق عملاً جديدًا على المستوى الاستراتيجي للشركة ، ولا يمكن حساب عائد الاستثمار في الوقت الحالي ، ويجب الاستثمار.
إن تطوير نماذج واسعة النطاق للأغراض العامة ليس سوى الخطوة الأولى. والهدف الأكبر لكل شركة هو إطلاق الخدمات السحابية التي توفر إمكانات نموذجية واسعة النطاق. هذا سوق كبير حقًا يمكن أن يضاهي الاستثمار.
لا تتمتع خدمة Azure السحابية من Microsoft بحضور قوي في سوق الحوسبة السحابية في الصين ، فقد خدمت بشكل أساسي الأعمال الصينية للشركات متعددة الجنسيات في الصين لمدة عشر سنوات. ولكن الآن يتعين على العملاء الانتظار في طابور لأنها الوسيط السحابي الوحيد لتسويق OpenAI.
في قمة السحابة في أبريل ، أكد علي مرة أخرى أن MaaS (النموذج كخدمة) هو الاتجاه المستقبلي للحوسبة السحابية. بالإضافة إلى اختبار النموذج الأساسي العام المفتوح والمطور ذاتيًا "Tongyi Qianwen" ، فقد أصدر أيضًا سلسلة من مساعدة العملاء في السحابة. أدوات للتدريب واستخدام النماذج الكبيرة. بعد فترة وجيزة ، أصدرت Tencent و Byte Volcano Engine أيضًا إصداراتها الجديدة من خدمات مجموعة التدريب. قال تينسنت إنه باستخدام جيل جديد من المجموعات لتدريب نموذج كبير مع تريليونات من المعلمات ، يمكن ضغط الوقت إلى 4 أيام ؛ قال بايت إن مجموعتهم الجديدة تدعم تدريب نموذج واسع النطاق على مستوى وانكا. العشرات من النماذج واسعة النطاق شركات في الصين ، معظمهم يستخدمون بالفعل محرك بركان.
تستخدم جميع هذه المنصات إما Nvidia A100 و H100 GPU ، أو إصدارات مخفضة من Nvidia تم إطلاقها خصيصًا من A800 و H800 بعد الحظر العام الماضي. يبلغ عرض النطاق الترددي لهذين المعالجات حوالي 3/4 ونصف الإصدار الأصلي ، مما يؤدي إلى تجنب المعايير المحدودة العالية لأداء وحدات معالجة الرسومات.
حول H800 و A800 ، بدأت شركات التكنولوجيا الكبرى في الصين جولة جديدة من منافسة الطلبات.
قال شخص من إحدى الشركات المصنعة السحابية إن الشركات الكبرى مثل Byte و Ali تتفاوض بشكل أساسي مع مصنع Nvidia الأصلي للمشتريات ، ويصعب على الوكلاء والأسواق المستعملة تلبية احتياجاتهم الضخمة.
سوف تتفاوض Nvidia على خصم بناءً على قائمة الأسعار ومقياس الشراء. وفقًا لموقع Nvidia الرسمي ، فإن سعر A100 هو 10000 دولار أمريكي للقطعة الواحدة (حوالي 71000 يوان) ، وسعر H100 هو 36000 دولار أمريكي للقطعة (حوالي 257000 يوان) ؛ من المفهوم أن سعر A800 و H800 أقل قليلاً من النسخة الأصلية.
تعتمد قدرة شركة صينية على الحصول على بطاقة بشكل أكبر على العلاقات التجارية ، مثل ما إذا كانت عميلًا رئيسيًا لشركة Nvidia في الماضي. "هناك فرق سواء تحدثت إلى Nvidia في الصين ، أو تذهب إلى الولايات المتحدة للتحدث مباشرة إلى Lao Huang (Huang Renxun ، المؤسس والرئيس التنفيذي لشركة Nvidia)." قال شخص من بائع السحابة.
ستجري بعض الشركات أيضًا "تعاونًا تجاريًا" مع Nvidia. عند شراء وحدات معالجة رسومات مركز البيانات الشهيرة ، فإنها تشتري أيضًا منتجات أخرى للسعي للحصول على أولوية التوريد. هذا مثل توزيع Hermès ، إذا كنت ترغب في شراء حقيبة مشهورة ، فغالبًا ما تضطر إلى مطابقتها بملابس وأحذية تصل قيمتها إلى عشرات الآلاف من اليوانات.
استنادًا إلى معلومات الصناعة التي حصلنا عليها ، تعتبر طلبات Byte الجديدة هذا العام عدوانية نسبيًا ، حيث تجاوزت مستوى المليار دولار.
وفقًا لشخص مقرب من Nvidia ، هناك ما مجموعه 100000 قطعة من A100 و H800 وصلت ولم تصل. من بينها ، H800 بدأ الإنتاج فقط في مارس من هذا العام ، وينبغي أن يأتي هذا الجزء من الرقائق من مشتريات إضافية هذا العام. من المفهوم أنه مع جدول الإنتاج الحالي ، لن يتم تسليم بعض H800s حتى نهاية هذا العام.
بدأت ByteDance في بناء مركز بيانات خاص بها في عام 2017. اعتادت مراكز البيانات الاعتماد بشكل أكبر على وحدات المعالجة المركزية في جميع العمليات الحسابية.حتى عام 2020 ، أنفقت بايت على وحدات المعالجة المركزية Intel أكثر من وحدات معالجة الرسومات Nvidia. تعكس التغييرات في مشتريات البايت أيضًا أنه في احتياجات الحوسبة لشركات التكنولوجيا الكبيرة اليوم ، فإن الحوسبة الذكية تلحق بالحوسبة العامة.
من المفهوم أن إحدى شركات الإنترنت الكبرى قد قدمت على الأقل طلبًا بمستوى 10000 مستوى مع Nvidia هذا العام ، بقيمة تقدر بأكثر من مليار يوان بناءً على سعر الكتالوج.
أخذت Tencent زمام المبادرة في الإعلان عن أنها استخدمت H800. وقد استخدمت Tencent Cloud بالفعل H800 في الإصدار الجديد من خدمات الحوسبة عالية الأداء التي تم إصدارها في مارس من هذا العام ، قائلة إن هذا هو أول إطلاق محلي. في الوقت الحاضر ، تم فتح هذه الخدمة لعملاء المؤسسات لاختبار التطبيقات ، وهو أسرع من تقدم معظم الشركات الصينية.
من المفهوم أن Alibaba Cloud اقترحت أيضًا داخليًا في مايو من هذا العام اتخاذ "معركة الحوسبة الذكية" باعتبارها المعركة الأولى هذا العام ، ووضع ثلاثة أهداف: مقياس الماكينة ، مقياس العملاء ، ومقياس الإيرادات ؛ من بينها ، المؤشر المهم مقياس الماكينة هو عدد وحدات معالجة الرسومات.
قبل وصول وحدة معالجة الرسومات الجديدة ، تقوم الشركات أيضًا بتحركات داخلية لإعطاء الأولوية لدعم تطوير النماذج الكبيرة.
تتمثل الطريقة لإطلاق المزيد من الموارد في وقت واحد في قطع بعض الاتجاهات الأقل أهمية ، أو الاتجاهات التي لا يوجد فيها احتمال واضح على المدى القصير. قال أحد ممارسي الذكاء الاصطناعي في شركة إنترنت كبرى: "الشركات الكبيرة لديها العديد من الأعمال شبه الميتة التي تشغل الموارد".
في مايو من هذا العام ، ألغى معهد علي دارما مختبر القيادة الذاتية: تم تعيين حوالي ثلث الموظفين الذين يزيد عددهم عن 300 موظف على الفريق الفني المبتدئ ، وتم تسريح البقية.لم يعد معهد دارما يحتفظ بأعمال القيادة المستقلة. يتطلب تطوير القيادة الذاتية أيضًا وحدات معالجة رسومات عالية الأداء للتدريب. قد لا يكون هذا التعديل مرتبطًا بشكل مباشر بالنموذج الكبير ، لكنه سمح لعلي بالحصول على مجموعة من "وحدات معالجة الرسومات المجانية".
يشترك Byte و Meituan مباشرة في وحدات معالجة الرسومات من فريق التكنولوجيا التجارية الذي يجلب عائدات الإعلانات للشركة.
وفقًا لـ "LatePost" ، بعد فترة وجيزة من عيد الربيع هذا العام ، قامت Byte بتوزيع مجموعة من A100s كان من المقرر في الأصل إضافتها إلى فريق تقنية تسويق Byte إلى Zhu Wenjia ، رئيس تقنية منتجات TikTok. يقود Zhu Wenjia البحث والتطوير لنماذج البايت الكبيرة. الفريق الفني للتسويق هو قسم الأعمال الأساسي الذي يدعم خوارزمية توصية إعلان Douyin.
بدأت Meituan في تطوير نماذج كبيرة في الربع الأول من هذا العام تقريبًا. من المفهوم أن Meituan نقلت مؤخرًا مجموعة من إصدار A100 لذاكرة الفيديو 80G من أقسام متعددة ، مع إعطاء الأولوية لتزويد الطرز الكبيرة ، بحيث يمكن لهذه الأقسام التبديل إلى وحدات معالجة الرسومات ذات التكوينات الأقل.
Bilibili ، التي تعد مواردها المالية أقل وفرة بكثير من المنصات الكبيرة ، لديها أيضًا خطط لنماذج كبيرة. من المفهوم أن المحطة B قد حجزت سابقًا المئات من وحدات معالجة الرسومات. هذا العام ، من ناحية ، تواصل Bilibili شراء وحدات معالجة رسومات إضافية ، ومن ناحية أخرى ، تقوم أيضًا بالتنسيق بين الأقسام المختلفة لتوزيع البطاقات بالتساوي على الطرز الكبيرة. "بعض الإدارات تعطي 10 تذاكر ، وبعض الإدارات تعطي 20 تذكرة." قال شخص قريب من المحطة ب.
تمتلك شركات الإنترنت مثل Byte و Meituan و Station B عمومًا بعض موارد GPU الزائدة في الأقسام الفنية التي دعمت البحث والتوصية في الأصل.
ومع ذلك ، فإن عدد وحدات معالجة الرسومات التي يمكن الحصول عليها بهذه الطريقة لتفكيك الشرق وتكملة الغرب محدود ، ولا يزال يتعين على وحدات معالجة الرسومات الكبيرة المطلوبة لتدريب النماذج الكبيرة الاعتماد على التراكم السابق لكل شركة وانتظار وصول وحدات معالجة الرسومات الجديدة.
** يتدافع العالم كله للحصول على قوة الحوسبة **
السباق على وحدات معالجة الرسومات الخاصة بمركز بيانات Nvidia يحدث أيضًا في جميع أنحاء العالم. ومع ذلك ، اشترت الشركات العملاقة في الخارج عددًا كبيرًا من وحدات معالجة الرسومات في وقت سابق ، وكان حجم الشراء أكبر ، وكان الاستثمار في السنوات الأخيرة مستمرًا نسبيًا.
في عام 2022 ، استثمرت Meta و Oracle بالفعل بكثافة في A100. دخلت Meta في شراكة مع Nvidia لبناء مجموعة الحوسبة الفائقة RSC في يناير الماضي ، والتي تحتوي على 16000 A100s. في نوفمبر من نفس العام ، أعلنت Oracle عن شراء عشرات الآلاف من A100 و H100 لبناء مركز حوسبة جديد. الآن قام مركز الحوسبة بنشر أكثر من 32700 طائرة من طراز A100 ، وتم إطلاق H100s جديدة واحدة تلو الأخرى.
منذ أن استثمرت Microsoft لأول مرة في OpenAI في عام 2019 ، قدمت عشرات الآلاف من وحدات معالجة الرسومات إلى OpenAI. في مارس من هذا العام ، أعلنت Microsoft أنها ساعدت OpenAI في بناء مركز حوسبة جديد ، بما في ذلك عشرات الآلاف من A100. في مايو من هذا العام ، أطلقت Google Compute Engine A3 ، وهو مجموعة حوسبة تضم 26000 H100s ، تخدم الشركات التي ترغب في تدريب النماذج الكبيرة بنفسها.
تعتبر الإجراءات والعقلية الحالية للشركات الصينية الكبرى أكثر إلحاحًا من تلك الخاصة بالعمالقة في الخارج. بأخذ Baidu كمثال ، فقد وضعت عشرات الآلاف من طلبات GPU الجديدة مع Nvidia هذا العام. ترتيب الحجم مشابه لشركات مثل Google ، على الرغم من أن حجم Baidu أصغر بكثير ، حيث بلغت عائداتها العام الماضي 123.6 مليار يوان ، أي 6٪ فقط من عائدات Google.
من المفهوم أن شركات التكنولوجيا الصينية الأربع التي استثمرت أكثر في الذكاء الاصطناعي والحوسبة السحابية ، Byte و Tencent و Ali و Baidu ، جمعت عشرات الآلاف من A100 في الماضي. من بينها ، يحتوي A100 على أكبر عدد من البايتات. باستثناء الطلبات الجديدة هذا العام ، فإن العدد الإجمالي لـ Byte A100 وسابقه V100 يقترب من 100000.
من بين الشركات المتنامية ، أعلنت Shangtang أيضًا هذا العام أنه تم نشر ما مجموعه 27000 وحدة معالجة رسومات في مجموعة الحوسبة "جهاز كبير للذكاء الاصطناعي" ، بما في ذلك 10000 وحدة A100. حتى ماجيك سكوير ، وهي شركة استثمار كمي يبدو أنه لا علاقة لها بالذكاء الاصطناعي ، اشترت 10 آلاف A100 من قبل.
بمجرد النظر إلى العدد الإجمالي ، يبدو أن وحدات معالجة الرسومات هذه أكثر من كافية للشركات لتدريب الطرز الكبيرة. وفقًا للحالة على موقع الويب الرسمي لشركة Nvidia ، استخدمت OpenAI 10000 V100s عند تدريب GPT-3 مع 175 مليار معلمة. لتدريب GPT-3 هناك حاجة إلى 1024 قطعة من A100 لمدة شهر واحد من التدريب ، وبالمقارنة مع V100 ، فقد تحسن أداء A100 بمقدار 4.3 مرة. ومع ذلك ، فإن عددًا كبيرًا من وحدات معالجة الرسومات التي تم شراؤها من قبل الشركات الصينية الكبيرة في الماضي يجب أن تدعم الشركات الحالية أو يتم بيعها على منصات الحوسبة السحابية ، ولا يمكن استخدامها بحرية لتطوير النماذج على نطاق واسع والدعم الخارجي لاحتياجات النماذج واسعة النطاق للعملاء.
وهذا يفسر أيضًا الاختلاف الهائل في تقدير موارد الحوسبة من قبل ممارسي الذكاء الاصطناعي الصينيين. قال Zhang Yaqin ، عميد معهد Tsinghua لأبحاث الصناعة الذكية ، في منتدى Tsinghua في نهاية أبريل ، "إذا تمت إضافة قطعة واحدة من قوة الحوسبة في الصين ، فإنها تعادل 500000 A100 ، ولا توجد مشكلة في تدريب خمسة نماذج. "Yin Qi ، الرئيس التنفيذي لشركة Megvii Technology للذكاء الاصطناعي ، قبل" Caixin "قال في مقابلة: الصين لديها حاليًا ما مجموعه حوالي 40.000 A100s التي يمكن استخدامها للتدريب على النماذج واسعة النطاق.
يعكس بشكل أساسي الإنفاق الرأسمالي على الاستثمار في الأصول الثابتة مثل الرقائق والخوادم ومراكز البيانات ، ويمكنه بشكل حدسي توضيح ترتيب فجوة الحجم في موارد الحوسبة للشركات الصينية والأجنبية الكبيرة.
Baidu ، التي كانت أول من اختبر منتجات شبيهة بـ ChatGPT ، لديها نفقات رأسمالية سنوية تتراوح بين 800 مليون دولار أمريكي و 2 مليار دولار أمريكي منذ عام 2020 ، و علي ما بين 6 مليار دولار أمريكي و 8 مليار دولار أمريكي ، و Tencent بين 7 مليار دولار أمريكي و 11 مليار دولار أمريكي. . خلال نفس الفترة ، تجاوزت النفقات الرأسمالية السنوية لشركات Amazon و Meta و Google و Microsoft ، شركات التكنولوجيا الأمريكية الأربع التي لديها مراكز بيانات ذاتية البناء ، 15 مليار دولار أمريكي على الأقل.
خلال السنوات الثلاث للوباء ، استمرت النفقات الرأسمالية للشركات الأجنبية في الارتفاع. بلغت النفقات الرأسمالية لشركة أمازون العام الماضي 58 مليار دولار أمريكي ، وبلغت قيمة كل من ميتا وجوجل 31.4 مليار دولار أمريكي ، ومايكروسوفت ما يقرب من 24 مليار دولار أمريكي. تتقلص استثمارات الشركات الصينية بعد عام 2021. انخفضت النفقات الرأسمالية لكل من Tencent و Baidu بأكثر من 25 ٪ على أساس سنوي في العام الماضي.
الذهاب بشكل أسرع واجهت OpenAI هذا التحدي. في منتصف شهر مايو ، قال الرئيس التنفيذي لشركة OpenAI SamAltman في اتصال صغير الحجم مع مجموعة من المطورين أنه نظرًا لعدم كفاية وحدات معالجة الرسومات ، فإن خدمة واجهة برمجة تطبيقات OpenAI الحالية ليست مستقرة بدرجة كافية والسرعة ليست بالسرعة الكافية. قبل أن يكون هناك المزيد من وحدات معالجة الرسومات ، GPT- 4 متعدد الوسائط لا يمكن توسيع القدرات لتشمل كل مستخدم ، وهم لا يخططون لإطلاق منتجات استهلاكية جديدة في المستقبل القريب. وفقًا لتقرير صادر عن وكالة الاستشارات الفنية TrendForce في يونيو من هذا العام ، تحتاج OpenAI إلى حوالي 30،000 A100s لتحسين وتسويق ChatGPT بشكل مستمر.
Microsoft ، التي لديها تعاون عميق مع OpenAI ، تواجه أيضًا موقفًا مشابهًا: في مايو من هذا العام ، اشتكى بعض المستخدمين من أن سرعة إجابة Bing الجديدة كانت بطيئة ، واستجابت Microsoft بأن هذا يرجع إلى أن سرعة تجديد وحدة معالجة الرسومات لا يمكنها مواكبة ذلك. مع معدل نمو المستخدم. Microsoft Office 365 Copilot ، المضمن مع إمكانات النماذج واسعة النطاق ، ليس مفتوحًا حاليًا على نطاق واسع. الرقم الأخير هو أن أكثر من 600 شركة تحاول ذلك ، ويقترب العدد الإجمالي لمستخدمي Office 365 في جميع أنحاء العالم من 300 مليون.
إذا كانت شركة صينية كبيرة لا تهدف فقط إلى تدريب وإصدار نموذج كبير ، ولكنها تريد حقًا استخدام النموذج الكبير لإنشاء منتجات تخدم المزيد من المستخدمين ، ودعم العملاء الآخرين لتدريب المزيد من النماذج الكبيرة على السحابة ، فإنهم بحاجة إلى ذلك احجز أكثر مقدما.
** لماذا هذه البطاقات الأربعة فقط؟ **
فيما يتعلق بتدريب النماذج الكبيرة للذكاء الاصطناعي ، لا توجد بدائل لـ A100 و H100 والإصدار المصغر A800 و H800 اللذين يتم توفيرهما خصيصًا للصين. وفقًا لصندوق التحوط الكمي Khaveen Investments ، ستصل حصة سوق GPU لمركز بيانات Nvidia إلى 88 ٪ في عام 2022 ، وستقوم AMD و Intel بتقسيم الباقي.
يأتي عدم الاستغناء الحالي عن Nvidia GPU من آلية التدريب للنماذج الكبيرة. خطواتها الأساسية هي التدريب المسبق والضبط الدقيق. الأول هو وضع الأساس ، وهو ما يعادل تلقي التعليم العام للتخرج من الجامعة. تم تحسينه لسيناريوهات ومهام محددة لتحسين أداء العمل.
يعتبر ارتباط ما قبل التدريب مكثفًا من الناحية الحسابية بشكل خاص ، وله متطلبات عالية للغاية فيما يتعلق بأداء وحدة معالجة رسومات واحدة وقدرة نقل البيانات بين بطاقات متعددة.
الآن يمكن فقط لـ A100 و H100 توفير كفاءة الحوسبة المطلوبة للتدريب المسبق.يبدو أنها باهظة الثمن ، لكنها الخيار الأرخص. اليوم ، لا يزال الذكاء الاصطناعي في المراحل الأولى من الاستخدام التجاري ، وتؤثر التكلفة بشكل مباشر على ما إذا كانت الخدمة متاحة أم لا.
بعض الطرز في الماضي ، مثل VGG16 ، التي يمكنها التعرف على القطط كقطط ، تحتوي فقط على 130 مليون متغير.في ذلك الوقت ، ستستخدم بعض الشركات بطاقات رسوميات سلسلة RTX للمستهلكين لممارسة الألعاب لتشغيل نماذج الذكاء الاصطناعي. وصل مقياس معلمة GPT-3 الذي تم إصداره منذ أكثر من عامين إلى 175 مليار.
في ظل متطلبات الحوسبة الضخمة للنماذج الكبيرة ، لم يعد من الممكن استخدام المزيد من وحدات معالجة الرسومات منخفضة الأداء لتكوين قوة الحوسبة. لأنه عند استخدام وحدات معالجة رسومات متعددة للتدريب ، من الضروري نقل البيانات ومزامنة معلومات المعلمات بين الرقائق.في هذا الوقت ، ستكون بعض وحدات معالجة الرسومات خاملة ولا يمكن تشبعها طوال الوقت. لذلك ، كلما انخفض أداء بطاقة واحدة ، زاد استخدام البطاقات ، وزاد فقدان طاقة الحوسبة. عندما يستخدم OpenAI 10000 V100s لتدريب GPT-3 ، يكون معدل استخدام طاقة الحوسبة أقل من 50٪.
يتمتع كل من A100 و H100 بقدرة حوسبة عالية لبطاقة واحدة وعرض نطاق ترددي مرتفع لتحسين نقل البيانات بين البطاقات. تتمتع FP32 من A100 (بالإشارة إلى تشفير 4 بايت وحساب التخزين) بقوة حوسبة تبلغ 19.5 TFLOPS (1 TFLOPS تعني تريليون عملية فاصلة عائمة في الثانية) ، وقدرة حوسبة H100's FP32 تصل إلى 134 TFLOPS. حوالي 4 أضعاف ذلك من MI250.
يوفر A100 و H100 أيضًا إمكانات فعالة لنقل البيانات لتقليل طاقة الحوسبة الخاملة. غش Nvidia الحصري هو تقنيات بروتوكول الاتصال مثل NVLink و NVSwitch التي تم إطلاقها منذ عام 2014. يمكن للجيل الرابع من NVLink المستخدم في H100 زيادة عرض النطاق الترددي للاتصال ثنائي الاتجاه لوحدات معالجة الرسومات داخل نفس الخادم إلى 900 جيجابايت / ثانية (900 جيجابايت من البيانات في الثانية) ، وهو ما يعادل 7 أضعاف أحدث جيل من PCle (نقطة) معيار الإرسال التسلسلي عالي السرعة إلى نقطة) كثير.
في العام الماضي ، كانت لوائح وزارة التجارة الأمريكية بشأن تصدير وحدات معالجة الرسومات عالقة أيضًا في سطرين من قوة الحوسبة وعرض النطاق الترددي: كانت قوة الحوسبة العليا 4800 TOPS ، وكان النطاق الترددي للخط الأعلى 600 جيجابايت / ثانية.
يتمتع كل من A800 و H800 بنفس قوة الحوسبة مثل الإصدار الأصلي ، ولكن عرض النطاق الترددي مخفض. تم تقليل عرض النطاق الترددي لـ A800 من 600 جيجابايت / ثانية من A100 إلى 400 جيجابايت / ثانية. لم يتم الكشف عن المعلمات المحددة لـ H800. وفقًا لـ Bloomberg ، فإن عرض النطاق الترددي الخاص به لا يمثل سوى نصف نطاق H100 (900 جيجابايت / ثانية) ق) عند تنفيذ نفس مهمة الذكاء الاصطناعي ، سيستغرق H800 وقتًا أطول بنسبة 10٪ -30٪ من H100. تكهن أحد مهندسي الذكاء الاصطناعي بأن تأثير التدريب على H800 قد لا يكون جيدًا مثل A100 ، لكنه أكثر تكلفة.
ومع ذلك ، لا يزال أداء A800 و H800 يتفوق على المنتجات المماثلة من الشركات الكبرى والشركات الناشئة الأخرى. مقيدة بالأداء والبنى الأكثر تخصصًا ، تُستخدم الآن شرائح الذكاء الاصطناعي أو رقائق GPU التي أطلقتها العديد من الشركات بشكل أساسي لاستدلال الذكاء الاصطناعي ، وهو أمر صعب بالنسبة للتدريب المسبق للنماذج واسعة النطاق. ببساطة ، التدريب على الذكاء الاصطناعي هو صنع نموذج ، منطق الذكاء الاصطناعي هو استخدام النموذج ، والتدريب يتطلب أداء شريحة أعلى.
بالإضافة إلى فجوة الأداء ، فإن خندق Nvidia الأعمق هو بيئة البرامج.
في وقت مبكر من عام 2006 ، أطلقت Nvidia منصة الحوسبة CUDA ، وهي محرك برمجيات حوسبة متوازية.يمكن للمطورين استخدام CUDA لأداء تدريب الذكاء الاصطناعي والتفكير المنطقي بشكل أكثر كفاءة والاستفادة الجيدة من قوة حوسبة GPU. أصبحت CUDA هي البنية التحتية للذكاء الاصطناعي اليوم ، وتم تطوير جميع أطر عمل الذكاء الاصطناعي والمكتبات والأدوات السائدة بناءً على CUDA.
إذا كانت وحدات معالجة الرسومات (GPU) وشرائح الذكاء الاصطناعي (AI) الأخرى بخلاف Nvidia ترغب في الاتصال بـ CUDA ، فإنها تحتاج إلى توفير برنامج التكيف الخاص بها ، ولكن فقط جزء من أداء CUDA ، ويكون تكرار التحديث أبطأ. تحاول أطر عمل الذكاء الاصطناعي مثل PyTorch كسر الاحتكار البيئي لبرامج CUDA وتوفير المزيد من إمكانيات البرامج لدعم وحدات معالجة الرسومات الخاصة بالمصنعين الآخرين ، ولكن هذا لا يلقى استحسان المطورين.
قال أحد ممارسي الذكاء الاصطناعي إن شركته قد اتصلت بشركة مصنعة غير تابعة لـ NVIDIA GPU ، والتي قدمت أسعارًا أقل للرقائق والخدمات من Nvidia ، ووعد بتقديم خدمات في الوقت المناسب ، لكنهم رأوا أن التدريب والتطوير بشكل عام باستخدام وحدات معالجة الرسوميات الأخرى ستكون التكلفة. تكون أعلى من تلك الموجودة في Nvidia ، وسيتعين عليها تحمل عدم اليقين من النتائج وتستغرق المزيد من الوقت.
وقال: "على الرغم من أن A100 غالي الثمن ، إلا أنه أرخص استخدامًا في الواقع". بالنسبة لشركات التكنولوجيا الكبيرة والشركات الناشئة الرائدة التي تنوي اغتنام فرصة النماذج الكبيرة ، لا يمثل المال في كثير من الأحيان مشكلة ، والوقت هو المورد الأكثر قيمة.
على المدى القصير ، قد يكون الشيء الوحيد الذي يؤثر على مبيعات GPU لمركز بيانات Nvidia هو القدرة الإنتاجية لـ TSMC.
إن H100 / 800 عبارة عن عملية 4 نانومتر ، و A100 / 800 هي عملية 7 نانومتر ، هذه الشرائح الأربعة كلها من إنتاج TSMC. وفقًا لتقارير وسائل الإعلام التايوانية الصينية ، أضافت Nvidia 10000 طلب GPU جديد لمركز البيانات إلى TSMC هذا العام ، وقدمت طلبًا عاجلاً للغاية ، والذي يمكن أن يقصر وقت الإنتاج بنسبة تصل إلى 50٪. عادة ، قد يستغرق TSMC عدة أشهر لإنتاج A100. يرجع الاختناق الحالي في الإنتاج بشكل أساسي إلى عدم كفاية الطاقة الإنتاجية للتغليف المتقدم ، مع وجود فجوة من 10 إلى 20 في المائة ، والتي ستستغرق 3-6 أشهر لتزداد تدريجياً.
منذ أن تم إدخال وحدات معالجة الرسومات المناسبة للحوسبة المتوازية في التعلم العميق ، كانت القوة الدافعة لتطوير الذكاء الاصطناعي هي الأجهزة والبرامج لأكثر من عقد ، كما أنه يجعل التدريب على نطاق واسع الذي كان من الصعب تحقيقه في الأصل.
في الموجة الأخيرة من طفرة التعلم العميق المتمثلة في التعرف على الصور ، يمكن مقارنة قدرات برمجيات الذكاء الاصطناعي في الصين مع المستوى الأكثر تطورًا في العالم ؛ قوة الحوسبة هي الصعوبة الحالية - يتطلب تصميم وتصنيع الرقائق تراكمًا أطول ، يتضمن سلسلة إمداد طويلة و العديد من براءات الاختراع.
يعد النموذج الكبير تقدمًا كبيرًا آخر في طبقة النموذج والخوارزمية. لا يوجد وقت لأخذ ذلك ببطء. يجب على الشركات التي ترغب في بناء نماذج كبيرة أو توفير إمكانات الحوسبة السحابية للنماذج الكبيرة الحصول على قوة حوسبة متقدمة كافية في أسرع وقت ممكن. لن تتوقف المعركة على وحدات معالجة الرسومات حتى تهتف الموجة أو تخيب آمال الشركات الأولى.