AI 大型モデルのトレーニングに関しては、A100、H100、および中国向けに特別に供給されている縮小版 A800、H800 の代替品はありません。クオンツヘッジファンドのKhaveen Investmentsによると、NvidiaのデータセンターGPU市場シェアは2022年に88%に達し、AMDとIntelが残りを二分する見通しだという。
それでも、A800 と H800 のパフォーマンスは、他の大企業や新興企業の同様の製品よりも優れています。さまざまな企業が発売した AI チップまたは GPU チップは、パフォーマンスとより専用のアーキテクチャによって制限されているため、現在は主に AI 推論に使用されており、大規模なモデルの事前トレーニングには困難です。簡単に言うと、AI のトレーニングはモデルを作成することであり、AI の推論はモデルを使用することであり、トレーニングにはより高いチップ性能が必要です。
パフォーマンスの差に加えて、Nvidia のさらに深い堀はソフトウェア エコロジーです。
Nvidia は 2006 年に並列コンピューティング ソフトウェア エンジンであるコンピューティング プラットフォーム CUDA を発表しました。開発者は CUDA を使用して AI トレーニングと推論をより効率的に実行し、GPU コンピューティング能力を有効に活用できます。 CUDA は今日の AI インフラストラクチャとなっており、主流の AI フレームワーク、ライブラリ、ツールはすべて CUDA に基づいて開発されています。
Nvidia 以外の GPU や AI チップが CUDA に接続したい場合は、独自の適応ソフトウェアを提供する必要がありますが、CUDA のパフォーマンスの一部にすぎず、更新の反復は遅くなります。 PyTorch などの AI フレームワークは、CUDA のソフトウェア エコロジカル独占を打破し、他のメーカーの GPU をサポートするソフトウェア機能をさらに提供しようとしていますが、開発者にとって魅力は限られています。
AI チケットをめぐる競争: 中国の大手企業が GPU をめぐって競争
ソース丨Later LatePost
本文丨張家豪
2022年後半、生成AIがブームとなる中、シリコンバレーの有名ベンチャーキャピタルa16zは数十のAIスタートアップ企業や大手テクノロジー企業を訪問した。彼らは、スタートアップ企業が初期資金の 80% ~ 90% をクラウド コンピューティング プラットフォームに提供して、独自のモデルをトレーニングしていることを発見しました。これらの企業の製品が成熟したとしても、毎年収益の 10 ~ 20% をクラウド コンピューティング企業に提供しなければならないと彼らは推定しています。 「AI税」に相当する。
これにより、モデル機能とトレーニング サービスをクラウド上で提供し、コンピューティング能力を他の顧客や新興企業にレンタルするための大規模な市場が生まれました。中国だけでも、少なくとも数十の新興企業や中小企業が独自の複雑で大規模な言語モデルを作成しており、そのすべてがクラウド コンピューティング プラットフォームから GPU を借りる必要があります。 a16z の計算によると、企業の年間 AI コンピューティング支出は 5,000 万米ドルを超えないと、GPU の一括購入をサポートするのに十分な規模を獲得できません。
「LatePost」によると、今年の春節以降、クラウドコンピューティングサービスを提供する中国の大手インターネット企業はすべてエヌビディアに大量発注を行ったという。 Byteは今年、Nvidiaに10億米ドル以上のGPUを発注しており、別の大企業も少なくとも10億元以上を発注している。
Byteだけでも今年、NVIDIAが昨年中国で販売した商用GPUの総数に近い注文を出した可能性がある。昨年9月、米国政府がA100およびH100(NVIDIAの最新の第2世代データセンター商用GPU)の輸出制限を出した際、NVIDIAはこれが中国市場における4億米ドル(約28億元)に影響を与える可能性があると応じた。昨年の第 4 四半期の人民元) の潜在的な売上高。この計算に基づくと、2022 年の中国における Nvidia データセンター GPU の売上高は約 100 億元となります。
海外の巨大企業と比較して、中国の大手テクノロジー企業はGPUの購入をより緊急に求めている。過去 2 年間のコスト削減と効率の向上により、一部のクラウド コンピューティング プラットフォームでは GPU の購入が削減され、予備が不十分になりました。さらに、今日購入できる高性能 GPU が明日新たな制限を受けるかどうかは誰にも保証できません。
社内での移動をしながら、注文の削減から購入の追加まで
今年の初めまでは、中国の大手ハイテク企業からの GPU の需要は低迷していました。
中国の大手インターネット テクノロジー企業では、GPU には主に 2 つの用途があります。1 つは社内でビジネスをサポートし、最先端の AI 研究を行うこと、もう 1 つはクラウド コンピューティング プラットフォームで GPU を販売することです。
Byte関係者が「LatePost」に語ったところによると、OpenAIが2020年6月にGPT-3をリリースした後、Byteは数十億のパラメータを備えた大規模な生成言語モデルをトレーニングしており、当時主に使用されていたGPUはA100の前身であるV100だった。パラメータの規模が限られているため、このモデルの生成能力は平均的であり、バイト社は当時「ROI(投資収益率)が計算できない」として商品化の可能性を見出すことができず、今回の試みは無駄に終わった。
Ali は 2018 年から 2019 年にかけて GPU も積極的に購入しました。アリババクラウドの関係者によると、当時のアリさんの購入額は少なくとも数万元に達し、購入したモデルは主にNvidiaが以前に発売したV100とT4だったという。ただし、AI テクノロジーの研究開発のために DAMO アカデミーに提供されたのは、これらの GPU の約 10 分の 1 のみでした。 2021 年に兆パラメータの大型モデル M6 がリリースされた後、Dharma Academy は、M6 のトレーニングに 480 台の V100 が使用されたことを明らかにしました。
当時アリババが購入したGPUの多くは、外部リースのためにアリババクラウドに提供された。しかし、アリババクラウドを含む中国のクラウドコンピューティング企業グループは、中国市場におけるAI需要を過大評価している。あるテクノロジー投資家によると、大規模モデルが急増する前は、国内の大手クラウドベンダーのGPUコンピューティング能力は不足していなかったが、販売に懸念があり、クラウドベンダーはリソースを販売するために価格を引き下げなければならなかったという。昨年、アリババクラウドは6回の値下げを実施し、GPUのレンタル価格は20%以上下落した。
コスト削減と効率性の向上、「質の高い成長」と利益の追求という文脈で、アリは2020年以降GPU調達規模を縮小し、テンセントも昨年末にNVIDIA GPUの一括削減を行ったと理解されている。 。
しかし、それから間もなく、2022 年の初めに、ChatGPT によって全員の見方が変わり、すぐにコンセンサスが得られました。つまり、大型モデルは逃すことのできない大きなチャンスであるということです。
バイトダンスの創設者である張一銘氏は人工知能に関する論文を読み始め、アリババ取締役会会長の張勇氏はアリババクラウドを引き継ぎ、 「Alibaba Cloud Summit で Alibaba の大規模モデルの進捗状況を発表しました。大規模モデルの機能に基づいて、ソフトウェアとサービスはすべてやり直す価値があります。」
Byte関係者によると、これまでByte社内でGPUの購入を申請する際には、入出力比や事業の優先順位、重要性を説明する必要があったという。しかし、現在、大型モデル事業は会社の戦略レベルでの新規事業であり、当面はROIの計算ができず、投資が必要となる。
自社の汎用大規模モデルの開発は第一歩に過ぎず、各社の大きな目標は大規模モデルの機能を提供するクラウドサービスの立ち上げであり、投資に見合った本当に大きな市場です。
マイクロソフトのクラウドサービス「アジュール」は、中国のクラウドコンピューティング市場では強い存在感を持っておらず、10年にわたり主に多国籍企業の中国ビジネスにサービスを提供してきた。しかし現在、OpenAI 商用化のための唯一のクラウド ブローカーであるため、顧客は列に並んで待たなければなりません。
4月のクラウドサミットで、アリ氏はMaaS(Model as a Service)がクラウドコンピューティングの将来のトレンドであることを改めて強調し、オープンで自社開発した汎用基本モデル「Tongyi Qianwen」テストに加え、シリーズもリリースした。クラウド内の顧客を支援するためのツール、大規模なモデルのトレーニングと使用のためのツール。その後すぐに、Tencent と Byte Volcano Engine も独自のトレーニング クラスター サービスの新しいバージョンをリリースしました。 Tencent は、新世代のクラスターを使用して数兆のパラメーターを持つ大規模モデルをトレーニングすると、時間を 4 日に短縮できると述べ、Byte は、新しいクラスターが Wanka レベルの大規模モデルのトレーニングをサポートすると述べました。中国の企業のほとんどはすでに火山エンジンを使用しています。
これらすべてのプラットフォームは、Nvidia A100 および H100 GPU、または昨年の禁止後に Nvidia が特別に発売した A800 および H800 の縮小バージョンのいずれかを使用しており、これら 2 つのプロセッサの帯域幅は元のバージョンの約 3/4 と約半分であり、高い制限基準を回避していますパフォーマンス GPU 向け。
H800とA800を巡って、中国の大手テクノロジー企業は新たな受注競争を開始した。
クラウドメーカー関係者によると、ByteやAliなどの大手企業は主にNVIDIAの本家工場と直接交渉して調達しており、代理店や中古市場では膨大なニーズに応えるのが難しいという。
Nvidia は定価と購入規模に基づいて割引交渉を行います。 Nvidiaの公式サイトによると、A100の価格は1個あたり1万米ドル(約7万1,000元)、H100の価格は1個あたり3万6,000米ドル(約25万7,000元)となっており、A800やH800の価格が若干安いことがわかるオリジナルバージョンよりも。
中国企業がカードを獲得できるかどうかは、その企業が過去に Nvidia の主要顧客であったかどうかなど、ビジネス上の関係により大きく左右されます。 「中国でエヌビディアと話すか、米国に行ってラオ・ファン(黄仁訓、エヌビディアの創業者兼最高経営責任者)と直接話すかで違いが生じる」とクラウドベンダー関係者は語った。
Nvidiaと「業務提携」を行う企業もあり、人気の高いデータセンター向けGPUを購入する際に、他の製品も購入して優先供給を図るという。これはエルメスの流通のようなもので、人気のバッグを買おうとすると、数万元の服や靴と合わせなければならないことがよくあります。
私たちが入手した業界情報によると、バイトの今年の新規受注は比較的積極的で、10億ドルの水準を超えています。
Nvidiaに近い関係者によると、A100とH800は入荷済みと未入荷が合わせて10万台あるという。このうち、H800は今年3月に生産を開始したばかりで、この部分のチップは今年追加購入される予定だ。現在の生産スケジュールでは、一部の H800 は今年末まで納入されないことがわかっています。
ByteDance は 2017 年に独自のデータセンターの構築を開始しました。データセンターはかつて、すべての計算において CPU に依存していましたが、2020 年まで、Byte は Nvidia GPU よりも Intel CPU に多くの費用を費やしていました。バイト購入の変化は、今日の大手テクノロジー企業のコンピューティング ニーズにおいて、インテリジェント コンピューティングが一般的なコンピューティングに追いつきつつあることも反映しています。
大手インターネット企業は今年、少なくとも1万台規模の注文をエヌビディアに発注しており、カタログ価格に基づく推定額は10億元以上であることがわかっている。
テンセントは率先してH800の採用を発表しており、テンセント・クラウドは今年3月にリリースしたハイパフォーマンス・コンピューティング・サービスの新バージョンですでにH800を採用しており、これが国内初の導入だという。現在、このサービスはアプリケーションのテストのために企業顧客に公開されており、これはほとんどの中国企業の進歩よりも速いです。
アリババクラウドも今年5月に社内で「スマートコンピューティング戦」を今年の一番の戦いとし、マシン規模、顧客規模、収益規模の3つの目標を設定することを提案したとされており、その中でも重要な指標はマシン スケールの は GPU の数です。
新しい GPU の登場を前に、企業内部では大型モデルの開発サポートを優先する動きも出ています。
一度により多くのリソースを解放する方法は、重要性の低い方向、または短期的に明確な見通しがない方向を切り離すことです。大手インターネット企業のAI担当者は「大企業にはリソースを占有する中途半端なビジネスが多数ある」と語る。
今年5月、アリ・ダルマ研究所は自動運転研究所を廃止し、300人以上の従業員のうち約3分の1が新人技術チームに配属され、残りは解雇され、ダルマ研究所は自動運転事業を廃止した。自動運転の開発には、トレーニング用の高性能 GPU も必要です。この調整は大型モデルには直接関係しないかもしれませんが、これにより Ali は一連の「無料 GPU」を取得することができました。
Byte と Meituan は、同社に広告収入をもたらす商用テクノロジー チームからの GPU を直接共有しています。
「LatePost」によると、今年の春節直後、Byteは当初Byte商用化技術チームに追加する予定だったA100のバッチをTikTok製品技術責任者のZhu Wenjia氏に配布したという。 Zhu Wenjia 氏はバイトラージモデルの研究開発を主導しています。商品化技術チームは、Douyin 広告推奨アルゴリズムをサポートする中核となるビジネス部門です。
美団は今年の第1四半期ごろから大型モデルの開発を開始した。 Meituan は最近、複数の部門から 80G ビデオ メモリの最上位バージョン A100 のバッチを移管し、大型モデルの供給を優先し、これらの部門が低構成の GPU に切り替えることができるようにしたと考えられています。
大手プラットフォームに比べて資金力がはるかに潤沢ではないビリビリも、大型モデルの計画を立てている。ステーション B は以前に数百の GPU を予約していることがわかります。今年、Bilibili は追加の GPU を購入し続ける一方で、カードを大型モデルに均等に配布するためにさまざまな部門と調整しています。 「10枚の切符を与える部門もあれば、20枚の切符を与える部門もある」と駅Bに近い関係者は語った。
Byte、Meituan、Station B などのインターネット企業は通常、もともと検索と推奨をサポートしていた技術部門に冗長な GPU リソースをいくつか備えています。」
しかし、この東を解体して西を補う手法で入手できるGPUの数は限られており、大規模モデルの学習に必要な大型GPUは依然として各社の過去の蓄積に依存し、GPUの登場を待たなければなりません。新しいGPU。
全世界がコンピューティング能力を求めて争っている
Nvidia のデータセンター GPU をめぐる競争も世界中で起こっています。ただし、海外の大手企業が先行して大量のGPUを購入しており、購入量も大きく、近年の投資は比較的継続的に行われている。
2022 年には、メタとオラクルはすでに A100 に多額の投資を行っています。 Meta は昨年 1 月に Nvidia と提携して、16,000 台の A100 を含む RSC スーパーコンピューティング クラスターを構築しました。同年 11 月、Oracle は新しいコンピューティング センターを構築するために数万台の A100 および H100 を購入すると発表しました。現在、コンピューティング センターには 32,700 台を超える A100 が導入されており、新しい H100 が次々と発売されています。
Microsoft は 2019 年に初めて OpenAI に投資して以来、数万台の GPU を OpenAI に提供してきました。今年 3 月、Microsoft は、OpenAI による数万台の A100 を含む新しいコンピューティング センターの構築を支援したと発表しました。今年 5 月、Google は 26,000 個の H100 を備えたコンピューティング クラスターである Compute Engine A3 を立ち上げ、大規模なモデルを自社でトレーニングしたい企業にサービスを提供しました。
中国大手企業の現在の行動と心構えは、海外の巨大企業よりも緊急性が高い。 Baidu を例に挙げると、同社は今年 Nvidia に数万件の新規 GPU を発注しました。この規模はグーグルなどの企業に匹敵するが、百度の規模ははるかに小さく、昨年の売上高は1236億元で、グーグルの6%にすぎない。
AIとクラウドコンピューティングに最も多く投資している中国のテクノロジー企業4社であるByte、Tencent、Ali、Baiduは、過去に数万のA100を蓄積していることがわかっています。このうち、絶対バイト数が最も多いのは A100 です。今年の新規注文を除くと、Byte A100とその前身であるV100の合計数は10万近くに達する。
成長企業の中で、Shangtang も今年、同社の「AI ラージ デバイス」コンピューティング クラスターに 10,000 台の A100 を含む合計 27,000 台の GPU が導入されたと発表しました。 AIとは関係なさそうなクオンツ投資会社のマジックスクエアですら、以前A100を1万株購入しました。
合計数だけ見ると、これらの GPU は企業が大規模なモデルをトレーニングするには十分すぎるようです。Nvidia の公式 Web サイトの事例によると、OpenAI は 1,750 億のパラメータを持つ GPT-3 をトレーニングする際に 10,000 台の V100 を使用しました。 , 1ヶ月のトレーニングにはA100の1024ブロックが必要で、V100と比べてA100は4.3倍の性能向上があります。しかし、過去に中国の大手企業が購入した多数の GPU は、既存のビジネスをサポートするか、クラウド コンピューティング プラットフォームで販売する必要があり、大規模モデルの開発や顧客の大規模モデルのニーズに対する外部サポートに自由に使用することはできません。
これは、中国の AI 実践者によるコンピューティング リソースの見積もりに大きな違いがあることも説明しています。清華省知能産業研究院の張雅琴所長は4月末の清華フォーラムで、「中国の計算能力を1つ加えるとA100の50万台に相当し、5つのモデルを訓練しても問題はない」と述べた。 AI企業Megvii Technologyの最高経営責任者(CEO)、イン・チー氏は「財新」のインタビューで「中国には現在、大規模モデルのトレーニングに使用できるA100が合計約4万台しかない」と述べた。
これは主に、チップ、サーバー、データセンターなどの固定資産への投資に対する設備投資を反映しており、中国と外国の大手企業のコンピューティングリソースにおける桁違いの格差を直感的に示すことができます。
ChatGPT のような製品を最初にテストした Baidu は、2020 年以降の年間資本支出が 8 億米ドルから 20 億米ドル、Ali は 60 億米ドルから 80 億米ドル、Tencent は 70 億米ドルから 110 億米ドルとなっています。 。同じ期間に、自社でデータセンターを構築した米国のテクノロジー企業 4 社であるアマゾン、メタ、グーグル、マイクロソフトの年間設備投資はいずれも少なくとも 150 億米ドルを超えました。
感染症流行の3年間、海外企業の設備投資は増加し続けた。アマゾンの昨年の設備投資は580億ドルに達し、メタとグーグルはともに314億ドル、マイクロソフトは240億ドルに迫っている。中国企業による投資は2021年以降縮小する。テンセントとバイドゥの設備投資はともに昨年、前年比で25%以上減少した。
より高速に OpenAI はこの課題に対処しました。 5 月中旬、OpenAI の CEO である SamAltman 氏は、開発者グループとの小規模なコミュニケーションの中で、GPU が不足しているため、OpenAI の現在の API サービスは十分に安定しておらず、速度も十分に速くないと述べました。 4 のマルチモーダル機能をすべてのユーザーに拡張することはできず、近い将来に新しい消費者向け製品をリリースする予定はありません。技術コンサルティング会社TrendForceが今年6月に発表した報告書によると、OpenAIがChatGPTを継続的に最適化し商用化するには約3万台のA100が必要だという。
OpenAIと深い協力関係にあるMicrosoftも同様の状況に直面している。今年5月、一部のユーザーからNew Bingの応答速度が遅いとの苦情が寄せられ、MicrosoftはこれはGPUの補充速度が追いつかないためだと回答した。ユーザーの増加率とともに。大規模なモデル機能が組み込まれている Microsoft Office 365 Copilot は、現在大規模には公開されていませんが、最新の数字では 600 社以上が試しており、世界中の Office 365 ユーザーの総数は 300 人近くです。百万。
中国の大企業が、大規模なモデルをトレーニングしてリリースすることだけを目的とするのではなく、その大規模なモデルを使用してより多くのユーザーにサービスを提供する製品を作成し、他の顧客がクラウド上でより大規模なモデルをトレーニングできるようにさらにサポートしたいと本当に望んでいる場合は、次のことを行う必要があります。複数の GPU。
**なぜその 4 枚のカードだけなのでしょうか? **
AI 大型モデルのトレーニングに関しては、A100、H100、および中国向けに特別に供給されている縮小版 A800、H800 の代替品はありません。クオンツヘッジファンドのKhaveen Investmentsによると、NvidiaのデータセンターGPU市場シェアは2022年に88%に達し、AMDとIntelが残りを二分する見通しだという。
現在の Nvidia GPU の代替不可能性は、大規模モデルのトレーニング メカニズムに由来しています。その中心となるステップは、事前トレーニングと微調整です。前者は大学を卒業するための一般教育を受けるのと同等の基礎を築くことです。後者は、大学を卒業するための一般教育を受けることに相当します。」特定のシナリオやタスクに合わせて最適化され、作業パフォーマンスが向上します。
事前トレーニング リンクは特に計算量が多く、単一の GPU のパフォーマンスと複数のカード間のデータ送信能力に対して非常に高い要件が求められます。
現在、事前トレーニングに必要なコンピューティング効率を提供できるのは A100 と H100 だけです。高価に見えますが、最も安価なオプションです。現在、AI はまだ商業利用の初期段階にあり、コストはサービスが利用可能かどうかに直接影響します。
過去には、猫を猫として認識できる VGG16 などの一部のモデルではパラメータが 1 億 3,000 万個しかありませんでしたが、当時、一部の企業はゲームをプレイするために RTX シリーズのコンシューマー グレードのグラフィック カードを使用して AI モデルを実行していました。 2年以上前にリリースされたGPT-3のパラメータスケールは1,750億に達しました。
大規模モデルの膨大なコンピューティング要件の下では、コンピューティング能力を形成するためにこれ以上の低パフォーマンス GPU を使用することはもはや現実的ではありません。複数の GPU をトレーニングに使用する場合、チップ間でデータを送信し、パラメーター情報を同期する必要があるため、このとき一部の GPU はアイドル状態になり、常に飽和状態にすることができません。したがって、1 枚のカードのパフォーマンスが低いほど、より多くのカードが使用され、計算能力の損失が大きくなります。 OpenAI が 10,000 台の V100 を使用して GPT-3 をトレーニングした場合、コンピューティング能力の利用率は 50% 未満になります。
A100 と H100 は、単一カードの高い計算能力と、カード間のデータ送信を向上させる高帯域幅の両方を備えています。 A100のFP32(4バイトのエンコードとストレージ計算を指します)の演算能力は19.5 TFLOPS(1 TFLOPSは1秒間に1兆回の浮動小数点演算を意味します)、H100のFP32の演算能力は134 TFLOPSと約4倍です。 MI250の。
A100 および H100 は、アイドル状態のコンピューティング能力を最小限に抑えるための効率的なデータ送信機能も提供します。 Nvidia独自のチートとは、2014年から発売されているNVLinkやNVSwitchといった通信プロトコル技術のことです。 H100 で使用される第 4 世代 NVLink は、同じサーバー内の GPU の双方向通信帯域幅を 900 GB/秒 (1 秒あたり 900 GB のデータ) まで増加できます。これは、最新世代の PCle の 7 倍です (ポイント) -to-point高速シリアル伝送規格)多数。
昨年、GPU の輸出に関する米国商務省の規制も、コンピューティング能力と帯域幅の 2 つの境界線に引っかかっていました。コンピューティング能力の上限は 4800 TOPS、帯域幅の上限は 600 GB/秒でした。
A800 と H800 はオリジナル バージョンと同じコンピューティング能力を備えていますが、帯域幅が割引されています。 A800の帯域幅はA100の600GB/秒から400GB/秒に削減されており、H800の具体的なパラメータは明らかにされていないが、ブルームバーグによると、その帯域幅はH100(900GB/秒)の約半分にすぎないという。 s).同じ AI タスクを実行する場合、H800 は H100 よりも 10% ~ 30% 多くの時間を要します。 AIエンジニアは、H800のトレーニング効果はA100ほど良くないかもしれないが、価格が高いのではないかと推測した。
それでも、A800 と H800 のパフォーマンスは、他の大企業や新興企業の同様の製品よりも優れています。さまざまな企業が発売した AI チップまたは GPU チップは、パフォーマンスとより専用のアーキテクチャによって制限されているため、現在は主に AI 推論に使用されており、大規模なモデルの事前トレーニングには困難です。簡単に言うと、AI のトレーニングはモデルを作成することであり、AI の推論はモデルを使用することであり、トレーニングにはより高いチップ性能が必要です。
パフォーマンスの差に加えて、Nvidia のさらに深い堀はソフトウェア エコロジーです。
Nvidia は 2006 年に並列コンピューティング ソフトウェア エンジンであるコンピューティング プラットフォーム CUDA を発表しました。開発者は CUDA を使用して AI トレーニングと推論をより効率的に実行し、GPU コンピューティング能力を有効に活用できます。 CUDA は今日の AI インフラストラクチャとなっており、主流の AI フレームワーク、ライブラリ、ツールはすべて CUDA に基づいて開発されています。
Nvidia 以外の GPU や AI チップが CUDA に接続したい場合は、独自の適応ソフトウェアを提供する必要がありますが、CUDA のパフォーマンスの一部にすぎず、更新の反復は遅くなります。 PyTorch などの AI フレームワークは、CUDA のソフトウェア エコロジカル独占を打破し、他のメーカーの GPU をサポートするソフトウェア機能をさらに提供しようとしていますが、開発者にとって魅力は限られています。
AI 専門家は、自社が NVIDIA 以外の GPU メーカーと連絡を取ったと述べ、メーカーは NVIDIA よりもチップとサービスの価格を安く提供し、よりタイムリーなサービスを提供すると約束していましたが、他の GPU を使用した全体的なトレーニングと開発にはコストがかかると判断したと述べました。 Nvidia よりも高いため、結果の不確実性に耐える必要があり、さらに時間がかかることになります。
「A100は高価ですが、実際には最も安価に使用できます」と彼は言いました。大規模モデルのチャンスを掴もうとしている大手テクノロジー企業や大手新興企業にとって、多くの場合、お金は問題ではなく、時間の方が貴重なリソースです。
短期的には、Nvidia のデータセンター GPU の売上に影響を与えるのは、TSMC の生産能力だけかもしれません。
H100/800は4nmプロセス、A100/800は7nmプロセスで、これら4つのチップはすべてTSMC製です。中国台湾メディアの報道によると、NVIDIAは今年TSMCにデータセンター用GPUの新規発注を1万台追加し、生産時間を最大50%短縮できる超緊急発注を行ったという。通常、TSMC が A100 を製造するには数か月かかります。現在の生産ボトルネックは主に高度なパッケージングの生産能力不足によるもので、その差は10~20%あり、段階的に増加するには3~6か月かかる見通しだ。
並列コンピューティングに適した GPU がディープラーニングに導入されて以来、10 年以上にわたり、AI 開発の原動力はハードウェアとソフトウェアであり、GPU のコンピューティング能力とモデルおよびアルゴリズムの重複が前進してきました。モデル開発がコンピューティング能力を推進します。需要が高まり、コンピューティング能力が向上し、従来は達成が困難であった大規模なトレーニングも可能になります。
画像認識に代表されるディープラーニングブームの最終波において、中国のAIソフトウェア能力は世界最先端レベルに匹敵するが、現時点での課題はコンピューティングパワーであり、チップの設計と製造には長いサプライチェーンと長期にわたる蓄積が必要であり、多数の特許の壁。
大規模モデルは、モデルとアルゴリズム層におけるもう 1 つの大きな進歩です。ゆっくりと取り組んでいる時間はありません。大規模モデルを構築したり、大規模モデルにクラウド コンピューティング機能を提供したい企業は、できるだけ早く十分な高度なコンピューティング能力を取得する必要があります。 GPU を巡る戦いは、波が最初の企業を歓喜させるか失望させるまで止まらないでしょう。