Concurrence pour les tickets d'IA : les grandes entreprises chinoises se disputent les GPU

Source丨Later LatePost

Texte丨Zhang Jiahao

Le monde entier se bouscule pour la puissance de calcul, et les grandes entreprises chinoises se font plus pressantes.

Au second semestre 2022, alors que l'IA générative est en plein essor, a16z, célèbre capital-risque de la Silicon Valley, a visité des dizaines de startups d'IA et de grandes entreprises technologiques. Ils ont découvert que les startups donnaient 80 à 90 % de leurs premiers fonds de financement aux plateformes de cloud computing pour former leurs propres modèles. Ils estiment que même si les produits de ces entreprises sont matures, elles doivent donner 10% à 20% de leurs revenus aux entreprises de cloud computing chaque année. Elle équivaut à une "taxe AI".

Cela a créé un vaste marché pour fournir des capacités de modèle et des services de formation sur le cloud, et louer de la puissance de calcul à d'autres clients et startups. Rien qu'en Chine, au moins des dizaines de start-up et de petites et moyennes entreprises créent leurs propres grands modèles de langage complexes, et elles doivent toutes louer des GPU à partir de plates-formes de cloud computing. Selon les calculs d'a16z, les dépenses informatiques annuelles d'une entreprise ne dépassent que 50 millions de dollars américains avant qu'elle n'ait suffisamment d'échelle pour prendre en charge son achat par lots de GPU.

Selon "LatePost", après la Fête du Printemps de cette année, toutes les grandes sociétés Internet chinoises proposant des services de cloud computing ont passé d'importantes commandes auprès de Nvidia. Byte a commandé plus d'un milliard de dollars américains de GPU à Nvidia cette année, et une autre grande entreprise a commandé au moins plus d'un milliard de yuans.

Byte à lui seul a peut-être passé des commandes cette année proches du nombre total de GPU commerciaux Nvidia vendus en Chine l'année dernière. En septembre de l'année dernière, lorsque le gouvernement américain a émis des restrictions à l'exportation sur A100 et H100 (le dernier GPU commercial de centre de données de deux générations de NVIDIA), Nvidia a répondu que cela pourrait affecter ses 400 millions de dollars américains (environ 2,8 milliards de yuans) sur le marché chinois dans le quatrième trimestre de l'année dernière. RMB) ventes potentielles. Sur la base de ce calcul, les ventes de GPU de centre de données Nvidia en Chine en 2022 seront d'environ 10 milliards de yuans.

Par rapport aux géants étrangers, les grandes entreprises technologiques chinoises sont plus pressées d'acheter des GPU. Dans la réduction des coûts et l'augmentation de l'efficacité au cours des deux dernières années, certaines plates-formes de cloud computing ont réduit les achats de GPU et disposent de réserves insuffisantes. De plus, personne ne peut garantir que les GPU hautes performances que l'on peut acheter aujourd'hui seront soumis demain à de nouvelles restrictions.

De la réduction des commandes à l'ajout d'achats, tout en se déplaçant en interne

Avant le début de cette année, la demande de GPU des grandes entreprises technologiques chinoises était tiède.

Les GPU ont deux utilisations principales dans les grandes entreprises chinoises de technologie Internet : l'une consiste à soutenir les entreprises en interne et à effectuer des recherches de pointe sur l'IA, et l'autre consiste à vendre des GPU sur des plates-formes de cloud computing.

Une personne de Byte a déclaré à "LatePost" qu'après la sortie d'OpenAI GPT-3 en juin 2020, Byte avait formé un grand modèle de langage génératif avec des milliards de paramètres.À cette époque, le GPU principalement utilisé était le prédécesseur de A100.V100. En raison de l'échelle limitée des paramètres, la capacité de génération de ce modèle est moyenne, et Byte ne pouvait pas voir sa possibilité de commercialisation à ce moment-là, "le ROI (retour sur investissement) ne peut pas être calculé", cette fois la tentative a été vaine .

Ali a également acheté activement des GPU en 2018-2019. Selon une source cloud d'Alibaba, les achats d'Ali à cette époque atteignaient au moins des dizaines de milliers de yuans, et les modèles achetés étaient principalement des V100 et T4 publiés plus tôt par Nvidia. Cependant, seulement environ un dixième de ces GPU ont été confiés à la DAMO Academy pour la recherche et le développement de la technologie AI. Après la sortie du grand modèle M6 à mille milliards de paramètres en 2021, la Dharma Academy a révélé que 480 V100 étaient utilisés pour entraîner M6.

Un plus grand nombre de GPU achetés par Alibaba à l'époque ont été donnés à Alibaba Cloud pour un leasing externe. Cependant, y compris Alibaba Cloud, un groupe de sociétés chinoises de cloud computing a surestimé la demande d'IA sur le marché chinois. Un investisseur technologique a déclaré qu'avant la montée en puissance des modèles à grande échelle, la puissance de calcul GPU des principaux fournisseurs de cloud nationaux n'était pas en pénurie, mais s'inquiétait de la vente, et les fournisseurs de cloud devaient même réduire les prix pour vendre des ressources. L'année dernière, Alibaba Cloud a réduit ses prix six fois et les prix de location de GPU ont chuté de plus de 20 %.

Dans le contexte de la réduction des coûts et de l'augmentation de l'efficacité, et de la poursuite de la "croissance de la qualité" et des bénéfices, il est entendu qu'Ali a réduit l'ampleur de l'approvisionnement en GPU après 2020, et Tencent a également coupé un seul lot de GPU Nvidia à la fin de l'année dernière. .

Cependant, peu de temps après, début 2022, ChatGPT a fait changer d'avis tout le monde, et un consensus s'est rapidement dégagé : un grand modèle est une grande opportunité à ne pas manquer.

Les fondateurs de chaque entreprise ont prêté une attention particulière aux progrès du grand modèle en personne : Zhang Yiming, le fondateur de ByteDance, a commencé à lire des articles sur l'intelligence artificielle ; Zhang Yong, président du conseil d'administration d'Alibaba, a repris Alibaba Cloud et a annoncé les progrès du grand modèle d'Alibaba lors de l'Alibaba Cloud Summit. , les logiciels et les services valent tous la peine d'être refaits en fonction des capacités du grand modèle.

Une personne de Byte a déclaré que dans le passé, lors de la demande d'achat de GPU au sein de Byte, il était nécessaire d'expliquer le rapport entrée-sortie, la priorité et l'importance de l'entreprise. Mais maintenant, le business du modèle à grande échelle est un nouveau business au niveau stratégique de l'entreprise, et le ROI ne peut pas être calculé pour le moment, et des investissements doivent être faits.

Développer leurs propres modèles à grande échelle à usage général n'est que la première étape. L'objectif principal de chaque entreprise est de lancer des services cloud qui fournissent des capacités de modélisation à grande échelle. Il s'agit d'un marché vraiment vaste qui peut correspondre à l'investissement.

Azure, le service cloud de Microsoft, n'est pas très présent sur le marché chinois du cloud computing et sert principalement les activités chinoises des multinationales en Chine depuis dix ans. Mais maintenant, les clients doivent faire la queue car c'est le seul courtier cloud pour la commercialisation d'OpenAI.

Lors du sommet sur le cloud en avril, Ali a une fois de plus souligné que le MaaS (modèle en tant que service) est la future tendance du cloud computing. En plus du test de modèle de base général ouvert et auto-développé "Tongyi Qianwen", il a également publié une série d'aider les clients dans le cloud Outils de formation et d'utilisation de grands modèles. Peu de temps après, Tencent et Byte Volcano Engine ont également publié leurs propres nouvelles versions des services de cluster de formation. Tencent a déclaré qu'en utilisant une nouvelle génération de clusters pour former un grand modèle avec des billions de paramètres, le temps peut être compressé à 4 jours ; Byte a déclaré que leur nouveau cluster prend en charge la formation de modèles à grande échelle au niveau de Wanka. entreprises en Chine, la plupart utilisant déjà le moteur du volcan.

Toutes ces plates-formes utilisent soit les GPU Nvidia A100 et H100, soit les versions réduites spécialement lancées par Nvidia des A800 et H800 après l'interdiction de l'année dernière. La bande passante de ces deux processeurs est d'environ 3/4 et environ la moitié de la version d'origine, évitant des critères de limitation élevés. pour les GPU performants.

Autour du H800 et de l'A800, les principales entreprises technologiques chinoises ont lancé une nouvelle série de commandes.

Une personne d'un fabricant de cloud a déclaré que les grandes entreprises telles que Byte et Ali négocient principalement directement avec l'usine d'origine de Nvidia pour l'approvisionnement, et que les agents et les marchés de l'occasion ont du mal à répondre à leurs énormes besoins.

Nvidia négociera une remise en fonction du prix catalogue et de l'échelle d'achat. Selon le site officiel de Nvidia, le prix de l'A100 est de 10 000 USD par pièce (environ 71 000 yuans) et le prix du H100 est de 36 000 USD par pièce (environ 257 000 yuans); il est entendu que le prix des A800 et H800 est légèrement inférieur que la version originale. .

La capacité d'une entreprise chinoise à saisir une carte dépend davantage des relations commerciales, par exemple si elle était un client majeur de Nvidia dans le passé. "Cela fait une différence que vous parliez à Nvidia en Chine ou que vous alliez aux États-Unis pour parler directement à Lao Huang (Huang Renxun, fondateur et PDG de Nvidia).", a déclaré une personne d'un fournisseur de cloud.

Certaines entreprises mèneront également une « coopération commerciale » avec Nvidia. Lors de l'achat de GPU de centres de données populaires, elles achètent également d'autres produits pour s'efforcer d'obtenir un approvisionnement prioritaire. C'est comme la distribution Hermès, si l'on veut acheter un sac populaire, il faut souvent l'assortir à des vêtements et chaussures d'une valeur de plusieurs dizaines de milliers de yuans.

Sur la base des informations que nous avons obtenues sur le secteur, les nouvelles commandes de Byte cette année sont relativement agressives, dépassant le niveau de 1 milliard de dollars.

Selon une personne proche de Nvidia, il y a au total 100 000 pièces d'A100 et H800 qui sont arrivées et qui ne sont pas arrivées. Parmi eux, le H800 n'a commencé sa production qu'en mars de cette année, et cette partie des puces devrait provenir d'achats supplémentaires cette année. Il est entendu qu'avec le calendrier de production actuel, certains H800 ne seront pas livrés avant la fin de cette année.

ByteDance a commencé à construire son propre centre de données en 2017. Les centres de données s'appuyaient davantage sur les processeurs pour tous les calculs.Jusqu'en 2020, Byte dépensait plus sur les processeurs Intel que sur les GPU Nvidia. L'évolution des achats d'octets reflète également le fait que, dans les besoins informatiques des grandes entreprises technologiques d'aujourd'hui, l'informatique intelligente rattrape l'informatique générale.

Il est entendu qu'une grande société Internet a passé au moins 10 000 commandes auprès de Nvidia cette année, d'une valeur estimée à plus d'un milliard de yuans sur la base du prix catalogue.

Tencent a pris les devants en annonçant qu'il avait utilisé le H800. Tencent Cloud a déjà utilisé le H800 dans la nouvelle version des services informatiques hautes performances publiée en mars de cette année, affirmant qu'il s'agit du premier lancement national. À l'heure actuelle, ce service a été ouvert aux entreprises clientes pour tester les applications, ce qui est plus rapide que les progrès de la plupart des entreprises chinoises.

Il est entendu qu'Alibaba Cloud a également proposé en interne en mai de cette année de prendre la "bataille informatique intelligente" comme la bataille numéro un cette année, et de fixer trois objectifs : l'échelle de la machine, l'échelle du client et l'échelle des revenus ; parmi eux, l'indicateur important de l'échelle de la machine est le nombre de GPU.

Avant l'arrivée du nouveau GPU, les entreprises font aussi des démarches internes pour donner la priorité à l'accompagnement du développement des gros modèles.

La façon de libérer plus de ressources à la fois est de couper certaines directions moins importantes, ou des directions où il n'y a pas de perspective claire à court terme. "Les grandes entreprises ont de nombreuses entreprises à moitié mortes qui occupent des ressources", a déclaré un praticien de l'IA dans une grande entreprise Internet.

En mai de cette année, Ali Dharma Institute a supprimé le laboratoire de conduite autonome : environ 1/3 des plus de 300 employés ont été affectés à l'équipe technique des recrues, et le reste a été licencié. Dharma Institute ne conserve plus l'activité de conduite autonome. Le développement de la conduite autonome nécessite également des GPU performants pour l'entraînement. Cet ajustement n'est peut-être pas directement lié au grand modèle, mais il a permis à Ali d'obtenir un lot de "GPU gratuits".

Byte et Meituan partagent directement les GPU de l'équipe de technologie commerciale qui apporte des revenus publicitaires à l'entreprise.

Selon "LatePost", peu de temps après la fête du printemps de cette année, Byte a distribué un lot d'A100 qui devaient initialement être ajoutés à l'équipe technologique de commercialisation de Byte à Zhu Wenjia, responsable de la technologie des produits TikTok. Zhu Wenjia dirige la recherche et le développement de modèles de grande taille. L'équipe technique de commercialisation est le cœur de métier qui prend en charge l'algorithme de recommandation publicitaire Douyin.

Meituan a commencé à développer de grands modèles vers le premier trimestre de cette année. Il est entendu que Meituan a récemment transféré un lot de mémoire vidéo 80G top version A100 de plusieurs départements, en donnant la priorité à la fourniture de grands modèles, afin que ces départements puissent passer à des GPU avec des configurations inférieures.

Bilibili, dont les ressources financières sont bien moins abondantes que les grandes plateformes, a aussi des projets de gros modèles. Il est entendu que Station B a déjà réservé des centaines de GPU. Cette année, d'une part, Bilibili continue d'acheter des GPU supplémentaires et, d'autre part, coordonne également divers départements pour répartir uniformément les cartes sur les grands modèles. "Certains départements donnent 10 tickets, et certains départements en donnent 20", a déclaré une personne proche de la Station B.

Les sociétés Internet telles que Byte, Meituan et Station B disposent généralement de ressources GPU redondantes dans les départements techniques qui prenaient en charge à l'origine la recherche et la recommandation.

Cependant, le nombre de GPU pouvant être obtenus par cette méthode de démantèlement de l'est et de complément de l'ouest est limité, et les gros GPU nécessaires à la formation de grands modèles doivent encore s'appuyer sur l'accumulation passée de chaque entreprise et attendre l'arrivée de nouveaux GPU.

** Le monde entier se bouscule pour la puissance de calcul **

La course aux GPU des centres de données de Nvidia se déroule également dans le monde entier. Cependant, les géants étrangers ont acheté un grand nombre de GPU plus tôt, et le volume d'achat est plus important, et l'investissement au cours des dernières années a été relativement continu.

En 2022, Meta et Oracle ont déjà beaucoup investi dans A100. Meta s'est associé à Nvidia pour construire le cluster de supercalcul RSC en janvier dernier, qui contient 16 000 A100. En novembre de la même année, Oracle a annoncé l'achat de dizaines de milliers d'A100 et H100 pour construire un nouveau centre de calcul. Aujourd'hui, le centre de calcul a déployé plus de 32 700 A100 et de nouveaux H100 ont été lancés les uns après les autres.

Depuis que Microsoft a investi pour la première fois dans OpenAI en 2019, il a fourni des dizaines de milliers de GPU à OpenAI. En mars de cette année, Microsoft a annoncé qu'il avait aidé OpenAI à construire un nouveau centre de calcul, comprenant des dizaines de milliers d'A100. En mai de cette année, Google a lancé Compute Engine A3, un cluster informatique avec 26 000 H100, au service des entreprises qui souhaitent former elles-mêmes de grands modèles.

Les actions et la mentalité actuelles des grandes entreprises chinoises sont plus urgentes que celles des géants étrangers. En prenant Baidu comme exemple, il a passé des dizaines de milliers de nouvelles commandes de GPU auprès de Nvidia cette année. L'ordre de grandeur est comparable à celui d'entreprises telles que Google, bien que le volume de Baidu soit beaucoup plus faible : son chiffre d'affaires l'an dernier était de 123,6 milliards de yuans, soit seulement 6 % de celui de Google.

Il est entendu que Byte, Tencent, Ali et Baidu, les quatre entreprises technologiques chinoises qui ont le plus investi dans l'IA et le cloud computing, ont accumulé des dizaines de milliers d'A100 dans le passé. Parmi eux, A100 a le nombre d'octets le plus absolu. Hors nouvelles commandes cette année, le nombre total de Byte A100 et de son prédécesseur V100 est proche de 100 000.

Parmi les entreprises en croissance, Shangtang a également annoncé cette année qu'un total de 27 000 GPU ont été déployés dans son cluster informatique "AI large device", dont 10 000 A100. Même Magic Square, une société d'investissement quantitative qui semble n'avoir rien à voir avec l'IA, a déjà acheté 10 000 A100.

Rien qu'en regardant le nombre total, ces GPU semblent être plus que suffisants pour que les entreprises puissent former de grands modèles.Selon le cas sur le site officiel de Nvidia, OpenAI a utilisé 10 000 V100 lors de la formation de GPT-3 avec 175 milliards de paramètres. , 1024 blocs d'A100 sont nécessaires pour un mois d'entraînement 1. Par rapport à V100, A100 a une amélioration des performances de 4,3 fois. Cependant, un grand nombre de GPU achetés par de grandes entreprises chinoises dans le passé doivent prendre en charge les entreprises existantes ou être vendus sur des plates-formes de cloud computing, et ne peuvent pas être librement utilisés pour le développement de modèles à grande échelle et le support externe pour les besoins de modèles à grande échelle des clients.

Cela explique également l'énorme différence dans l'estimation des ressources informatiques par les praticiens chinois de l'IA. Zhang Yaqin, doyen de l'Institut de recherche sur l'industrie intelligente de Tsinghua, a déclaré lors du Forum de Tsinghua fin avril : « Si une seule pièce de la puissance de calcul de la Chine est ajoutée, cela équivaut à 500 000 A100, et il n'y a aucun problème à former cinq modèles. " Yin Qi, PDG de la société d'intelligence artificielle Megvii Technology, a accepté "Caixin" a déclaré dans une interview : la Chine ne dispose actuellement que d'un total d'environ 40 000 A100 pouvant être utilisés pour la formation de modèles à grande échelle.

Il reflète principalement les dépenses d'investissement en immobilisations telles que les puces, les serveurs et les centres de données, et peut intuitivement illustrer l'écart de l'ordre de grandeur des ressources informatiques des grandes entreprises chinoises et étrangères.

Baidu, qui a été le premier à tester des produits de type ChatGPT, a des dépenses d'investissement annuelles comprises entre 800 et 2 milliards de dollars depuis 2020, celles d'Ali entre 6 et 8 milliards de dollars et celles de Tencent entre 7 et 11 milliards de dollars. . Au cours de la même période, les dépenses en immobilisations annuelles d'Amazon, Meta, Google et Microsoft, les quatre entreprises technologiques américaines dotées de centres de données auto-construits, ont toutes dépassé au moins 15 milliards de dollars américains.

Pendant les trois années de l'épidémie, les dépenses d'investissement des entreprises étrangères n'ont cessé d'augmenter. Les dépenses en capital d'Amazon l'année dernière ont atteint 58 milliards de dollars américains, Meta et Google sont tous deux à 31,4 milliards de dollars américains et Microsoft à près de 24 milliards de dollars américains. Les investissements des entreprises chinoises diminuent après 2021. Les dépenses en capital de Tencent et de Baidu ont toutes deux chuté de plus de 25 % en glissement annuel l'an dernier.

Les GPU pour entraîner de grands modèles ne suffisent plus, si les entreprises chinoises veulent vraiment investir longtemps dans de grands modèles et gagner de l'argent pour "vendre des pelles" pour d'autres besoins de modèles, elles devront continuer à augmenter les ressources GPU à l'avenir.

Going Faster OpenAI a relevé ce défi. À la mi-mai, le PDG d'OpenAI, SamAltman, a déclaré dans une communication à petite échelle avec un groupe de développeurs qu'en raison de GPU insuffisants, le service d'API actuel d'OpenAI n'est pas assez stable et que la vitesse n'est pas assez rapide. 4's multimodal Les capacités ne peuvent pas être étendues à tous les utilisateurs, et ils ne prévoient pas de lancer de nouveaux produits grand public dans un proche avenir. Selon un rapport publié par l'agence de conseil technique TrendForce en juin de cette année, OpenAI a besoin d'environ 30 000 A100 pour optimiser et commercialiser en continu ChatGPT.

Microsoft, qui coopère étroitement avec OpenAI, est également confronté à une situation similaire : en mai de cette année, certains utilisateurs se sont plaints que la vitesse de réponse de New Bing était lente, et Microsoft a répondu que c'était parce que la vitesse de réapprovisionnement du GPU ne pouvait pas suivre. avec le taux de croissance des utilisateurs. Microsoft Office 365 Copilot, qui intègre des capacités de modélisation à grande échelle, n'est actuellement pas ouvert à grande échelle. Selon les derniers chiffres, plus de 600 entreprises l'essaient - le nombre total d'utilisateurs d'Office 365 dans le monde est proche de 300. million.

Si une grande entreprise chinoise ne vise pas seulement à former et à publier un grand modèle, mais souhaite vraiment utiliser le grand modèle pour créer des produits qui servent plus d'utilisateurs et aider davantage d'autres clients à former plus de grands modèles sur le cloud, ils doivent réservez plus à l'avance Plusieurs GPU.

**Pourquoi seulement ces quatre cartes ? **

En termes de formation sur les grands modèles d'IA, rien ne remplace les A100, H100 et les versions réduites A800 et H800 spécialement fournies à la Chine. Selon le fonds spéculatif quantitatif Khaveen Investments, la part de marché des GPU des centres de données de Nvidia atteindra 88 % en 2022, et AMD et Intel se partageront le reste.

Lors de la conférence GTC en 2020, Huang Renxun a fait ses débuts avec l'A100.

L'irremplaçabilité actuelle du GPU Nvidia vient du mécanisme de formation des grands modèles. Ses étapes principales sont la pré-formation et le réglage fin. Le premier consiste à jeter les bases, ce qui équivaut à recevoir une formation générale pour obtenir un diplôme universitaire. ; le second est optimisé pour des scénarios et des tâches spécifiques afin d'améliorer les performances au travail.

Le lien de pré-formation est particulièrement gourmand en calculs et il a des exigences extrêmement élevées sur les performances d'un seul GPU et la capacité de transmission de données entre plusieurs cartes.

Désormais, seuls A100 et H100 peuvent fournir l'efficacité de calcul requise pour la pré-formation.Ils semblent chers, mais ils sont l'option la moins chère. Aujourd'hui, l'IA en est encore aux premiers stades de l'utilisation commerciale, et le coût affecte directement la disponibilité d'un service.

Certains modèles du passé, tels que VGG16, qui peuvent reconnaître les chats comme des chats, n'ont que des millions de paramètres 130. À cette époque, certaines entreprises utilisaient des cartes graphiques grand public de la série RTX pour jouer à des jeux afin d'exécuter des modèles d'IA. L'échelle paramétrique du GPT-3 publiée il y a plus de deux ans a atteint 175 milliards.

Compte tenu des énormes exigences de calcul des grands modèles, il n'est plus possible d'utiliser davantage de GPU à faible performance pour former la puissance de calcul. Parce que lors de l'utilisation de plusieurs GPU pour l'entraînement, il est nécessaire de transmettre des données et de synchroniser les informations de paramètres entre les puces.A ce moment, certains GPU seront inactifs et ne pourront pas être saturés tout le temps. Par conséquent, plus les performances d'une seule carte sont faibles, plus le nombre de cartes utilisées est élevé et plus la perte de puissance de calcul est importante. Lorsque OpenAI utilise 10 000 V100 pour former GPT-3, le taux d'utilisation de la puissance de calcul est inférieur à 50 %.

A100 et H100 disposent à la fois de la puissance de calcul élevée d'une seule carte et d'une bande passante élevée pour améliorer la transmission des données entre les cartes. Le FP32 d'A100 (se référant au codage sur 4 octets et au calcul de stockage) a une puissance de calcul de 19,5 TFLOPS (1 TFLOPS signifie mille milliards d'opérations en virgule flottante par seconde), et la puissance de calcul du FP32 du H100 atteint 134 TFLOPS. de MI250.

A100 et H100 offrent également des capacités de transmission de données efficaces pour minimiser la puissance de calcul inactive. Les astuces exclusives de Nvidia sont les technologies de protocole de communication telles que NVLink et NVSwitch qui ont été lancées depuis 2014. Le NVLink de quatrième génération utilisé sur le H100 peut augmenter la bande passante de communication bidirectionnelle des GPU au sein d'un même serveur à 900 Go/s (900 Go de données par seconde), soit 7 fois celle de la dernière génération de PCle (un point -to-point norme de transmission série haute vitesse) beaucoup.

L'année dernière, les réglementations du Département américain du commerce sur l'exportation de GPU étaient également bloquées sur les deux lignes de puissance de calcul et de bande passante : la puissance de calcul supérieure était de 4 800 TOPS et la bande passante supérieure était de 600 Go/s.

A800 et H800 ont la même puissance de calcul que la version originale, mais la bande passante est réduite. La bande passante de l'A800 a été réduite de 600 Go/s de l'A100 à 400 Go/s. Les paramètres spécifiques du H800 n'ont pas été divulgués. Selon Bloomberg, sa bande passante n'est qu'environ la moitié de celle du H100 (900 Go/s s) Lors de l'exécution de la même tâche d'IA, le H800 prend 10 % à 30 % de temps en plus que le H100. Un ingénieur en intelligence artificielle a émis l'hypothèse que l'effet d'entraînement du H800 n'est peut-être pas aussi bon que celui de l'A100, mais il est plus cher.

Même ainsi, les performances de l'A800 et du H800 surpassent toujours les produits similaires d'autres grandes entreprises et startups. Limitées par les performances et des architectures plus dédiées, les puces IA ou puces GPU lancées par diverses sociétés sont aujourd'hui principalement utilisées pour le raisonnement IA, ce qui est difficile pour le pré-entraînement de modèles à grande échelle. Pour le dire simplement, la formation à l'IA consiste à créer un modèle, le raisonnement à l'IA consiste à utiliser le modèle et la formation nécessite des performances de puce plus élevées.

En plus de l'écart de performances, le fossé le plus profond de Nvidia est l'écologie logicielle.

Dès 2006, Nvidia a lancé la plate-forme informatique CUDA, qui est un moteur logiciel de calcul parallèle.Les développeurs peuvent utiliser CUDA pour effectuer plus efficacement l'entraînement et le raisonnement de l'IA et faire bon usage de la puissance de calcul du GPU. CUDA est devenu l'infrastructure d'IA aujourd'hui, et les frameworks, bibliothèques et outils d'IA grand public sont tous développés sur la base de CUDA.

Si des GPU et des puces AI autres que Nvidia veulent se connecter à CUDA, ils doivent fournir leur propre logiciel d'adaptation, mais seulement une partie des performances de CUDA, et l'itération de mise à jour est plus lente. Les frameworks d'IA tels que PyTorch tentent de briser le monopole écologique des logiciels de CUDA et de fournir plus de capacités logicielles pour prendre en charge les GPU d'autres fabricants, mais cela a un attrait limité pour les développeurs.

Un praticien de l'IA a déclaré que son entreprise avait contacté un fabricant de GPU non NVIDIA, qui proposait des prix de puces et de services inférieurs à ceux de Nvidia, et promettait de fournir des services plus rapides, mais ils ont jugé que la formation et le développement globaux utilisant d'autres GPU Le coût sera être supérieur à celui de Nvidia, et il devra supporter l'incertitude des résultats et prendre plus de temps.

"Bien que l'A100 soit cher, c'est en fait le moins cher à utiliser", a-t-il déclaré. Pour les grandes entreprises technologiques et les startups de premier plan qui ont l'intention de saisir l'opportunité des grands modèles, l'argent n'est souvent pas un problème et le temps est une ressource plus précieuse.

À court terme, la seule chose qui affecte les ventes de GPU du centre de données de Nvidia pourrait être la capacité de production de TSMC.

Le H100 / 800 est un processus de 4 nm et l'A100 / 800 est un processus de 7 nm.Ces quatre puces sont toutes produites par TSMC. Selon les médias chinois de Taiwan, Nvidia a ajouté 10 000 nouvelles commandes de GPU pour centres de données à TSMC cette année et a passé une commande super urgente, ce qui peut réduire le temps de production jusqu'à 50 %. Normalement, TSMC mettrait plusieurs mois à produire l'A100. Le goulot d'étranglement actuel de la production est principalement dû à une capacité de production insuffisante d'emballages avancés, avec un écart de 10 à 20 %, qui prendra 3 à 6 mois pour augmenter progressivement.

Depuis que les GPU adaptés au calcul parallèle ont été introduits dans l'apprentissage en profondeur, depuis plus de dix ans, la force motrice du développement de l'IA a été le matériel et les logiciels, et le chevauchement de la puissance de calcul GPU et des modèles et algorithmes a progressé : le développement de modèles stimule la puissance de calcul demande ; la puissance de calcul augmente, elle rend également possible une formation à plus grande échelle, difficile à réaliser à l'origine.

Dans la dernière vague de boom de l'apprentissage en profondeur représenté par la reconnaissance d'image, les capacités logicielles d'IA de la Chine sont comparables au niveau le plus avancé au monde ; la puissance de calcul est la difficulté actuelle - la conception et la fabrication de puces nécessitent une accumulation plus longue, impliquant une longue chaîne d'approvisionnement et barrière de nombreux brevets.

Le grand modèle est un autre grand progrès dans la couche modèle et algorithme. Il n'y a pas de temps pour y aller lentement. Les entreprises qui souhaitent construire de grands modèles ou fournir des capacités de cloud computing pour les grands modèles doivent obtenir une puissance de calcul suffisamment avancée dès que possible. La bataille pour les GPU ne s'arrêtera pas tant que la vague n'aura pas encouragé ou déçu les premières entreprises.

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)