O mundo inteiro está lutando pelo poder da computação, e as grandes empresas chinesas são mais urgentes.
No segundo semestre de 2022, enquanto a IA generativa está crescendo, a16z, uma famosa capital de risco do Vale do Silício, visitou dezenas de startups de IA e grandes empresas de tecnologia. Eles descobriram que as startups deram de 80% a 90% de seus fundos de financiamento iniciais para plataformas de computação em nuvem para treinar seus próprios modelos. Eles estimam que, mesmo que os produtos dessas empresas estejam maduros, eles devem dar 10% a 20% de sua receita para empresas de computação em nuvem todos os anos. É equivalente a um "imposto AI".
Isso criou um grande mercado para fornecer recursos de modelo e serviços de treinamento na nuvem e alugar poder de computação para outros clientes e startups. Somente na China, pelo menos dezenas de empresas iniciantes e pequenas e médias empresas estão criando seus próprios modelos complexos de linguagem grande, e todas precisam alugar GPUs de plataformas de computação em nuvem. De acordo com os cálculos da a16z, o gasto anual de computação de IA de uma empresa excede apenas 50 milhões de dólares americanos antes de ter escala suficiente para suportar sua compra em lote de GPUs.
De acordo com o "LatePost", após o Festival da Primavera deste ano, todas as principais empresas de Internet da China com serviços de computação em nuvem fizeram grandes pedidos à Nvidia. A Byte encomendou mais de US$ 1 bilhão em GPUs da Nvidia este ano, e outra grande empresa encomendou pelo menos mais de 1 bilhão de yuans.
A Byte sozinha pode ter feito pedidos este ano perto do número total de GPUs comerciais que a Nvidia vendeu na China no ano passado. Em setembro do ano passado, quando o governo dos EUA emitiu restrições à exportação de A100 e H100 (a mais recente GPU comercial de data center de duas gerações da NVIDIA), a Nvidia respondeu que isso pode afetar seus US$ 400 milhões (cerca de 2,8 bilhões de yuans) no mercado chinês. no quarto trimestre do ano passado. RMB) vendas potenciais. Com base nesse cálculo, as vendas de GPUs de data center da Nvidia na China em 2022 serão de cerca de 10 bilhões de yuans.
Em comparação com gigantes no exterior, as grandes empresas de tecnologia da China são mais urgentes para comprar GPUs. Na redução de custos e aumento de eficiência nos últimos dois anos, algumas plataformas de computação em nuvem reduziram as compras de GPU e têm reservas insuficientes. Além disso, ninguém pode garantir que a GPU de alto desempenho que pode ser comprada hoje estará sujeita a novas restrições amanhã.
Desde o corte de pedidos até a adição de compras, enquanto se move internamente
Antes do início deste ano, a demanda por GPUs das grandes empresas de tecnologia da China era morna.
As GPUs têm dois usos principais nas grandes empresas de tecnologia de Internet da China: uma é para apoiar os negócios internamente e fazer algumas pesquisas de ponta em IA, e a outra é vender GPUs em plataformas de computação em nuvem.
Uma pessoa da Byte disse ao "LatePost" que depois que a OpenAI lançou o GPT-3 em junho de 2020, a Byte treinou um grande modelo de linguagem generativa com bilhões de parâmetros. Naquela época, a GPU usada principalmente era a predecessora da A100. V100. Devido à escala limitada de parâmetros, a capacidade de geração deste modelo é média, e a Byte não conseguiu ver sua possibilidade de comercialização naquele momento, "ROI (retorno do investimento) não pode ser calculado", desta vez a tentativa foi em vão .
Ali também comprou GPUs ativamente em 2018-2019. De acordo com uma fonte de nuvem do Alibaba, as compras de Ali na época atingiram pelo menos dezenas de milhares de yuans, e os modelos comprados eram principalmente V100 e T4 lançados anteriormente pela Nvidia. No entanto, apenas cerca de um décimo dessas GPUs foram doadas à DAMO Academy para pesquisa e desenvolvimento de tecnologia de IA. Após o lançamento do modelo grande de trilhões de parâmetros M6 em 2021, a Dharma Academy divulgou que 480 V100s foram usados para treinar o M6.
Mais das GPUs compradas pelo Alibaba na época foram dadas ao Alibaba Cloud para locação externa. No entanto, incluindo o Alibaba Cloud, um grupo de empresas chinesas de computação em nuvem superestimou a demanda de IA no mercado chinês. Um investidor em tecnologia disse que, antes do surgimento de modelos de grande escala, o poder de computação da GPU nos principais fornecedores domésticos de nuvem não era escasso, mas preocupado com a venda, e os fornecedores de nuvem até tiveram que cortar preços para vender recursos. No ano passado, o Alibaba Cloud cortou os preços seis vezes e os preços de aluguel de GPU caíram mais de 20%.
No contexto de redução de custos e aumento da eficiência e busca de "crescimento de qualidade" e lucros, entende-se que Ali reduziu a escala de aquisição de GPU após 2020, e a Tencent também cortou um único lote de GPUs Nvidia no final do ano passado .
Porém, não muito tempo depois, no início de 2022, o ChatGPT mudou a visão de todos, e rapidamente se chegou a um consenso: um grande modelo é uma grande oportunidade que não se pode perder.
Os fundadores de cada empresa prestaram muita atenção ao progresso do grande modelo pessoalmente: Zhang Yiming, fundador da ByteDance, começou a ler artigos sobre inteligência artificial; Zhang Yong, presidente do conselho de administração do Alibaba, assumiu o Alibaba Cloud e anunciou o progresso do modelo grande do Alibaba no Alibaba Cloud Summit. , software e serviços valem a pena refazer com base nos recursos do modelo grande.”
Uma pessoa da Byte disse que antigamente, ao solicitar a compra de GPUs dentro da Byte, era necessário explicar a relação entrada-saída, prioridade e importância do negócio. Mas agora o negócio modelo em grande escala é um negócio novo no nível estratégico da empresa, e o ROI não pode ser calculado por enquanto, e o investimento deve ser feito.
Desenvolver seus próprios modelos de grande escala de uso geral é apenas o primeiro passo. O objetivo maior de cada empresa é lançar serviços em nuvem que forneçam recursos de modelo de grande escala. Este é um mercado verdadeiramente grande que pode igualar o investimento.
O serviço de nuvem da Microsoft, o Azure, não tem uma presença forte no mercado de computação em nuvem da China, pois atende principalmente os negócios chineses de empresas multinacionais na China há dez anos. Mas agora os clientes precisam esperar na fila porque é o único corretor de nuvem para comercialização da OpenAI.
Na cúpula da nuvem em abril, Ali enfatizou mais uma vez que MaaS (Modelo como serviço) é a tendência futura da computação em nuvem. Além do teste de modelo básico geral aberto e autodesenvolvido "Tongyi Qianwen", também lançou uma série de ajudar clientes na nuvem.Ferramentas para treinamento e uso de grandes modelos. Logo depois, a Tencent e a Byte Volcano Engine também lançaram suas próprias novas versões de serviços de cluster de treinamento. Tencent disse que usando uma nova geração de clusters para treinar um grande modelo com trilhões de parâmetros, o tempo pode ser comprimido para 4 dias; Byte disse que seu novo cluster suporta treinamento de modelos em grande escala no nível Wanka. Dezenas de modelos em grande escala empresas na China, a maioria delas já usando o motor vulcão.
Todas essas plataformas usam GPUs Nvidia A100 e H100, ou versões reduzidas especialmente lançadas da Nvidia de A800 e H800 após a proibição do ano passado. A largura de banda desses dois processadores é de cerca de 3/4 e cerca de metade da versão original, evitando altos critérios de limitação para GPUs de desempenho.
Em torno do H800 e A800, as principais empresas de tecnologia da China iniciaram uma nova rodada de competição de pedidos.
Uma pessoa de um fabricante de nuvem disse que grandes empresas como Byte e Ali negociam principalmente diretamente com a fábrica original da Nvidia para aquisição, e agentes e mercados de segunda mão são difíceis de atender às suas enormes necessidades.
A Nvidia negociará um desconto com base no preço de tabela e na escala de compra. De acordo com o site oficial da Nvidia, o preço do A100 é de US$ 10.000 por peça (cerca de 71.000 yuan) e o preço do H100 é de US$ 36.000 por peça (cerca de 257.000 yuan); entende-se que o preço do A800 e H800 é um pouco menor que a versão original. .
Se uma empresa chinesa pode pegar um cartão depende mais das relações comerciais, como se foi um grande cliente da Nvidia no passado. "Faz diferença se você fala com a Nvidia na China ou vai aos Estados Unidos para falar diretamente com Lao Huang (Huang Renxun, fundador e CEO da Nvidia)", disse uma pessoa de um fornecedor de nuvem.
Algumas empresas também conduzirão "cooperação comercial" com a Nvidia.Ao comprar GPUs de data center populares, elas também compram outros produtos para buscar o fornecimento prioritário. É como a distribuição da Hermès: se você quiser comprar uma bolsa popular, muitas vezes terá que combiná-la com roupas e sapatos no valor de dezenas de milhares de yuans.
Com base nas informações do setor que obtivemos, os novos pedidos da Byte este ano são relativamente agressivos, ultrapassando o nível de US$ 1 bilhão.
Segundo uma pessoa próxima à Nvidia, há um total de 100.000 peças de A100 e H800 que chegaram e não chegaram. Entre eles, o H800 só começou a ser produzido em março deste ano, e essa parte dos chips deve vir de compras adicionais neste ano. Entende-se que com o atual cronograma de produção, alguns H800s não serão entregues até o final deste ano.
A ByteDance começou a construir seu próprio data center em 2017. Data centers costumavam confiar mais em CPUs para todos os cálculos. Até 2020, a Byte gastava mais em CPUs Intel do que em GPUs Nvidia. As mudanças nas compras de bytes também refletem que, nas necessidades de computação das grandes empresas de tecnologia atuais, a computação inteligente está alcançando a computação geral.
Entende-se que uma grande empresa de Internet fez pelo menos um pedido de 10.000 níveis com a Nvidia este ano, com um valor estimado de mais de 1 bilhão de yuans com base no preço de catálogo.
A Tencent saiu na frente ao anunciar que já utilizou o H800.A Tencent Cloud já utilizou o H800 na nova versão de serviços de computação de alto desempenho lançada em março deste ano, afirmando ser este o primeiro lançamento doméstico. Atualmente, esse serviço foi aberto a clientes corporativos para testes de aplicativos, o que é mais rápido do que o progresso da maioria das empresas chinesas.
Entende-se que o Alibaba Cloud também propôs internamente em maio deste ano tomar a "Batalha da Computação Inteligente" como a batalha número um deste ano e estabeleceu três metas: escala de máquina, escala de cliente e escala de receita; entre eles, o importante indicador da escala da máquina é o número de GPUs .
Antes da chegada da nova GPU, as empresas também estão fazendo movimentos internos para dar prioridade ao suporte ao desenvolvimento de modelos grandes.
A forma de liberar mais recursos de uma só vez é cortar algumas direções menos importantes, ou direções onde não há perspectiva clara no curto prazo. “Grandes empresas têm muitos negócios meio mortos que ocupam recursos.” disse um praticante de IA em uma grande empresa de Internet.
Em maio deste ano, o Ali Dharma Institute aboliu o laboratório de direção autônoma: cerca de 1/3 dos mais de 300 funcionários foram designados para a equipe técnica novata e o restante foi demitido. O Dharma Institute não mantém mais o negócio de direção autônoma. O desenvolvimento da direção autônoma também requer GPUs de alto desempenho para treinamento. Esse ajuste pode não estar diretamente relacionado ao modelo grande, mas permitiu que Ali obtivesse um lote de "GPUs gratuitas".
Byte e Meituan compartilham GPUs diretamente da equipe de tecnologia comercial que traz receita de publicidade para a empresa.
De acordo com o "LatePost", logo após o Festival da Primavera deste ano, a Byte distribuiu um lote de A100s que foram originalmente planejados para serem adicionados à equipe de tecnologia de comercialização da Byte para Zhu Wenjia, chefe da tecnologia de produtos TikTok. Zhu Wenjia está liderando a pesquisa e desenvolvimento de modelos de bytes grandes. A equipe técnica de comercialização é o principal departamento de negócios que suporta o algoritmo de recomendação de publicidade Douyin.
A Meituan começou a desenvolver modelos grandes por volta do primeiro trimestre deste ano. Entende-se que a Meituan transferiu recentemente um lote de memória de vídeo 80G versão superior A100 de vários departamentos, priorizando o fornecimento de modelos grandes, para que esses departamentos possam mudar para GPUs com configurações inferiores.
A Bilibili, cujos recursos financeiros são bem menos abundantes do que as grandes plataformas, também tem planos para grandes modelos. Entende-se que a Estação B reservou anteriormente centenas de GPUs. Este ano, por um lado, a Bilibili continua comprando GPUs adicionais e, por outro lado, também está coordenando vários departamentos para distribuir uniformemente os cartões para modelos grandes. "Alguns departamentos dão 10 bilhetes, e alguns departamentos dão 20 bilhetes." Disse uma pessoa próxima à Estação B.
Empresas de Internet como Byte, Meituan e Station B geralmente têm alguns recursos de GPU redundantes nos departamentos técnicos que originalmente suportavam pesquisa e recomendação.
No entanto, o número de GPUs que pode ser obtido por esse método de desmontar o leste e complementar o oeste é limitado, e as grandes GPUs necessárias para treinar grandes modelos ainda precisam contar com o acúmulo anterior de cada empresa e aguardar a chegada de novas GPUs.
O mundo inteiro está lutando pelo poder da computação
A corrida pelas GPUs de data center da Nvidia também está acontecendo em todo o mundo. No entanto, gigantes estrangeiros compraram um grande número de GPUs anteriormente, e o volume de compras é maior, e o investimento nos últimos anos tem sido relativamente contínuo.
Em 2022, Meta e Oracle já investiram pesado no A100. A Meta fez parceria com a Nvidia em janeiro passado para construir o cluster de supercomputação RSC, que contém 16.000 A100s. Em novembro do mesmo ano, a Oracle anunciou a compra de dezenas de milhares de A100 e H100 para construir um novo centro de computação. Agora, o centro de computação implantou mais de 32.700 A100s e novos H100s foram lançados um após o outro.
Desde que a Microsoft investiu pela primeira vez na OpenAI em 2019, ela forneceu dezenas de milhares de GPUs para a OpenAI. Em março deste ano, a Microsoft anunciou que ajudou a OpenAI a construir um novo centro de computação, incluindo dezenas de milhares de A100. Em maio deste ano, o Google lançou o Compute Engine A3, um cluster de computação com 26.000 H100s, atendendo empresas que desejam treinar grandes modelos sozinhas.
As ações atuais e a mentalidade das grandes empresas chinesas são mais urgentes do que as dos gigantes estrangeiros. Tomando o Baidu como exemplo, ele fez dezenas de milhares de novos pedidos de GPU com a Nvidia este ano. A ordem de grandeza é comparável à de empresas como o Google, embora o volume do Baidu seja muito menor: sua receita no ano passado foi de 123,6 bilhões de yuans, apenas 6% do Google.
Entende-se que Byte, Tencent, Ali e Baidu, as quatro empresas de tecnologia chinesas que mais investiram em IA e computação em nuvem, acumularam dezenas de milhares de A100 no passado. Entre eles, o A100 possui o maior número absoluto de bytes. Excluindo novos pedidos este ano, o número total de Byte A100 e seu antecessor V100 é próximo a 100.000.
Entre as empresas em crescimento, a Shangtang também anunciou este ano que um total de 27.000 GPUs foram implantados em seu cluster de computação "AI large device", incluindo 10.000 A100s. Até a Magic Square, uma empresa de investimentos quantitativos que parece não ter nada a ver com IA, comprou 10.000 A100 antes.
Olhando apenas para o número total, essas GPUs parecem ser mais do que suficientes para as empresas treinarem grandes modelos. Segundo o caso do site oficial da Nvidia, a OpenAI usou 10.000 V100s ao treinar o GPT-3 com 175 bilhões de parâmetros. Para treinar o GPT-3 , são necessários 1.024 blocos de A100 para 1 mês de treinamento. Comparado com V100, o A100 apresenta uma melhora de desempenho de 4,3 vezes. No entanto, um grande número de GPUs adquiridos por grandes empresas chinesas no passado deve oferecer suporte a negócios existentes ou ser vendido em plataformas de computação em nuvem e não pode ser usado livremente para desenvolvimento de modelos em grande escala e suporte externo para necessidades de modelos em grande escala dos clientes.
Isso também explica a enorme diferença na estimativa de recursos de computação pelos praticantes chineses de IA. Zhang Yaqin, reitor do Tsinghua Intelligent Industry Research Institute, disse no Tsinghua Forum no final de abril: "Se uma parte do poder de computação da China for adicionada, é equivalente a 500.000 A100 e não há problema em treinar cinco modelos. " Yin Qi, CEO da empresa de IA Megvii Technology, aceitou "Caixin" disse em uma entrevista: Atualmente, a China tem apenas um total de cerca de 40.000 A100s que podem ser usados para treinamento de modelo em grande escala.
Ele reflete principalmente o dispêndio de capital em investimentos em ativos fixos, como chips, servidores e data centers, e pode ilustrar intuitivamente a lacuna de ordem de grandeza nos recursos de computação de grandes empresas chinesas e estrangeiras.
O Baidu, que foi o primeiro a testar produtos semelhantes ao ChatGPT, tem um gasto anual de capital entre US$ 800 milhões e US$ 2 bilhões desde 2020, o de Ali entre US$ 6 bilhões e US$ 8 bilhões e o da Tencent entre US$ 7 bilhões e US$ 11 bilhões . Durante o mesmo período, os gastos anuais de capital da Amazon, Meta, Google e Microsoft, as quatro empresas americanas de tecnologia com data centers autoconstruídos, ultrapassaram pelo menos US$ 15 bilhões.
Durante os três anos da epidemia, as despesas de capital das empresas estrangeiras continuaram a aumentar. As despesas de capital da Amazon no ano passado atingiram 58 bilhões de dólares americanos, Meta e Google são 31,4 bilhões de dólares americanos e a Microsoft está perto de 24 bilhões de dólares americanos. Os investimentos das empresas chinesas estão diminuindo após 2021. As despesas de capital da Tencent e da Baidu caíram mais de 25% ano a ano no ano passado.
GPUs para treinar modelos grandes não são mais suficientes.Se as empresas chinesas realmente quiserem investir em modelos grandes por muito tempo e ganhar dinheiro para “vender pás” para outras necessidades de modelos, elas precisarão continuar aumentando os recursos de GPU no futuro.
Indo mais rápido A OpenAI superou esse desafio. Em meados de maio, o CEO da OpenAI, SamAltman, disse em uma comunicação de pequena escala com um grupo de desenvolvedores que, devido a GPUs insuficientes, o serviço de API atual da OpenAI não é estável o suficiente e a velocidade não é rápida o suficiente. Antes de haver mais GPUs, GPT- 4's multimodal Os recursos não podem ser estendidos a todos os usuários e eles não planejam lançar novos produtos de consumo em um futuro próximo. De acordo com um relatório divulgado pela agência de consultoria técnica TrendForce em junho deste ano, a OpenAI precisa de cerca de 30.000 A100s para otimizar e comercializar continuamente o ChatGPT.
A Microsoft, que tem uma profunda cooperação com a OpenAI, também está enfrentando uma situação semelhante: em maio deste ano, alguns usuários reclamaram que a velocidade de resposta do Novo Bing era lenta, e a Microsoft respondeu que isso acontecia porque a velocidade de reabastecimento da GPU não conseguia acompanhar com a taxa de crescimento do usuário. O Microsoft Office 365 Copilot, que é incorporado com recursos de modelo em grande escala, não está atualmente aberto em grande escala. O número mais recente é que mais de 600 empresas estão experimentando - o número total de usuários do Office 365 em todo o mundo é próximo a 300 milhão.
Se uma grande empresa chinesa não visa apenas treinar e lançar um modelo grande, mas realmente deseja usar o modelo grande para criar produtos que atendam a mais usuários e oferecer suporte adicional a outros clientes para treinar mais modelos grandes na nuvem, eles precisam reserve mais com antecedência Várias GPUs.
**Por que apenas essas quatro cartas? **
Em termos de treinamento de modelos grandes de AI, não há substitutos para A100, H100 e a versão reduzida A800 e H800 especialmente fornecidos para a China. De acordo com o fundo de hedge quantitativo Khaveen Investments, a participação no mercado de GPU de data center da Nvidia chegará a 88% em 2022, e AMD e Intel dividirão o restante.
Na conferência GTC em 2020, Huang Renxun fez sua estreia com o A100.
A insubstituibilidade atual da GPU Nvidia vem do mecanismo de treinamento de grandes modelos. Suas etapas principais são o pré-treinamento e o ajuste fino. O primeiro é estabelecer a base, o que equivale a receber educação geral para se formar na universidade. ; o último é otimizado para cenários e tarefas específicas para melhorar o desempenho do trabalho.
O link de pré-treinamento é particularmente intensivo em computação e tem requisitos extremamente altos no desempenho de uma única GPU e na capacidade de transmissão de dados entre vários cartões.
Agora apenas o A100 e o H100 podem fornecer a eficiência computacional necessária para o pré-treinamento.Eles parecem caros, mas são a opção mais barata. Hoje, a IA ainda está nos estágios iniciais de uso comercial e o custo afeta diretamente a disponibilidade de um serviço.
Alguns modelos no passado, como o VGG16, que pode reconhecer gatos como gatos, tinham apenas 130 milhões de parâmetros. Naquela época, algumas empresas usavam placas gráficas de nível consumidor da série RTX para jogar jogos para executar modelos de IA. A escala de parâmetros do GPT-3 lançada há mais de dois anos atingiu 175 bilhões.
Sob os enormes requisitos de computação de modelos grandes, não é mais viável usar mais GPUs de baixo desempenho para formar o poder de computação. Porque ao usar várias GPUs para treinamento, é necessário transmitir dados e sincronizar informações de parâmetros entre os chips. Nesse momento, algumas GPUs ficarão ociosas e não podem ficar saturadas o tempo todo. Portanto, quanto menor o desempenho de um único cartão, mais cartões são usados e maior é a perda de poder de computação. Quando OpenAI usa 10.000 V100s para treinar GPT-3, a taxa de utilização de energia de computação é inferior a 50%.
A100 e H100 têm alto poder de computação de um único cartão e alta largura de banda para melhorar a transmissão de dados entre os cartões. O FP32 do A100 (referente a codificação de 4 bytes e cálculo de armazenamento) tem um poder de computação de 19,5 TFLOPS (1 TFLOPS significa um trilhão de operações de ponto flutuante por segundo), e o poder de computação FP32 do H100 é de até 134 TFLOPS. Cerca de 4 vezes esse de MI250.
A100 e H100 também fornecem recursos eficientes de transmissão de dados para minimizar o poder de computação ocioso. Os cheats exclusivos da Nvidia são as tecnologias de protocolo de comunicação, como NVLink e NVSwitch, lançadas desde 2014. O NVLink de quarta geração usado no H100 pode aumentar a largura de banda de comunicação bidirecional de GPUs dentro do mesmo servidor para 900 GB/s (900 GB de dados por segundo), que é 7 vezes maior que a última geração de PCle (um ponto -to-point padrão de transmissão serial de alta velocidade) muitos.
No ano passado, os regulamentos do Departamento de Comércio dos EUA sobre a exportação de GPUs também ficaram presos nas duas linhas de poder de computação e largura de banda: o poder de computação da linha superior era de 4800 TOPS e a largura de banda da linha superior era de 600 GB/s.
A800 e H800 têm o mesmo poder de computação da versão original, mas a largura de banda é descontada. A largura de banda do A800 foi reduzida de 600 GB/s do A100 para 400 GB/s. Os parâmetros específicos do H800 não foram divulgados. De acordo com a Bloomberg, sua largura de banda é apenas cerca de metade da do H100 (900 GB/ s). Ao executar a mesma tarefa AI, o H800 levará 10% -30% mais tempo do que o H100. Um engenheiro de IA especulou que o efeito de treinamento do H800 pode não ser tão bom quanto o do A100, mas é mais caro.
Mesmo assim, o desempenho do A800 e do H800 ainda supera produtos similares de outras grandes empresas e startups. Limitados por desempenho e arquiteturas mais dedicadas, os chips de IA ou chips de GPU lançados por várias empresas agora são usados principalmente para raciocínio de IA, o que é difícil para o pré-treinamento de modelos em grande escala. Simplificando, o treinamento de IA é fazer um modelo, o raciocínio de IA é usar o modelo e o treinamento requer um desempenho de chip mais alto.
Além da lacuna de desempenho, o fosso mais profundo da Nvidia é a ecologia de software.
Já em 2006, a Nvidia lançou a plataforma de computação CUDA, que é um mecanismo de software de computação paralela. Os desenvolvedores podem usar CUDA para realizar treinamento e raciocínio de IA com mais eficiência e fazer bom uso do poder de computação da GPU. CUDA tornou-se a infraestrutura de IA hoje, e as principais estruturas, bibliotecas e ferramentas de IA são todas desenvolvidas com base em CUDA.
Se GPUs e chips de IA diferentes da Nvidia quiserem se conectar ao CUDA, eles precisarão fornecer seu próprio software de adaptação, mas apenas parte do desempenho do CUDA, e a iteração de atualização é mais lenta. Estruturas de IA como PyTorch estão tentando quebrar o monopólio ecológico de software da CUDA e fornecer mais recursos de software para suportar GPUs de outros fabricantes, mas isso tem apelo limitado para os desenvolvedores.
Um profissional de IA disse que sua empresa contatou um fabricante de GPU não NVIDIA, que ofereceu preços mais baixos para chips e serviços do que a Nvidia e prometeu fornecer serviços mais oportunos, mas eles julgaram que o treinamento e desenvolvimento geral usando outras GPUs O custo será ser superior ao da Nvidia, e terá que suportar a incerteza dos resultados e levar mais tempo.
"Embora o A100 seja caro, na verdade é o mais barato de usar", disse ele. Para grandes empresas de tecnologia e startups líderes que pretendem aproveitar a oportunidade de grandes modelos, o dinheiro muitas vezes não é um problema e o tempo é um recurso mais precioso.
No curto prazo, a única coisa que afeta as vendas de GPU de data center da Nvidia pode ser a capacidade de produção da TSMC.
O H100/800 é um processo de 4 nm, e o A100/800 é um processo de 7 nm. Esses quatro chips são todos produzidos pela TSMC. De acordo com relatos da mídia chinesa de Taiwan, a Nvidia adicionou 10.000 novos pedidos de GPU de data center à TSMC este ano e fez um pedido super urgente, que pode reduzir o tempo de produção em até 50%. Normalmente, a TSMC levaria vários meses para produzir o A100. O atual gargalo da produção se deve principalmente à capacidade insuficiente de produção de embalagens avançadas, com uma lacuna de 10 a 20 por cento, que levará de 3 a 6 meses para aumentar gradualmente.
Desde que GPUs adequadas para computação paralela foram introduzidas no aprendizado profundo, por mais de dez anos, a força motriz do desenvolvimento de IA tem sido hardware e software, e a sobreposição de poder de computação de GPU e modelos e algoritmos avançou: o desenvolvimento de modelos impulsiona o poder de computação demanda; o poder de computação cresce, também torna possível o treinamento em larga escala que originalmente era difícil de alcançar.
Na última onda de boom do aprendizado profundo representado pelo reconhecimento de imagem, os recursos de software de IA da China são comparáveis ao nível mais avançado do mundo; o poder de computação é a dificuldade atual - projetar e fabricar chips requer um acúmulo mais longo, envolvendo uma longa cadeia de suprimentos e barreira de numerosas patentes.
O modelo grande é outro grande progresso na camada de modelo e algoritmo. Não há tempo para ir devagar. As empresas que desejam construir modelos grandes ou fornecer recursos de computação em nuvem para modelos grandes devem obter capacidade de computação avançada o mais rápido possível. A batalha pelas GPUs não vai parar até que a onda anime ou decepcione as primeiras empresas.
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Competindo por ingressos de IA: grandes empresas chinesas competem por GPUs
Source丨Later LatePost
Texto para Zhang Jiahao
No segundo semestre de 2022, enquanto a IA generativa está crescendo, a16z, uma famosa capital de risco do Vale do Silício, visitou dezenas de startups de IA e grandes empresas de tecnologia. Eles descobriram que as startups deram de 80% a 90% de seus fundos de financiamento iniciais para plataformas de computação em nuvem para treinar seus próprios modelos. Eles estimam que, mesmo que os produtos dessas empresas estejam maduros, eles devem dar 10% a 20% de sua receita para empresas de computação em nuvem todos os anos. É equivalente a um "imposto AI".
Isso criou um grande mercado para fornecer recursos de modelo e serviços de treinamento na nuvem e alugar poder de computação para outros clientes e startups. Somente na China, pelo menos dezenas de empresas iniciantes e pequenas e médias empresas estão criando seus próprios modelos complexos de linguagem grande, e todas precisam alugar GPUs de plataformas de computação em nuvem. De acordo com os cálculos da a16z, o gasto anual de computação de IA de uma empresa excede apenas 50 milhões de dólares americanos antes de ter escala suficiente para suportar sua compra em lote de GPUs.
De acordo com o "LatePost", após o Festival da Primavera deste ano, todas as principais empresas de Internet da China com serviços de computação em nuvem fizeram grandes pedidos à Nvidia. A Byte encomendou mais de US$ 1 bilhão em GPUs da Nvidia este ano, e outra grande empresa encomendou pelo menos mais de 1 bilhão de yuans.
A Byte sozinha pode ter feito pedidos este ano perto do número total de GPUs comerciais que a Nvidia vendeu na China no ano passado. Em setembro do ano passado, quando o governo dos EUA emitiu restrições à exportação de A100 e H100 (a mais recente GPU comercial de data center de duas gerações da NVIDIA), a Nvidia respondeu que isso pode afetar seus US$ 400 milhões (cerca de 2,8 bilhões de yuans) no mercado chinês. no quarto trimestre do ano passado. RMB) vendas potenciais. Com base nesse cálculo, as vendas de GPUs de data center da Nvidia na China em 2022 serão de cerca de 10 bilhões de yuans.
Em comparação com gigantes no exterior, as grandes empresas de tecnologia da China são mais urgentes para comprar GPUs. Na redução de custos e aumento de eficiência nos últimos dois anos, algumas plataformas de computação em nuvem reduziram as compras de GPU e têm reservas insuficientes. Além disso, ninguém pode garantir que a GPU de alto desempenho que pode ser comprada hoje estará sujeita a novas restrições amanhã.
Desde o corte de pedidos até a adição de compras, enquanto se move internamente
Antes do início deste ano, a demanda por GPUs das grandes empresas de tecnologia da China era morna.
As GPUs têm dois usos principais nas grandes empresas de tecnologia de Internet da China: uma é para apoiar os negócios internamente e fazer algumas pesquisas de ponta em IA, e a outra é vender GPUs em plataformas de computação em nuvem.
Uma pessoa da Byte disse ao "LatePost" que depois que a OpenAI lançou o GPT-3 em junho de 2020, a Byte treinou um grande modelo de linguagem generativa com bilhões de parâmetros. Naquela época, a GPU usada principalmente era a predecessora da A100. V100. Devido à escala limitada de parâmetros, a capacidade de geração deste modelo é média, e a Byte não conseguiu ver sua possibilidade de comercialização naquele momento, "ROI (retorno do investimento) não pode ser calculado", desta vez a tentativa foi em vão .
Ali também comprou GPUs ativamente em 2018-2019. De acordo com uma fonte de nuvem do Alibaba, as compras de Ali na época atingiram pelo menos dezenas de milhares de yuans, e os modelos comprados eram principalmente V100 e T4 lançados anteriormente pela Nvidia. No entanto, apenas cerca de um décimo dessas GPUs foram doadas à DAMO Academy para pesquisa e desenvolvimento de tecnologia de IA. Após o lançamento do modelo grande de trilhões de parâmetros M6 em 2021, a Dharma Academy divulgou que 480 V100s foram usados para treinar o M6.
Mais das GPUs compradas pelo Alibaba na época foram dadas ao Alibaba Cloud para locação externa. No entanto, incluindo o Alibaba Cloud, um grupo de empresas chinesas de computação em nuvem superestimou a demanda de IA no mercado chinês. Um investidor em tecnologia disse que, antes do surgimento de modelos de grande escala, o poder de computação da GPU nos principais fornecedores domésticos de nuvem não era escasso, mas preocupado com a venda, e os fornecedores de nuvem até tiveram que cortar preços para vender recursos. No ano passado, o Alibaba Cloud cortou os preços seis vezes e os preços de aluguel de GPU caíram mais de 20%.
No contexto de redução de custos e aumento da eficiência e busca de "crescimento de qualidade" e lucros, entende-se que Ali reduziu a escala de aquisição de GPU após 2020, e a Tencent também cortou um único lote de GPUs Nvidia no final do ano passado .
Porém, não muito tempo depois, no início de 2022, o ChatGPT mudou a visão de todos, e rapidamente se chegou a um consenso: um grande modelo é uma grande oportunidade que não se pode perder.
Os fundadores de cada empresa prestaram muita atenção ao progresso do grande modelo pessoalmente: Zhang Yiming, fundador da ByteDance, começou a ler artigos sobre inteligência artificial; Zhang Yong, presidente do conselho de administração do Alibaba, assumiu o Alibaba Cloud e anunciou o progresso do modelo grande do Alibaba no Alibaba Cloud Summit. , software e serviços valem a pena refazer com base nos recursos do modelo grande.”
Uma pessoa da Byte disse que antigamente, ao solicitar a compra de GPUs dentro da Byte, era necessário explicar a relação entrada-saída, prioridade e importância do negócio. Mas agora o negócio modelo em grande escala é um negócio novo no nível estratégico da empresa, e o ROI não pode ser calculado por enquanto, e o investimento deve ser feito.
Desenvolver seus próprios modelos de grande escala de uso geral é apenas o primeiro passo. O objetivo maior de cada empresa é lançar serviços em nuvem que forneçam recursos de modelo de grande escala. Este é um mercado verdadeiramente grande que pode igualar o investimento.
O serviço de nuvem da Microsoft, o Azure, não tem uma presença forte no mercado de computação em nuvem da China, pois atende principalmente os negócios chineses de empresas multinacionais na China há dez anos. Mas agora os clientes precisam esperar na fila porque é o único corretor de nuvem para comercialização da OpenAI.
Na cúpula da nuvem em abril, Ali enfatizou mais uma vez que MaaS (Modelo como serviço) é a tendência futura da computação em nuvem. Além do teste de modelo básico geral aberto e autodesenvolvido "Tongyi Qianwen", também lançou uma série de ajudar clientes na nuvem.Ferramentas para treinamento e uso de grandes modelos. Logo depois, a Tencent e a Byte Volcano Engine também lançaram suas próprias novas versões de serviços de cluster de treinamento. Tencent disse que usando uma nova geração de clusters para treinar um grande modelo com trilhões de parâmetros, o tempo pode ser comprimido para 4 dias; Byte disse que seu novo cluster suporta treinamento de modelos em grande escala no nível Wanka. Dezenas de modelos em grande escala empresas na China, a maioria delas já usando o motor vulcão.
Todas essas plataformas usam GPUs Nvidia A100 e H100, ou versões reduzidas especialmente lançadas da Nvidia de A800 e H800 após a proibição do ano passado. A largura de banda desses dois processadores é de cerca de 3/4 e cerca de metade da versão original, evitando altos critérios de limitação para GPUs de desempenho.
Em torno do H800 e A800, as principais empresas de tecnologia da China iniciaram uma nova rodada de competição de pedidos.
Uma pessoa de um fabricante de nuvem disse que grandes empresas como Byte e Ali negociam principalmente diretamente com a fábrica original da Nvidia para aquisição, e agentes e mercados de segunda mão são difíceis de atender às suas enormes necessidades.
A Nvidia negociará um desconto com base no preço de tabela e na escala de compra. De acordo com o site oficial da Nvidia, o preço do A100 é de US$ 10.000 por peça (cerca de 71.000 yuan) e o preço do H100 é de US$ 36.000 por peça (cerca de 257.000 yuan); entende-se que o preço do A800 e H800 é um pouco menor que a versão original. .
Se uma empresa chinesa pode pegar um cartão depende mais das relações comerciais, como se foi um grande cliente da Nvidia no passado. "Faz diferença se você fala com a Nvidia na China ou vai aos Estados Unidos para falar diretamente com Lao Huang (Huang Renxun, fundador e CEO da Nvidia)", disse uma pessoa de um fornecedor de nuvem.
Algumas empresas também conduzirão "cooperação comercial" com a Nvidia.Ao comprar GPUs de data center populares, elas também compram outros produtos para buscar o fornecimento prioritário. É como a distribuição da Hermès: se você quiser comprar uma bolsa popular, muitas vezes terá que combiná-la com roupas e sapatos no valor de dezenas de milhares de yuans.
Com base nas informações do setor que obtivemos, os novos pedidos da Byte este ano são relativamente agressivos, ultrapassando o nível de US$ 1 bilhão.
Segundo uma pessoa próxima à Nvidia, há um total de 100.000 peças de A100 e H800 que chegaram e não chegaram. Entre eles, o H800 só começou a ser produzido em março deste ano, e essa parte dos chips deve vir de compras adicionais neste ano. Entende-se que com o atual cronograma de produção, alguns H800s não serão entregues até o final deste ano.
A ByteDance começou a construir seu próprio data center em 2017. Data centers costumavam confiar mais em CPUs para todos os cálculos. Até 2020, a Byte gastava mais em CPUs Intel do que em GPUs Nvidia. As mudanças nas compras de bytes também refletem que, nas necessidades de computação das grandes empresas de tecnologia atuais, a computação inteligente está alcançando a computação geral.
Entende-se que uma grande empresa de Internet fez pelo menos um pedido de 10.000 níveis com a Nvidia este ano, com um valor estimado de mais de 1 bilhão de yuans com base no preço de catálogo.
A Tencent saiu na frente ao anunciar que já utilizou o H800.A Tencent Cloud já utilizou o H800 na nova versão de serviços de computação de alto desempenho lançada em março deste ano, afirmando ser este o primeiro lançamento doméstico. Atualmente, esse serviço foi aberto a clientes corporativos para testes de aplicativos, o que é mais rápido do que o progresso da maioria das empresas chinesas.
Entende-se que o Alibaba Cloud também propôs internamente em maio deste ano tomar a "Batalha da Computação Inteligente" como a batalha número um deste ano e estabeleceu três metas: escala de máquina, escala de cliente e escala de receita; entre eles, o importante indicador da escala da máquina é o número de GPUs .
Antes da chegada da nova GPU, as empresas também estão fazendo movimentos internos para dar prioridade ao suporte ao desenvolvimento de modelos grandes.
A forma de liberar mais recursos de uma só vez é cortar algumas direções menos importantes, ou direções onde não há perspectiva clara no curto prazo. “Grandes empresas têm muitos negócios meio mortos que ocupam recursos.” disse um praticante de IA em uma grande empresa de Internet.
Em maio deste ano, o Ali Dharma Institute aboliu o laboratório de direção autônoma: cerca de 1/3 dos mais de 300 funcionários foram designados para a equipe técnica novata e o restante foi demitido. O Dharma Institute não mantém mais o negócio de direção autônoma. O desenvolvimento da direção autônoma também requer GPUs de alto desempenho para treinamento. Esse ajuste pode não estar diretamente relacionado ao modelo grande, mas permitiu que Ali obtivesse um lote de "GPUs gratuitas".
Byte e Meituan compartilham GPUs diretamente da equipe de tecnologia comercial que traz receita de publicidade para a empresa.
De acordo com o "LatePost", logo após o Festival da Primavera deste ano, a Byte distribuiu um lote de A100s que foram originalmente planejados para serem adicionados à equipe de tecnologia de comercialização da Byte para Zhu Wenjia, chefe da tecnologia de produtos TikTok. Zhu Wenjia está liderando a pesquisa e desenvolvimento de modelos de bytes grandes. A equipe técnica de comercialização é o principal departamento de negócios que suporta o algoritmo de recomendação de publicidade Douyin.
A Meituan começou a desenvolver modelos grandes por volta do primeiro trimestre deste ano. Entende-se que a Meituan transferiu recentemente um lote de memória de vídeo 80G versão superior A100 de vários departamentos, priorizando o fornecimento de modelos grandes, para que esses departamentos possam mudar para GPUs com configurações inferiores.
A Bilibili, cujos recursos financeiros são bem menos abundantes do que as grandes plataformas, também tem planos para grandes modelos. Entende-se que a Estação B reservou anteriormente centenas de GPUs. Este ano, por um lado, a Bilibili continua comprando GPUs adicionais e, por outro lado, também está coordenando vários departamentos para distribuir uniformemente os cartões para modelos grandes. "Alguns departamentos dão 10 bilhetes, e alguns departamentos dão 20 bilhetes." Disse uma pessoa próxima à Estação B.
Empresas de Internet como Byte, Meituan e Station B geralmente têm alguns recursos de GPU redundantes nos departamentos técnicos que originalmente suportavam pesquisa e recomendação.
No entanto, o número de GPUs que pode ser obtido por esse método de desmontar o leste e complementar o oeste é limitado, e as grandes GPUs necessárias para treinar grandes modelos ainda precisam contar com o acúmulo anterior de cada empresa e aguardar a chegada de novas GPUs.
O mundo inteiro está lutando pelo poder da computação
A corrida pelas GPUs de data center da Nvidia também está acontecendo em todo o mundo. No entanto, gigantes estrangeiros compraram um grande número de GPUs anteriormente, e o volume de compras é maior, e o investimento nos últimos anos tem sido relativamente contínuo.
Em 2022, Meta e Oracle já investiram pesado no A100. A Meta fez parceria com a Nvidia em janeiro passado para construir o cluster de supercomputação RSC, que contém 16.000 A100s. Em novembro do mesmo ano, a Oracle anunciou a compra de dezenas de milhares de A100 e H100 para construir um novo centro de computação. Agora, o centro de computação implantou mais de 32.700 A100s e novos H100s foram lançados um após o outro.
Desde que a Microsoft investiu pela primeira vez na OpenAI em 2019, ela forneceu dezenas de milhares de GPUs para a OpenAI. Em março deste ano, a Microsoft anunciou que ajudou a OpenAI a construir um novo centro de computação, incluindo dezenas de milhares de A100. Em maio deste ano, o Google lançou o Compute Engine A3, um cluster de computação com 26.000 H100s, atendendo empresas que desejam treinar grandes modelos sozinhas.
As ações atuais e a mentalidade das grandes empresas chinesas são mais urgentes do que as dos gigantes estrangeiros. Tomando o Baidu como exemplo, ele fez dezenas de milhares de novos pedidos de GPU com a Nvidia este ano. A ordem de grandeza é comparável à de empresas como o Google, embora o volume do Baidu seja muito menor: sua receita no ano passado foi de 123,6 bilhões de yuans, apenas 6% do Google.
Entende-se que Byte, Tencent, Ali e Baidu, as quatro empresas de tecnologia chinesas que mais investiram em IA e computação em nuvem, acumularam dezenas de milhares de A100 no passado. Entre eles, o A100 possui o maior número absoluto de bytes. Excluindo novos pedidos este ano, o número total de Byte A100 e seu antecessor V100 é próximo a 100.000.
Entre as empresas em crescimento, a Shangtang também anunciou este ano que um total de 27.000 GPUs foram implantados em seu cluster de computação "AI large device", incluindo 10.000 A100s. Até a Magic Square, uma empresa de investimentos quantitativos que parece não ter nada a ver com IA, comprou 10.000 A100 antes.
Olhando apenas para o número total, essas GPUs parecem ser mais do que suficientes para as empresas treinarem grandes modelos. Segundo o caso do site oficial da Nvidia, a OpenAI usou 10.000 V100s ao treinar o GPT-3 com 175 bilhões de parâmetros. Para treinar o GPT-3 , são necessários 1.024 blocos de A100 para 1 mês de treinamento. Comparado com V100, o A100 apresenta uma melhora de desempenho de 4,3 vezes. No entanto, um grande número de GPUs adquiridos por grandes empresas chinesas no passado deve oferecer suporte a negócios existentes ou ser vendido em plataformas de computação em nuvem e não pode ser usado livremente para desenvolvimento de modelos em grande escala e suporte externo para necessidades de modelos em grande escala dos clientes.
Isso também explica a enorme diferença na estimativa de recursos de computação pelos praticantes chineses de IA. Zhang Yaqin, reitor do Tsinghua Intelligent Industry Research Institute, disse no Tsinghua Forum no final de abril: "Se uma parte do poder de computação da China for adicionada, é equivalente a 500.000 A100 e não há problema em treinar cinco modelos. " Yin Qi, CEO da empresa de IA Megvii Technology, aceitou "Caixin" disse em uma entrevista: Atualmente, a China tem apenas um total de cerca de 40.000 A100s que podem ser usados para treinamento de modelo em grande escala.
Ele reflete principalmente o dispêndio de capital em investimentos em ativos fixos, como chips, servidores e data centers, e pode ilustrar intuitivamente a lacuna de ordem de grandeza nos recursos de computação de grandes empresas chinesas e estrangeiras.
O Baidu, que foi o primeiro a testar produtos semelhantes ao ChatGPT, tem um gasto anual de capital entre US$ 800 milhões e US$ 2 bilhões desde 2020, o de Ali entre US$ 6 bilhões e US$ 8 bilhões e o da Tencent entre US$ 7 bilhões e US$ 11 bilhões . Durante o mesmo período, os gastos anuais de capital da Amazon, Meta, Google e Microsoft, as quatro empresas americanas de tecnologia com data centers autoconstruídos, ultrapassaram pelo menos US$ 15 bilhões.
Durante os três anos da epidemia, as despesas de capital das empresas estrangeiras continuaram a aumentar. As despesas de capital da Amazon no ano passado atingiram 58 bilhões de dólares americanos, Meta e Google são 31,4 bilhões de dólares americanos e a Microsoft está perto de 24 bilhões de dólares americanos. Os investimentos das empresas chinesas estão diminuindo após 2021. As despesas de capital da Tencent e da Baidu caíram mais de 25% ano a ano no ano passado.
Indo mais rápido A OpenAI superou esse desafio. Em meados de maio, o CEO da OpenAI, SamAltman, disse em uma comunicação de pequena escala com um grupo de desenvolvedores que, devido a GPUs insuficientes, o serviço de API atual da OpenAI não é estável o suficiente e a velocidade não é rápida o suficiente. Antes de haver mais GPUs, GPT- 4's multimodal Os recursos não podem ser estendidos a todos os usuários e eles não planejam lançar novos produtos de consumo em um futuro próximo. De acordo com um relatório divulgado pela agência de consultoria técnica TrendForce em junho deste ano, a OpenAI precisa de cerca de 30.000 A100s para otimizar e comercializar continuamente o ChatGPT.
A Microsoft, que tem uma profunda cooperação com a OpenAI, também está enfrentando uma situação semelhante: em maio deste ano, alguns usuários reclamaram que a velocidade de resposta do Novo Bing era lenta, e a Microsoft respondeu que isso acontecia porque a velocidade de reabastecimento da GPU não conseguia acompanhar com a taxa de crescimento do usuário. O Microsoft Office 365 Copilot, que é incorporado com recursos de modelo em grande escala, não está atualmente aberto em grande escala. O número mais recente é que mais de 600 empresas estão experimentando - o número total de usuários do Office 365 em todo o mundo é próximo a 300 milhão.
Se uma grande empresa chinesa não visa apenas treinar e lançar um modelo grande, mas realmente deseja usar o modelo grande para criar produtos que atendam a mais usuários e oferecer suporte adicional a outros clientes para treinar mais modelos grandes na nuvem, eles precisam reserve mais com antecedência Várias GPUs.
**Por que apenas essas quatro cartas? **
Em termos de treinamento de modelos grandes de AI, não há substitutos para A100, H100 e a versão reduzida A800 e H800 especialmente fornecidos para a China. De acordo com o fundo de hedge quantitativo Khaveen Investments, a participação no mercado de GPU de data center da Nvidia chegará a 88% em 2022, e AMD e Intel dividirão o restante.
A insubstituibilidade atual da GPU Nvidia vem do mecanismo de treinamento de grandes modelos. Suas etapas principais são o pré-treinamento e o ajuste fino. O primeiro é estabelecer a base, o que equivale a receber educação geral para se formar na universidade. ; o último é otimizado para cenários e tarefas específicas para melhorar o desempenho do trabalho.
O link de pré-treinamento é particularmente intensivo em computação e tem requisitos extremamente altos no desempenho de uma única GPU e na capacidade de transmissão de dados entre vários cartões.
Agora apenas o A100 e o H100 podem fornecer a eficiência computacional necessária para o pré-treinamento.Eles parecem caros, mas são a opção mais barata. Hoje, a IA ainda está nos estágios iniciais de uso comercial e o custo afeta diretamente a disponibilidade de um serviço.
Alguns modelos no passado, como o VGG16, que pode reconhecer gatos como gatos, tinham apenas 130 milhões de parâmetros. Naquela época, algumas empresas usavam placas gráficas de nível consumidor da série RTX para jogar jogos para executar modelos de IA. A escala de parâmetros do GPT-3 lançada há mais de dois anos atingiu 175 bilhões.
Sob os enormes requisitos de computação de modelos grandes, não é mais viável usar mais GPUs de baixo desempenho para formar o poder de computação. Porque ao usar várias GPUs para treinamento, é necessário transmitir dados e sincronizar informações de parâmetros entre os chips. Nesse momento, algumas GPUs ficarão ociosas e não podem ficar saturadas o tempo todo. Portanto, quanto menor o desempenho de um único cartão, mais cartões são usados e maior é a perda de poder de computação. Quando OpenAI usa 10.000 V100s para treinar GPT-3, a taxa de utilização de energia de computação é inferior a 50%.
A100 e H100 têm alto poder de computação de um único cartão e alta largura de banda para melhorar a transmissão de dados entre os cartões. O FP32 do A100 (referente a codificação de 4 bytes e cálculo de armazenamento) tem um poder de computação de 19,5 TFLOPS (1 TFLOPS significa um trilhão de operações de ponto flutuante por segundo), e o poder de computação FP32 do H100 é de até 134 TFLOPS. Cerca de 4 vezes esse de MI250.
A100 e H100 também fornecem recursos eficientes de transmissão de dados para minimizar o poder de computação ocioso. Os cheats exclusivos da Nvidia são as tecnologias de protocolo de comunicação, como NVLink e NVSwitch, lançadas desde 2014. O NVLink de quarta geração usado no H100 pode aumentar a largura de banda de comunicação bidirecional de GPUs dentro do mesmo servidor para 900 GB/s (900 GB de dados por segundo), que é 7 vezes maior que a última geração de PCle (um ponto -to-point padrão de transmissão serial de alta velocidade) muitos.
No ano passado, os regulamentos do Departamento de Comércio dos EUA sobre a exportação de GPUs também ficaram presos nas duas linhas de poder de computação e largura de banda: o poder de computação da linha superior era de 4800 TOPS e a largura de banda da linha superior era de 600 GB/s.
A800 e H800 têm o mesmo poder de computação da versão original, mas a largura de banda é descontada. A largura de banda do A800 foi reduzida de 600 GB/s do A100 para 400 GB/s. Os parâmetros específicos do H800 não foram divulgados. De acordo com a Bloomberg, sua largura de banda é apenas cerca de metade da do H100 (900 GB/ s). Ao executar a mesma tarefa AI, o H800 levará 10% -30% mais tempo do que o H100. Um engenheiro de IA especulou que o efeito de treinamento do H800 pode não ser tão bom quanto o do A100, mas é mais caro.
Mesmo assim, o desempenho do A800 e do H800 ainda supera produtos similares de outras grandes empresas e startups. Limitados por desempenho e arquiteturas mais dedicadas, os chips de IA ou chips de GPU lançados por várias empresas agora são usados principalmente para raciocínio de IA, o que é difícil para o pré-treinamento de modelos em grande escala. Simplificando, o treinamento de IA é fazer um modelo, o raciocínio de IA é usar o modelo e o treinamento requer um desempenho de chip mais alto.
Além da lacuna de desempenho, o fosso mais profundo da Nvidia é a ecologia de software.
Já em 2006, a Nvidia lançou a plataforma de computação CUDA, que é um mecanismo de software de computação paralela. Os desenvolvedores podem usar CUDA para realizar treinamento e raciocínio de IA com mais eficiência e fazer bom uso do poder de computação da GPU. CUDA tornou-se a infraestrutura de IA hoje, e as principais estruturas, bibliotecas e ferramentas de IA são todas desenvolvidas com base em CUDA.
Se GPUs e chips de IA diferentes da Nvidia quiserem se conectar ao CUDA, eles precisarão fornecer seu próprio software de adaptação, mas apenas parte do desempenho do CUDA, e a iteração de atualização é mais lenta. Estruturas de IA como PyTorch estão tentando quebrar o monopólio ecológico de software da CUDA e fornecer mais recursos de software para suportar GPUs de outros fabricantes, mas isso tem apelo limitado para os desenvolvedores.
Um profissional de IA disse que sua empresa contatou um fabricante de GPU não NVIDIA, que ofereceu preços mais baixos para chips e serviços do que a Nvidia e prometeu fornecer serviços mais oportunos, mas eles julgaram que o treinamento e desenvolvimento geral usando outras GPUs O custo será ser superior ao da Nvidia, e terá que suportar a incerteza dos resultados e levar mais tempo.
"Embora o A100 seja caro, na verdade é o mais barato de usar", disse ele. Para grandes empresas de tecnologia e startups líderes que pretendem aproveitar a oportunidade de grandes modelos, o dinheiro muitas vezes não é um problema e o tempo é um recurso mais precioso.
No curto prazo, a única coisa que afeta as vendas de GPU de data center da Nvidia pode ser a capacidade de produção da TSMC.
O H100/800 é um processo de 4 nm, e o A100/800 é um processo de 7 nm. Esses quatro chips são todos produzidos pela TSMC. De acordo com relatos da mídia chinesa de Taiwan, a Nvidia adicionou 10.000 novos pedidos de GPU de data center à TSMC este ano e fez um pedido super urgente, que pode reduzir o tempo de produção em até 50%. Normalmente, a TSMC levaria vários meses para produzir o A100. O atual gargalo da produção se deve principalmente à capacidade insuficiente de produção de embalagens avançadas, com uma lacuna de 10 a 20 por cento, que levará de 3 a 6 meses para aumentar gradualmente.
Desde que GPUs adequadas para computação paralela foram introduzidas no aprendizado profundo, por mais de dez anos, a força motriz do desenvolvimento de IA tem sido hardware e software, e a sobreposição de poder de computação de GPU e modelos e algoritmos avançou: o desenvolvimento de modelos impulsiona o poder de computação demanda; o poder de computação cresce, também torna possível o treinamento em larga escala que originalmente era difícil de alcançar.
Na última onda de boom do aprendizado profundo representado pelo reconhecimento de imagem, os recursos de software de IA da China são comparáveis ao nível mais avançado do mundo; o poder de computação é a dificuldade atual - projetar e fabricar chips requer um acúmulo mais longo, envolvendo uma longa cadeia de suprimentos e barreira de numerosas patentes.
O modelo grande é outro grande progresso na camada de modelo e algoritmo. Não há tempo para ir devagar. As empresas que desejam construir modelos grandes ou fornecer recursos de computação em nuvem para modelos grandes devem obter capacidade de computação avançada o mais rápido possível. A batalha pelas GPUs não vai parar até que a onda anime ou decepcione as primeiras empresas.