Recentemente, o novo favorito de chips de IA que submeteu IPO, Cerebras, conquistou o Vale do Silício.


Seu chip, em cenários de modelos pequenos, atinge uma velocidade de inferência até 20 vezes superior à do H100; enquanto para modelos de escala ultra grande (como 400 bilhões de parâmetros), a velocidade de resposta de um sistema Cerebras CS-3 para um usuário é aproximadamente 2,4 vezes maior que a do B200.
Então, como exatamente a Cerebras conseguiu isso?
Ela se tornará uma ameaça à Nvidia?
Devemos começar pela essência da evolução do poder de computação.
A evolução do poder de IA está mudando de “poder de computação em si” para “comunicação e estrutura do sistema”.
Neste caminho de evolução, a Cerebras Systems oferece uma resposta completamente diferente: não otimizar a distribuição, mas eliminar ao máximo a necessidade de distribuição.
I. Duas rotas: eliminar comunicação vs otimizar comunicação
Atualmente, a essência do poder de IA divide-se em duas filosofias arquiteturais: uma liderada pela Nvidia:
Multi-chip (GPU), interconexão de alta velocidade (NVLink / CPO), escalabilidade horizontal (scale-out)
Outra é a rota da Cerebras: alcançar o limite com um único chip (escala de wafer)
Rede interna no chip substitui comunicação entre nós, escalabilidade vertical (scale-up)
A principal diferença é: uma resolve “como conectar mais chips”, a outra resolve “como não precisar conectar”.
II. Por que essa abordagem só agora se tornou viável
Escala de wafer não é um conceito novo; nos anos 80, alguém tentou, mas fracassou na comercialização nos anos 90.
Razões:
Taxa de fabricação insuficiente
Ausência de mecanismos de tolerância a falhas
Software incapaz de suportar
A indústria, portanto, formou um consenso: die pequeno + alta taxa de fabricação + distribuição.
A inovação da Cerebras reside em três fatores que acontecem simultaneamente:
1) Engenharia de mecanismos de tolerância a falhas
2) Rede no chip madura
3) Compatibilidade com cargas de trabalho de IA (alta paralelização, forte sincronismo, comunicação dominante)
A mudança essencial é: de “hardware perfeito” para “sistema tolerante a falhas”.
III. Comparação de desempenho: limite de ponto único vs expansão do sistema
Na camada de comunicação, as duas rotas têm vantagens e desvantagens muito claras:
1) Comunicação interna no chip
Cerebras: totalmente intra-chip → menor latência, menor consumo de energia
CPO: ainda há conversão óptico-elétrica → eficiência de ponto único: Cerebras é melhor
2) Expansão do sistema
Cerebras: uma vez que atravessa chips → volta ao problema de comunicação
CPO: largura de banda pode ser expandida de forma sustentável → capacidade do sistema: CPO é melhor
3) Estrutura de consumo de energia
Cerebras: consumo de energia extremamente alto por máquina, mas comunicação muito eficiente
GPU + CPO: consumo de energia controlado por ponto, eficiência do sistema mais equilibrada
A conclusão é clara:
Cerebras vence no “limite de máquina única”,
CPO vence na “escala do sistema”.
IV. Cenários de aplicação: quem deve usar Cerebras
Os critérios de avaliação podem ser simplificados em três perguntas:
1) A comunicação é um gargalo?
2) A tarefa pode ser centralizada?
3) A estrutura é regular?
Portanto, é altamente adequado para treinamento de modelos grandes (modelos densos), contextos de longo alcance, e parte de HPC (PDE, fluidos, etc.)
Essas tarefas têm em comum: forte acoplamento + alta sincronização + alta largura de banda.
Também é parcialmente útil para inferência de modelos grandes (baixa concorrência), cálculo de grafos (vantagens diminuem quando a estrutura é complexa).
Não é adequado para CPU (cálculo geral), inferência de alta concorrência, chips móveis/edge, sistemas em tempo real.
As características comuns desses sistemas: estruturas irregulares / alta concorrência / baixa latência.
V. Tornar-se uma tendência principal?
Embora a Cerebras seja extremamente forte em cenários específicos, ela não se tornará a principal, pelos motivos:
1) Restrições físicas: densidade de potência; atraso de sinal → mecanismos de tolerância a falhas não resolvem esses problemas
2) Economia: taxa de fabricação de die pequeno é maior; chiplet é mais flexível
3) Caminho da indústria: TSMC e outros focam em modularidade, reutilização por múltiplos clientes, não em monólitos ultra grandes
4) Mudanças na demanda: inferência representa uma proporção muito maior que treinamento; multitarefa e alta concorrência se tornam a norma
VI. O significado da Cerebras
Ao invés de a dimensão do wafer ser uma tendência importante, é mais preciso dizer que o design tolerante a falhas será amplamente adotado como filosofia.
No futuro, podem surgir tolerância a falhas em nível de chiplet, e soluções de encapsulamento de nível de roteamento.
A mudança central é que o hardware individual não precisa mais ser perfeito; o sistema é responsável por garantir a operação.
Voltando à questão inicial: a Cerebras se tornará uma “matadora” da Nvidia?
A resposta já está bastante clara.
Ela realmente atingiu uma fraqueza do sistema GPU — a comunicação.
Mas a escolha da indústria não é uma questão de “ou isto ou aquilo”, mas de múltiplos avanços tecnológicos sendo adotados simultaneamente: conexões mais fortes, menor consumo de energia na comunicação, maior eficiência em nível de sistema.
Portanto, uma avaliação mais precisa é que a Cerebras não é uma ameaça à Nvidia, mas uma prática recomendada que Nvidia e todas as empresas de chips podem aprender.
Aviso legal: Eu possuo ativos mencionados neste artigo; minhas opiniões podem ser tendenciosas.
Não é uma recomendação de investimento. Investir envolve riscos enormes; deve-se proceder com extrema cautela.
(Imagem: um chip Cerebras)
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar