Descobri uma empresa chamada Taalas, uma startup de chips de IA, com uma equipa de apenas mais de vinte pessoas, que já levantou mais de 200 milhões de dólares em financiamento.
O seu primeiro produto, o HC1, seguiu uma abordagem extrema: usando tecnologia Mask ROM para fixar diretamente os pesos do Llama3.18B na camada metálica do chip, colocando a unidade de cálculo e os parâmetros do modelo na mesma peça de silício, quase abandonando a programabilidade, para alcançar limites máximos de throughput, latência e eficiência energética. Atualmente, eles fixaram o Llama3.18B; após experimentar, percebem que as respostas não são confiáveis e o sistema é pouco estável. Mas o que impressiona é a sua velocidade absurda, uma experiência muito contraintuitiva, capaz de esmagar a Groq, com uma capacidade de saída de 17.000 tokens por segundo num único chip, produzindo dezenas de milhares de palavras num piscar de olhos — uma performance até superior à de consultas a bases de dados. Se no futuro os grandes modelos realmente ficarem apenas nas mãos de algumas empresas líderes que continuam a iterar, com estruturas de modelos a estabilizarem-se gradualmente e a frequência de atualização dos pesos a diminuir, então criar um chip dedicado para um modelo específico pode não ser nada de loucura. Atualmente, assumimos que os modelos vão continuar a evoluir intensamente, por isso a capacidade de cálculo deve ser universal. Mas e se os modelos começarem a padronizar-se? Fixar os pesos no silício e usar arquiteturas altamente especializadas para maximizar o throughput, reduzindo os custos ao máximo. Agora, parece que o mercado de modelos está a concentrar-se; se a estrutura dos principais modelos estabilizar, vale a pena desenvolver uma linha de chips dedicados ao seu design específico. O potencial de explosão dessa abordagem pode ser realmente impressionante. Se for assim, surge uma dúvida contra o consenso: será que a forma de GPU será realmente o fim de toda a evolução?
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Descobri uma empresa chamada Taalas, uma startup de chips de IA, com uma equipa de apenas mais de vinte pessoas, que já levantou mais de 200 milhões de dólares em financiamento.
O seu primeiro produto, o HC1, seguiu uma abordagem extrema: usando tecnologia Mask ROM para fixar diretamente os pesos do Llama3.18B na camada metálica do chip, colocando a unidade de cálculo e os parâmetros do modelo na mesma peça de silício, quase abandonando a programabilidade, para alcançar limites máximos de throughput, latência e eficiência energética.
Atualmente, eles fixaram o Llama3.18B; após experimentar, percebem que as respostas não são confiáveis e o sistema é pouco estável.
Mas o que impressiona é a sua velocidade absurda, uma experiência muito contraintuitiva, capaz de esmagar a Groq, com uma capacidade de saída de 17.000 tokens por segundo num único chip, produzindo dezenas de milhares de palavras num piscar de olhos — uma performance até superior à de consultas a bases de dados.
Se no futuro os grandes modelos realmente ficarem apenas nas mãos de algumas empresas líderes que continuam a iterar, com estruturas de modelos a estabilizarem-se gradualmente e a frequência de atualização dos pesos a diminuir, então criar um chip dedicado para um modelo específico pode não ser nada de loucura.
Atualmente, assumimos que os modelos vão continuar a evoluir intensamente, por isso a capacidade de cálculo deve ser universal.
Mas e se os modelos começarem a padronizar-se?
Fixar os pesos no silício e usar arquiteturas altamente especializadas para maximizar o throughput, reduzindo os custos ao máximo.
Agora, parece que o mercado de modelos está a concentrar-se; se a estrutura dos principais modelos estabilizar, vale a pena desenvolver uma linha de chips dedicados ao seu design específico.
O potencial de explosão dessa abordagem pode ser realmente impressionante.
Se for assim, surge uma dúvida contra o consenso: será que a forma de GPU será realmente o fim de toda a evolução?