J’ai découvert une entreprise appelée Taalas, une société de puces AI, dont l’équipe ne compte qu’une vingtaine de personnes mais qui a déjà levé plus de 200 millions de dollars.


Leur premier produit, le HC1, a emprunté une voie extrême : utiliser une technologie Mask ROM pour fixer directement les poids de Llama3.18B dans la couche métallique de la puce, avec l’unité de calcul et les paramètres du modèle sur la même puce, abandonnant presque la programmabilité pour optimiser au maximum le débit, la latence et l’efficacité énergétique.
Actuellement, ils ont fixé Llama3.18B, et après l’avoir testé, la réponse aux questions est peu fiable, très instable.
Mais le problème, c’est qu’il est incroyablement rapide, une expérience très contre-intuitive, capable de surpasser Groq, avec une capacité de sortie de 17 000 tokens/s sur une seule puce, produisant des dizaines de milliers de mots en un clin d’œil — c’est même plus impressionnant qu’une requête de base de données.
Si à l’avenir, les grands modèles ne sont plus que quelques acteurs en compétition, avec une structure de modèle qui se stabilise progressivement et une fréquence de mise à jour des poids qui ralentit, alors fabriquer une puce dédiée à un modèle précis ne serait pas du tout une folie.
Nous supposons actuellement que les modèles continueront à évoluer fortement, donc la puissance de calcul doit être universelle.
Mais si les modèles commencent à se standardiser ?
Graver les poids dans la puce, puis utiliser une architecture ultra spécialisée pour maximiser le débit, en réduisant les coûts.
On voit actuellement que la configuration des modèles commence à se concentrer, et si la stabilité de la structure des modèles de pointe s’installe, il serait vraiment pertinent de développer une ligne de puces dédiée à leur architecture.
Le potentiel de cette voie pourrait être extrêmement explosif.
Dans ce cas, une question contre la croyance commune : la forme GPU sera-t-elle vraiment la fin de l’évolution ?
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)