ある企業Taalasに出会った。AIチップを手掛ける会社で、チームはわずか20人程度なのに、すでに2億ドルを超える資金調達を成功させている。最初の製品HC1は極端な道を歩んだ。Mask ROM技術を用いてLlama3.18Bの重みを直接シリコンの金属層に固化し、演算ユニットとモデルパラメータを同じシリコン上に配置し、ほぼプログラム可能性を放棄して、スループット、遅延、エネルギー効率の極限まで最適化した。今彼らが固化しているのはLlama3.18Bで、試してみたところ、回答の信頼性が低く、安定性に欠ける。だが問題は、その速度が桁外れに速いことだ。体験的に非常に直感に反し、Groqを圧倒できる。単一チップで17,000トークン/秒の出力能力を持ち、瞬く間に数万字を生成できる。この能力はデータベースのクエリ能力を凌駕している。もし将来の大規模モデルが本当に数社だけが進化を続け、モデル構造が徐々に安定し、重みの更新頻度が遅くなるなら、特定のモデル専用のチップを一つ作ることは決して狂気ではないだろう。今の私たちは、モデルが常に激しく変化し続けると想定しているため、汎用的な計算能力が必要だ。しかし、もしモデルが標準化に向かい始めたらどうだろうか。重みをシリコンに刻み込み、極めて専用のアーキテクチャでスループットを向上させ、コストを直接抑える。今やモデルの格局が集中化しつつあり、主要なモデルの構造変化が安定すれば、自分の構造に合わせた専用チップを設計するラインは十分に価値がある。そうなれば、その道の爆発力は非常に巨大になる可能性がある。もしそうなら、逆説的な疑問も浮かぶ。GPUの形態が永遠の終局となるのだろうか。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン