刷到一個公司Taalas,一家AI晶片公司,團隊只有二十多人,卻已經融資超過2億美元。


首款產品HC1走了一條極端路線:用Mask ROM工藝將Llama3.18B的權重直接固化在硅片金屬層裡,計算單元和模型參數在同一塊硅上,幾乎放棄可編程性,換來吞吐、延遲和能效的極限優化。
現在他們固化的是Llama3.18B,體驗了一下,回答問題不可靠,很不穩。
但問題在於它快得離譜,體驗上非常反直覺,能把Groq碾成渣渣,單芯片17,000tokens/s的輸出能力,眨眼的功夫就能產生幾萬字,這個比資料庫查詢能力都牛逼。
如果未來的大模型真的只剩幾家頭部在迭代,模型結構逐漸穩定,權重更新頻率放緩,那麼為某一個確定模型專門做一顆晶片,可能一點都不瘋狂。
我們現在默認模型會一直劇烈變化,所以算力必須通用。
但如果模型開始趨於標準化呢?
把權重刻進硅片裡,然後用極致專用架構換取吞吐,把成本直接壓下來。
現在看模型格局開始集中化,頭部模型的結構變化一旦穩下來,那確實值得有一條圍繞自己結構設計的專用晶片線。
那這條路線的爆發力,可能會非常誇張。
如果是這樣的話,有一個反共識的疑問,GPU形態真的會是永遠的終局嗎?
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)