刷到一个公司Taalas,一家Al芯片公司,团队只有二十多人,却已经融资超过2亿美元。


首款产品HC1走了一条极端路线:用Mask ROM工艺把Llama3.18B的权重直接固化在硅片金属层里,计算单元和模型参数在同一块硅上,几乎放弃可编程性,换来吞吐,延迟和能效的极限优化。
现在他们固化的是Llama3.18B,体验了下,回答问题不靠谱,很不稳。
但问题在于它快得离谱,体验上非常反直觉,能把Groq碾成渣渣,单芯片17,000tokens/s的输出能力,眨个眼的功夫干出来几万字,这个比数据库查询能力都牛逼。
如果未来的大模型真的只剩几家头部在迭代,模型结构逐渐稳定,权重更新频率放缓,那么给某一个确定模型单独做一颗芯片,可能一点都不疯狂。
我们现在默认模型会一直剧烈变化,所以算力必须通用。
但如果模型开始趋于标准化呢?
把权重刻进硅片里,然后用极致专用架构换吞吐,把成本直接干下来。
现在看模型格局开始集中化,头部模型的结构变化一旦稳下来,那确实值得有一条围绕自己结构设计的专用芯片线。
那这条路线的爆发力,可能会非常夸张。
如果是这样的话,有一个反共识的疑问, GPU形态真的会是永远的终局吗?
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)