DeepSeek R1 AI 測試:英偉達 Blackwell 每兆瓦吞吐量是 Hopper 的 50 倍

IT之家2月18日消息,英偉達於2月16日發布博文,宣布其Blackwell Ultra AI架構(GB300NVL72)在能效與成本上實現顯著突破,通過DeepSeek-R1模型測試,相比前代Hopper GPU,其每兆瓦吞吐量提升50倍,百萬tokens成本降低至35分之一。

此外,英偉達還預告了下一代Rubin平台,預計其每兆瓦吞吐量將比Blackwell再提升10倍,進一步推動AI基礎設施的演進。

IT之家註:每兆瓦吞吐量(Tokens/Watt)是衡量AI晶片能效比的核心指標,指每消耗一瓦特電力能處理多少Token(文本單位)。數值越高,代表能效越好,運營成本越低。

英偉達在博文中指出,性能飛躍的關鍵,是升級技術架構。Blackwell Ultra通過NVLink技術,將72個GPU連接成統一的計算單元,互聯帶寬高達130TB/s,遠超Hopper時代的8芯片設計。此外,全新的NVFP4精度格式配合極致的協同設計結構,進一步鞏固了其在吞吐性能上的統治地位。

AI推理成本方面,相比Hopper架構,新平台將每百萬Token的成本削減至35分之一;即便與上一代Blackwell(GB200)相比,GB300在長上下文任務中的Token成本也降低至1.5分之一,注意力機制處理速度翻倍,適配程式庫維護等高負載場景。

OpenRouter的《推理狀態報告》指出,與軟體編程相關的AI查詢量在過去一年中激增,佔比從11%攀升至約50%。這類應用通常需要AI代理在多步工作流程中保持即時回應,並具備跨程式庫推理的長上下文處理能力。

英偉達為應對這一挑戰,通過TensorRT-LLM、Dynamo等團隊的持續優化,進一步提升了混合專家模型(MoE)的推理吞吐量。例如,TensorRT-LLM庫的改進,讓GB200在低延遲工作負載上的性能在短短四個月內提升了5倍。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)