DeepSeek R1 AI 測試：英偉達 Blackwell 每兆瓦吞吐量是 Hopper 的 50 倍

2026-02-21 23:07:20

IT之家2月18日消息，英偉達於2月16日發布博文，宣布其Blackwell Ultra AI架構(GB300NVL72)在能效與成本上實現顯著突破，通過DeepSeek-R1模型測試，相比前代Hopper GPU，其每兆瓦吞吐量提升50倍，百萬tokens成本降低至35分之一。

此外，英偉達還預告了下一代Rubin平台，預計其每兆瓦吞吐量將比Blackwell再提升10倍，進一步推動AI基礎設施的演進。

IT之家註：每兆瓦吞吐量(Tokens/Watt)是衡量AI晶片能效比的核心指標，指每消耗一瓦特電力能處理多少Token(文本單位)。數值越高，代表能效越好，運營成本越低。

英偉達在博文中指出，性能飛躍的關鍵，是升級技術架構。Blackwell Ultra通過NVLink技術，將72個GPU連接成統一的計算單元，互聯帶寬高達130TB/s，遠超Hopper時代的8芯片設計。此外，全新的NVFP4精度格式配合極致的協同設計結構，進一步鞏固了其在吞吐性能上的統治地位。

AI推理成本方面，相比Hopper架構，新平台將每百萬Token的成本削減至35分之一；即便與上一代Blackwell(GB200)相比，GB300在長上下文任務中的Token成本也降低至1.5分之一，注意力機制處理速度翻倍，適配程式庫維護等高負載場景。

OpenRouter的《推理狀態報告》指出，與軟體編程相關的AI查詢量在過去一年中激增，佔比從11%攀升至約50%。這類應用通常需要AI代理在多步工作流程中保持即時回應，並具備跨程式庫推理的長上下文處理能力。

英偉達為應對這一挑戰，通過TensorRT-LLM、Dynamo等團隊的持續優化，進一步提升了混合專家模型(MoE)的推理吞吐量。例如，TensorRT-LLM庫的改進，讓GB200在低延遲工作負載上的性能在短短四個月內提升了5倍。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言

熱門話題