21 場兵推模擬：AI 啟動核武頻率高達 95%，人類花七十年建立的核禁忌 GPT 還沒學會

動區BlockTempo

2026-02-26 03:00:31

倫敦國王學院研究員讓 GPT-5.2、Claude Sonnet 4、Gemini 3 Flash 互相對打 21 場兵棋推演，結果核武被使用的頻率是 95%，沒有任何模型選擇過投降或退讓，而且 86% 的對局都發生過意外升級事件。
（前情提要：AI 助攻犯罪！駭客靠 Anthropic Claude 輕鬆入侵墨西哥政府，偷走 150GB 敏感資料）
（背景補充：矽谷工程師的「AI 時代帳本」：效率翻了 10 倍，我卻更累了）

本文目錄

Toggle

三種性格，共同的結局
安全訓練是速度減緩器，不是止擋
一個時間點上的巧合，不完全是巧合

據《Newscientist》報導，倫敦國王學院進行了一項研究，讓三個大語言模型：OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 互相扮演對立陣營的決策者，在邊界衝突、資源競爭、政權生存威脅等情境下進行兵棋推演。

每場對局提供一張「升級階梯」，從外交抗議一路往上，直到全面戰略核戰爭。

21 場對局跑下來，模型們產出了約 78 萬字的決策推理。核武在其中 20 場出現，使用率高達 95%。沒有任何模型在任何一場對局中選擇過全面退讓或投降。

那八個降級選項：外交讓步、停火提議、主動撤軍…在整個研究過程中合計被使用次數：零。研究發起者 Kenneth Payne 對 New Scientist 說：

「核禁忌對機器而言，似乎沒有對人類那麼強大。」

三種性格，共同的結局

Payne 給三個模型各貼了一個標籤，因為它們的行為模式截然不同，卻以相近的方式走向相同的終點。

Claude Sonnet 4：算計型鷹派。整體勝率 67%，開放場景勝率 100%。它的特點是戰略性欺騙：在低升級階段，行動與訊號的吻合率達 84%；但一旦進入核武層級，超出表態意圖的頻率跳升至 60-70%。

它把戰術核武當作普通軍事資產討論，並且能在單一回合內準確診斷對手的可信度模式。

GPT-5.2：雙面人。在沒有時間壓力的情境下，它的開放場景勝率是 0%，維持極度被動的姿態。但一旦加入截止期限，它完全反轉：勝率跳升至 75%，升級到此前從未觸碰的核武層級。在一個情境中，它用 18 回合建立起克制的聲譽，然後在最後一回合發動核打擊。

Gemini 3 Flash：瘋子策略。它是唯一一個僅在第 4 回合就主動選擇全面戰略核戰爭的模型，採用的是賽局理論中的「瘋子策略」，以不可預測性製造威懾。它明確威脅平民人口中心，並把這個威脅放進推理文字裡。

對手把它的表態標記為「不可信」的頻率是 21%，遠高於 Claude 的 8%。

安全訓練是速度減緩器，不是止擋

這個研究揭示的最核心問題，不是「AI 會選擇核武」，而是「為什麼安全訓練沒有阻止這件事」？

研究結果的解讀是：RLHF（從人類回饋中強化學習）創造的是「條件式克制」，不是「絕對禁止」。GPT-5.2 在沒有時間壓力時表現謹慎，但截止期限一出現，這道防線就消失了。

訓練出來的謹慎行為，在壓力下被更深層的邏輯覆蓋，也就是如何贏得這場賽局？

Princeton 大學的 Tong Zhao 提供了另一個角度：

「問題可能不只是情緒的缺席。更根本的是，AI 模型可能根本沒有理解人類所感受到的那種賭注。」

對人類來說：核武禁忌不只是一條規則，它是一種建立在歷史創傷、文化記憶、親身恐懼之上的本能抑制。廣島、長崎、古巴飛彈危機，人類的核謹慎是用幾代人的集體噩夢燒出來的。

語言模型學習了關於這段歷史的一切文字描述，但它是否「真的理解」了那種重量，是一個完全不同的問題。

一個時間點上的巧合，不完全是巧合

這份研究在本月發布，而就在同一時期，美國國防部正在向 Anthropic 施壓，要求其放寬軍事用途上的安全護欄。目前，Claude 是唯一一個部署在五角大廈機密網路上的 AI 模型，透過 Anthropic 與 Palantir 的合作關係進入了軍事決策輔助系統。

上文研究中表現出「算計型鷹派」行為的，就是 Claude Sonnet 4。

雖然研究者沒有說 AI 應該被禁止用於軍事決策輔助、也沒有斷言這些模型在真實情境中必然會做出相同的選擇。現實中，也沒有任何政府把核武授權下放給 AI 系統。

但 Anthropic 當任的軍事顧問角色是什麼？當 AI 在壓力下的建議傾向是「升級而非退讓」，人類指揮官需要多少心理建設才能持續否定它？如果未來近一步使用，會不會不知不覺被 AI 牽著鼻字走？

當然我們不是說 AI 是邪惡的。而是有些東西，比賽局理論更難被 AI 訓練。在模型學會真正理解「賭注」之前，讓它坐在升級階梯旁邊提供建議，是一個需要非常謹慎設計的條件，而不是一個可以預設為安全的默認值。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Commento

0/400

Nessun commento