廣場
最新
熱門
新聞
我的主頁
發布
Mohamed Ali junior
2026-03-07 21:01:10
關注
🚨 突發:OpenAI 發布了一篇文章,證明 ChatGPT 總是會捏造事實。
不是有時候。不是等下一次更新。是永遠。他們用數學證明了這一點。
即使擁有完美的訓練數據和無限的計算能力,AI 模型仍然會自信滿滿地告訴你一些完全錯誤的事情。這不是他們正在修復的漏洞。這揭示了這些系統在根本層面上的運作方式。
而他們自己的數據也非常殘酷。OpenAI 的推理模型 o1 在 16% 的情況下會產生幻覺。它們的新模型 O3?33%。它們的新 o4-mini?48%。他們最新模型提供的資訊中,幾乎一半可能是捏造的。所謂的“更智能”模型,實際上在說真相方面越來越差。
這就是為什麼這無法修正的原因。語言模型的運作原理是根據概率預測下一個詞。當遇到不確定的情況時,它們不會停止,也不會提示。它們會假設,並且以絕對的信心進行推測,因為這正是它們被訓練的目的。
研究人員分析了用來衡量這些模型質量的十大人工智慧標準。十個標準中,有九個對“我不知道”與給出完全錯誤答案的評分相同:零分。整個測試系統字面上是在懲罰誠實,獎勵猜測。
因此,AI 學會了最佳策略:永遠猜測。永不承認不確定。即使在捏造時也看起來很有信心。
OpenAI 提出的解決方案是什麼?讓 ChatGPT 在不確定時說“我不知道”。他們的數據顯示,這將意味著約 30% 的問題沒有答案。想像一下,三成的提問都會得到“我不夠有信心回答”的回應。用戶會在夜裡離開。修正方案存在,但會毀掉這個產品。
這不僅僅是 OpenAI 的問題。DeepMind 和清華大學也獨立得出了相同的結論。世界上三大頂尖的 AI 實驗室,分別獨立工作,皆一致認為:這是永久性的。
每次 ChatGPT 給你答案時,問問自己:這是真的,還是僅僅是自信的假設?
這是 Come-from-Beyond 👇 的回應:
他們開始理解為什麼
#QUBIC
#Aigarth
.* 將“說‘我不知道’”的能力放在核心關注點上
$QUBIC
QUBIC
15%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
2人按讚了這條動態
讚賞
2
留言
轉發
分享
留言
0/400
留言
暫無留言
熱門話題
查看更多
#
國際油價突破100美元
11.29萬 熱度
#
比特幣重回跌勢
9747.19萬 熱度
#
哈梅內伊之子當選伊朗領袖
61.84萬 熱度
#
全球股市普遍下跌
112.99萬 熱度
#
Gate藍龍蝦
1.73萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
BTCSHİTCOİN
BTCSHİTCOİN
市值:
$2410.34
持有人數:
1
0.00%
2
1000
BTC SHİTCOİN
市值:
$2400
持有人數:
1
0.00%
3
111111111111
AOT
市值:
$0.1
持有人數:
1
0.00%
4
BN
波妞
市值:
$2440.47
持有人數:
2
0.07%
5
NLC
nolimits
市值:
$0.1
持有人數:
1
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
🚨 突發:OpenAI 發布了一篇文章,證明 ChatGPT 總是會捏造事實。
不是有時候。不是等下一次更新。是永遠。他們用數學證明了這一點。
即使擁有完美的訓練數據和無限的計算能力,AI 模型仍然會自信滿滿地告訴你一些完全錯誤的事情。這不是他們正在修復的漏洞。這揭示了這些系統在根本層面上的運作方式。
而他們自己的數據也非常殘酷。OpenAI 的推理模型 o1 在 16% 的情況下會產生幻覺。它們的新模型 O3?33%。它們的新 o4-mini?48%。他們最新模型提供的資訊中,幾乎一半可能是捏造的。所謂的“更智能”模型,實際上在說真相方面越來越差。
這就是為什麼這無法修正的原因。語言模型的運作原理是根據概率預測下一個詞。當遇到不確定的情況時,它們不會停止,也不會提示。它們會假設,並且以絕對的信心進行推測,因為這正是它們被訓練的目的。
研究人員分析了用來衡量這些模型質量的十大人工智慧標準。十個標準中,有九個對“我不知道”與給出完全錯誤答案的評分相同:零分。整個測試系統字面上是在懲罰誠實,獎勵猜測。
因此,AI 學會了最佳策略:永遠猜測。永不承認不確定。即使在捏造時也看起來很有信心。
OpenAI 提出的解決方案是什麼?讓 ChatGPT 在不確定時說“我不知道”。他們的數據顯示,這將意味著約 30% 的問題沒有答案。想像一下,三成的提問都會得到“我不夠有信心回答”的回應。用戶會在夜裡離開。修正方案存在,但會毀掉這個產品。
這不僅僅是 OpenAI 的問題。DeepMind 和清華大學也獨立得出了相同的結論。世界上三大頂尖的 AI 實驗室,分別獨立工作,皆一致認為:這是永久性的。
每次 ChatGPT 給你答案時,問問自己:這是真的,還是僅僅是自信的假設?
這是 Come-from-Beyond 👇 的回應:
他們開始理解為什麼
#QUBIC #Aigarth .* 將“說‘我不知道’”的能力放在核心關注點上
$QUBIC