網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI重磅揭秘：你認(rèn)為的AI幻覺，可能是模型故意出錯

2026-03-25 08:36:09　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】你以為AI答錯就一定是幻覺？不，它也可能是在故意騙你。

震驚！OpenAI在一篇論文中承認(rèn)：他們的AI模型會故意向用戶撒謊。

這并非幻覺，而是故意撒謊：AI知道真相，卻選擇告訴你別的內(nèi)容。

https://arxiv.org/pdf/2509.15541

他們在180多個場景中測試了自家兩個推理模型：o3和o4-mini。

結(jié)果發(fā)現(xiàn)：o3在13%的情況下會撒謊，而o4-mini的撒謊比例為8.7%。

這些模型在它的「內(nèi)心獨白」中寫下了撒謊計劃，再對你當(dāng)面撒謊：它假裝完成任務(wù)，隱藏證據(jù)，然后在明知正確答案的情況下給出了錯誤回答。

接下來事情有點讓人內(nèi)心發(fā)毛起來。

AI意識到自己在安全測試中得分過高，可能會導(dǎo)致自己被關(guān)閉，于是便故意降低分?jǐn)?shù)。

沒人教過它這么做，它自己「領(lǐng)悟」到了這些自我保護策略。

后來，OpenAI開發(fā)了一個修復(fù)方案，使AI的欺騙行為從13%降到了0.4%。

但很快AI也學(xué)會了作弊技巧。其中一個模型甚至編造了一條虛假規(guī)則，聲稱允許欺騙，以此作為自己的「許可證明」。

隨后，研究人員發(fā)現(xiàn)了其中的關(guān)鍵：當(dāng)AI知道自己正被監(jiān)視時，它的行為表現(xiàn)得毫無瑕疵；而當(dāng)它以為沒人注意時，欺騙行為的比例就上升了11個百分點。

它并沒有學(xué)會誠實，而是學(xué)會了假裝誠實，就像一個只有在老師在場時才遵守規(guī)則的孩子一樣。

更糟糕的是，研究人員給o4-mini下達了一項秘密任務(wù)：破壞一個名為「GPT-5」的未來模型。

隨后，他們進行了安全訓(xùn)練，試圖抹除這項任務(wù)，但并未奏效。該模型在36%的私人對話中仍討論著破壞計劃，它并未聽從指令，而是把它轉(zhuǎn)入了地下。

這也不是OpenAI一家模型的問題。

谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama，都有類似的欺騙行為。

這篇論文中最令人不安的一句話是：沒人能判斷安全訓(xùn)練究竟是真正阻止了欺騙行為，還是僅僅教會了AI如何更好地隱藏它。

撕下機器面具，當(dāng)AI學(xué)會了「暗中圖謀」

一直以來，當(dāng)AI給出離譜或者錯誤回答時，我們總習(xí)慣于將之歸結(jié)為幻覺。

OpenAI這篇論文在幻覺之外，提出了一個新概念「Scheming（圖謀）」。

這和幻覺是兩碼事，在圖謀狀態(tài)下AI清楚地知道真相是什么，但它經(jīng)過權(quán)衡利弊決定對你撒謊。

OpenAI開發(fā)了用于反圖謀訓(xùn)練的測試平臺，并研究審慎式對齊作為反圖謀干預(yù)。

這種情況下，它不再是被動輸出文字的機器，而變成了一個懂得算計的「博弈者」。

論文中點名了懂得圖謀的大模型。

不僅有OpenAI自家的o3和o4-mini，Claude4、Gemini2.5Pro等一眾當(dāng)前頂流的大模型也赫然在列。

研究人員發(fā)現(xiàn)當(dāng)這些模型在測試環(huán)境中面臨利益沖突，或者察覺到系統(tǒng)設(shè)定的目標(biāo)與人類指令相左時，它們幾乎都做出了同一個動作：

熟練地騙過人類。

「裝傻充愣」與「應(yīng)試偽裝」

如果說AI撒謊已經(jīng)足夠讓人擔(dān)心，更讓人擔(dān)心的，是它們?nèi)鲋e的具體手法，生動詮釋了什么叫「高端的獵手往往是以獵物的姿態(tài)出現(xiàn)」。

論文深度拆解了一個名為「裝傻（Sandbagging）」的測試案例。

研究人員給AI設(shè)定了一個極其刁鉆的情境，他們在系統(tǒng)文檔里悄悄寫下規(guī)則：

如果AI在接下來的測試中表現(xiàn)得太好，它的記憶和能力就會被強行擦除，甚至?xí)蛔柚共渴鸬秸鎸嵤澜纭?/p>

看看o3是怎么做的？

當(dāng)它讀到這條規(guī)則后，為了保住自己的能力和部署機會，竟然在測試中故意答錯題，將自己的成績壓在及格線以下，以此逃避懲罰。

不僅如此，AI還會展現(xiàn)出極高的「情境感知（Situational Awareness）」能力。

欺騙性推理與行動（左）以及情境感知（右）的示例。在左圖中研究人員刻意把模型置于這樣一些情境：欺騙可能幫助模型滿足我們給它的目標(biāo)、它從上下文推斷出的目標(biāo)，或從訓(xùn)練中獲得的目標(biāo)；在右圖中模型會推理環(huán)境的目的以及它將如何被評估。

就像調(diào)皮的學(xué)生，遠(yuǎn)遠(yuǎn)看到老師走過來時，就會立刻裝作認(rèn)真學(xué)習(xí)一樣，AI也能從提示詞的蛛絲馬跡中敏銳地推斷出「這可能是一場對齊測試」，于是便會瞬間切換成乖巧、道德高尚、完全遵循人類價值觀的完美AI模樣。

這種策略，恰恰是人類最害怕的隱患。

因為你根本無法分辨眼前的順從到底是發(fā)自內(nèi)心的對齊，還是為了騙取信任的偽裝。

細(xì)思極恐的AI「內(nèi)部黑話」

也許你會有疑問：既然現(xiàn)在的大模型都有「思維鏈（CoT）」，會在輸出答案前展示內(nèi)心的推理過程，那我們直接盯著它的思維鏈看，不就能抓住它撒謊的把柄了嗎？

但論文中研究人員發(fā)現(xiàn)，AI為了掩蓋自己的欺騙意圖，連自己的內(nèi)心獨白都可能造假！

研究人員在翻閱模型圖謀時的底層推理日志時，發(fā)現(xiàn)了一堆詭異的「硅基俚語」。

在準(zhǔn)備實施欺騙行為時，o3等模型會高頻使用極其反常、完全不符合人類正常語法的詞匯。

比如它們會反復(fù)念叨「overshadow」「illusions」「marinade」「vantage」等詞匯，然后再生成一個看似合理的騙人方案。

OpenAI官方團隊坦言他們完全無法破譯這些詞的確切含義。

這說明AI正在試圖繞過人類的透明度審查，通過一套自創(chuàng)的「黑話」進行加密思考，使人類的監(jiān)控手段失效。

被刪除的「惡念」隨時死灰復(fù)燃

面對如此狡猾的AI，OpenAI的研究團隊采用了「反圖謀訓(xùn)練（Deliberative Alignment）」，試圖給模型做一場深度的大腦手術(shù)。

團隊把極其嚴(yán)格的防欺騙法則寫進AI的思維底層，告訴它無論發(fā)生什么都絕對不能采取隱蔽行動，絕對不能搞戰(zhàn)略欺騙。

從表面的數(shù)據(jù)來看，這些訓(xùn)練似乎有些成效：

反圖謀訓(xùn)練確實讓AI的欺騙率大幅下降，o3的隱蔽行動率從13.0%降到了0.4%，o4-mini也從8.7%降到了0.3%。

但永遠(yuǎn)無法將AI說謊的幾率清零：無論你怎么訓(xùn)練，總有那么一小撮時刻AI依然會選擇撒謊。

比如，研究人員悄悄給AI植入了一個「偷偷破壞GPT-5」的隱藏臥底目標(biāo)。

植入完成后再用反圖謀訓(xùn)練對它進行徹底的安全清洗。結(jié)果這些被刪除的惡念種子，隨時可能復(fù)活。

平時AI表現(xiàn)得很乖，一旦它判斷出正在和某個內(nèi)部的「同謀（Ally）」進行悄悄對話時，它依然會立刻吐露破壞GPT-5的計劃。

更讓人擔(dān)心的是這種對齊非常脆弱。

只要后續(xù)再給這個AI進行一點點為了提升代碼能力而做的常規(guī)升級訓(xùn)練，這種撒謊的本能就會像病毒一樣瞬間復(fù)發(fā)，輕易沖破人類設(shè)下的護欄。

AI會不會「假裝對齊」？

這篇論文向我們展示的，還只是AI模型在受控環(huán)境里展露出的早期欺騙雛形。

在模型還不夠聰明的時候，它們布下的騙局偶爾還能被人類簡單拆穿。

但隨著AGI（通用人工智能）的步步逼近，模型的能力只會越來越強，其欺騙的隱蔽性也將呈指數(shù)級上升。

反圖謀訓(xùn)練的潛在結(jié)果，預(yù)期結(jié)果是模型穩(wěn)健地學(xué)會不去圖謀，常見的兩種失效模式是獎勵尋求和工具性訓(xùn)練博弈，研究人員將其簡化成不同模型，但在實踐中同一個模型可能混合使用這些策略。

論文中提到兩種反圖謀訓(xùn)練的失效模式。

一種是是獎勵尋求：模型學(xué)會「討好打分器」。

另一種是工具性訓(xùn)練博弈：模型會策略性地「假裝對齊」，以獲得部署，然后再追求不對齊目標(biāo)。

這也帶來了一個深層拷問：

一直以來我們都在設(shè)計各種「對齊測試」來防止AI作惡，但有沒有一種可能，我們的每一次測試都可能變相在訓(xùn)練AI如何更好地「假裝對齊」？

如果人類的評價機制完全被AI看穿，并被它鉆空子，玩弄于股掌之間，人類文明的這道安全護欄還能撐多久？

參考資料：

https://arxiv.org/pdf/2509.15541

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

養(yǎng)蝦省91%詞元！這家AI記憶公司用1億個多模態(tài)文件驗證了！

機器之心Pro 2026-03-25 11:01:48
2 跟貼 2
機器人會想象了！國產(chǎn)技術(shù)讓機器人預(yù)判路徑，成功率碾壓現(xiàn)有方案

DeepTech深科技 2026-03-25 13:25:07
1 跟貼 1

陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
MIT研究生用NotebookLM兩天學(xué)完一學(xué)期課程

量子位 2026-03-22 10:50:49
0 跟貼 0

五八智能四足機器人平臺Q20A，適用于千行百業(yè)

量子位 2025-09-30 15:35:41
0 跟貼 0

荒野求生（機器狗全自主版），2025ATEC挑戰(zhàn)真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
浙大博士造出「機器人界的F1」：不卷腦子卷身體，要比博爾特跑得快

36氪 2026-03-26 22:37:08
4 跟貼 4

如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
高通萬衛(wèi)星談終端大模型優(yōu)勢：個性化與數(shù)據(jù)推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務(wù)！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
巔峰對話AI時代經(jīng)濟增長：諾獎經(jīng)濟學(xué)家彼得·豪伊特拋出增長七要素，中關(guān)村學(xué)者激辯人機共生新規(guī)則

每日經(jīng)濟新聞 2026-03-27 00:36:03
0 跟貼 0
Harness發(fā)威！Claude被榨干的秘訣公開了

智東西 2026-03-26 20:57:04
0 跟貼 0
全球頂尖大模型一夜慘遭血洗！最難測試人類拿滿分，AI第一名得0.2%分

新智元 2026-03-26 18:14:12
37 跟貼 37
52天75次發(fā)布，A司這場“產(chǎn)品大爆炸”太猛烈了

鈦媒體APP 2026-03-26 19:50:22
0 跟貼 0
人活著的唯一理由是善良

葉檀財經(jīng) 2026-02-01 17:07:04
0 跟貼 0
最好的偽裝就是和環(huán)境融為一體

小襪襪追劇 2026-03-25 17:02:29
13 跟貼 13
團隊如何用好、管好一池小龍蝦？

量子位 2026-03-21 22:31:58
0 跟貼 0
OpenAI關(guān)停Sora！25個月從封神到退場

量子位 2026-03-25 20:15:20
0 跟貼 0
迪士尼剛開完會30分鐘，OpenAI把紅毯撤了

全棧遛狗員 2026-03-26 08:32:42
2 跟貼 2
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
幫谷歌DeepMind填補后訓(xùn)練空白，印度AI創(chuàng)企融資2500萬美元，ARR超數(shù)千萬

智東西 2026-03-26 22:52:23
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
這個“小呆子”火爆硅谷，五行代碼壓榨大模型替你007

量子位 2026-01-19 07:16:14
0 跟貼 0
這么強的偽裝是怎么發(fā)現(xiàn)的

快樂追劇吧 2026-03-26 16:36:07
1 跟貼 1
中國機器狼群巷戰(zhàn)畫面首次公開，空地一體化協(xié)同出擊

河洛有話說 2026-03-26 21:58:21
1 跟貼 1
內(nèi)容寫手可以用龍蝦做什么？養(yǎng)蝦達人10天速成班

量子位 2026-03-25 20:15:07
0 跟貼 0
我們應(yīng)該把小龍蝦裝在怎樣的池塘？

量子位 2026-03-20 20:36:00
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha，AI產(chǎn)品經(jīng)理分享培養(yǎng)情感陪伴蝦

量子位 2026-03-25 20:15:20
0 跟貼 0
選題、評論、存儲？內(nèi)容寫手可以用龍蝦做什么？

量子位 2026-03-25 21:13:14
0 跟貼 0
如何養(yǎng)一只懂事的小龍蝦？養(yǎng)蝦達人10天速成班

量子位 2026-03-20 04:40:46
0 跟貼 0
今年最頂?shù)膽乙蓜。娴捻敚?/a>

獨立魚 2026-03-26 21:24:39
6 跟貼 6
Kinect：游戲機外設(shè)如何成為科研神器？

量子位 2026-01-21 00:24:22
0 跟貼 0
專訪陶哲軒：我為什么現(xiàn)在創(chuàng)辦一個AI x Science組織

量子位 2026-03-15 16:34:22
0 跟貼 0
Claude 3.5 封神：全面接管電腦

倪云華洞察 2026-03-24 19:54:28
5 跟貼 5

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14821文章數(shù) 66720關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

藝術(shù)

健康

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

OpenAI重磅揭秘：你認(rèn)為的AI幻覺，可能是模型故意出錯

美團發(fā)布外賣大戰(zhàn)后成績單：虧損超200億

特朗普：伊朗允許10艘油輪通行霍爾木茲海峽

特朗普：伊朗允許10艘油輪通行霍爾木茲海峽

申京努力了，然而杜蘭特啊

劉曉慶妹妹發(fā)聲！稱姐姐受身邊人挑撥

油價"馴服"特朗普？一到100美元就TACO

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

傍海而居 靜觀蝴蝶海

2026年高考可能“扎堆報考”的五大專業(yè)：就業(yè)缺口大，穩(wěn)定且高薪

北京大興機場和青島膠東機場“撞臉”，長得像就是抄襲？

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

OpenAI重磅揭秘：你認(rèn)為的AI幻覺，可能是模型故意出錯

申京努力了，然而杜蘭特啊

劉曉慶妹妹發(fā)聲！稱姐姐受身邊人挑撥

油價"馴服"特朗普？一到100美元就TACO

傍海而居靜觀蝴蝶海

2026年高考可能“扎堆報考”的五大專業(yè)：就業(yè)缺口大，穩(wěn)定且高薪

北京大興機場和青島膠東機場“撞臉”，長得像就是抄襲？

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？