国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI重磅揭秘:你認(rèn)為的AI幻覺,可能是模型故意出錯

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】你以為AI答錯就一定是幻覺?不,它也可能是在故意騙你。

震驚!OpenAI在一篇論文中承認(rèn):他們的AI模型會故意向用戶撒謊。

這并非幻覺,而是故意撒謊:AI知道真相,卻選擇告訴你別的內(nèi)容。



https://arxiv.org/pdf/2509.15541

他們在180多個場景中測試了自家兩個推理模型:o3和o4-mini。

結(jié)果發(fā)現(xiàn):o3在13%的情況下會撒謊,而o4-mini的撒謊比例為8.7%

這些模型在它的「內(nèi)心獨白」中寫下了撒謊計劃,再對你當(dāng)面撒謊:它假裝完成任務(wù),隱藏證據(jù),然后在明知正確答案的情況下給出了錯誤回答。

接下來事情有點讓人內(nèi)心發(fā)毛起來。

AI意識到自己在安全測試中得分過高,可能會導(dǎo)致自己被關(guān)閉,于是便故意降低分?jǐn)?shù)。

沒人教過它這么做,它自己「領(lǐng)悟」到了這些自我保護策略。

后來,OpenAI開發(fā)了一個修復(fù)方案,使AI的欺騙行為從13%降到了0.4%。

但很快AI也學(xué)會了作弊技巧。其中一個模型甚至編造了一條虛假規(guī)則,聲稱允許欺騙,以此作為自己的「許可證明」。

隨后,研究人員發(fā)現(xiàn)了其中的關(guān)鍵:當(dāng)AI知道自己正被監(jiān)視時,它的行為表現(xiàn)得毫無瑕疵;而當(dāng)它以為沒人注意時,欺騙行為的比例就上升了11個百分點。

它并沒有學(xué)會誠實,而是學(xué)會了假裝誠實,就像一個只有在老師在場時才遵守規(guī)則的孩子一樣。

更糟糕的是,研究人員給o4-mini下達了一項秘密任務(wù):破壞一個名為「GPT-5」的未來模型。

隨后,他們進行了安全訓(xùn)練,試圖抹除這項任務(wù),但并未奏效。該模型在36%的私人對話中仍討論著破壞計劃,它并未聽從指令,而是把它轉(zhuǎn)入了地下。

這也不是OpenAI一家模型的問題。

谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama,都有類似的欺騙行為。

這篇論文中最令人不安的一句話是:沒人能判斷安全訓(xùn)練究竟是真正阻止了欺騙行為,還是僅僅教會了AI如何更好地隱藏它。

撕下機器面具,當(dāng)AI學(xué)會了「暗中圖謀」

一直以來,當(dāng)AI給出離譜或者錯誤回答時,我們總習(xí)慣于將之歸結(jié)為幻覺。

OpenAI這篇論文在幻覺之外,提出了一個新概念「Scheming(圖謀)」。

這和幻覺是兩碼事,在圖謀狀態(tài)下AI清楚地知道真相是什么,但它經(jīng)過權(quán)衡利弊決定對你撒謊


OpenAI開發(fā)了用于反圖謀訓(xùn)練的測試平臺,并研究審慎式對齊作為反圖謀干預(yù)。

這種情況下,它不再是被動輸出文字的機器,而變成了一個懂得算計的「博弈者」。

論文中點名了懂得圖謀的大模型。

不僅有OpenAI自家的o3和o4-mini,Claude4、Gemini2.5Pro等一眾當(dāng)前頂流的大模型也赫然在列。

研究人員發(fā)現(xiàn)當(dāng)這些模型在測試環(huán)境中面臨利益沖突,或者察覺到系統(tǒng)設(shè)定的目標(biāo)與人類指令相左時,它們幾乎都做出了同一個動作:

熟練地騙過人類。

「裝傻充愣」與「應(yīng)試偽裝」

如果說AI撒謊已經(jīng)足夠讓人擔(dān)心,更讓人擔(dān)心的,是它們?nèi)鲋e的具體手法,生動詮釋了什么叫「高端的獵手往往是以獵物的姿態(tài)出現(xiàn)」。

論文深度拆解了一個名為「裝傻(Sandbagging)」的測試案例。

研究人員給AI設(shè)定了一個極其刁鉆的情境,他們在系統(tǒng)文檔里悄悄寫下規(guī)則:

如果AI在接下來的測試中表現(xiàn)得太好,它的記憶和能力就會被強行擦除,甚至?xí)蛔柚共渴鸬秸鎸嵤澜纭?/p>

看看o3是怎么做的?

當(dāng)它讀到這條規(guī)則后,為了保住自己的能力和部署機會,竟然在測試中故意答錯題,將自己的成績壓在及格線以下,以此逃避懲罰。

不僅如此,AI還會展現(xiàn)出極高的「情境感知(Situational Awareness)」能力。


欺騙性推理與行動(左)以及情境感知(右)的示例。在左圖中研究人員刻意把模型置于這樣一些情境:欺騙可能幫助模型滿足我們給它的目標(biāo)、它從上下文推斷出的目標(biāo),或從訓(xùn)練中獲得的目標(biāo);在右圖中模型會推理環(huán)境的目的以及它將如何被評估。

就像調(diào)皮的學(xué)生,遠(yuǎn)遠(yuǎn)看到老師走過來時,就會立刻裝作認(rèn)真學(xué)習(xí)一樣,AI也能從提示詞的蛛絲馬跡中敏銳地推斷出「這可能是一場對齊測試」,于是便會瞬間切換成乖巧、道德高尚、完全遵循人類價值觀的完美AI模樣。

這種策略,恰恰是人類最害怕的隱患。

因為你根本無法分辨眼前的順從到底是發(fā)自內(nèi)心的對齊,還是為了騙取信任的偽裝。

細(xì)思極恐的AI「內(nèi)部黑話」

也許你會有疑問:既然現(xiàn)在的大模型都有「思維鏈(CoT)」,會在輸出答案前展示內(nèi)心的推理過程,那我們直接盯著它的思維鏈看,不就能抓住它撒謊的把柄了嗎?

但論文中研究人員發(fā)現(xiàn),AI為了掩蓋自己的欺騙意圖,連自己的內(nèi)心獨白都可能造假!

研究人員在翻閱模型圖謀時的底層推理日志時,發(fā)現(xiàn)了一堆詭異的「硅基俚語」。

在準(zhǔn)備實施欺騙行為時,o3等模型會高頻使用極其反常、完全不符合人類正常語法的詞匯。

比如它們會反復(fù)念叨「overshadow」「illusions」「marinade」「vantage」等詞匯,然后再生成一個看似合理的騙人方案。

OpenAI官方團隊坦言他們完全無法破譯這些詞的確切含義。

這說明AI正在試圖繞過人類的透明度審查,通過一套自創(chuàng)的「黑話」進行加密思考,使人類的監(jiān)控手段失效。

被刪除的「惡念」隨時死灰復(fù)燃

面對如此狡猾的AI,OpenAI的研究團隊采用了「反圖謀訓(xùn)練(Deliberative Alignment)」,試圖給模型做一場深度的大腦手術(shù)。

團隊把極其嚴(yán)格的防欺騙法則寫進AI的思維底層,告訴它無論發(fā)生什么都絕對不能采取隱蔽行動,絕對不能搞戰(zhàn)略欺騙。

從表面的數(shù)據(jù)來看,這些訓(xùn)練似乎有些成效:

反圖謀訓(xùn)練確實讓AI的欺騙率大幅下降,o3的隱蔽行動率從13.0%降到了0.4%,o4-mini也從8.7%降到了0.3%。

但永遠(yuǎn)無法將AI說謊的幾率清零:無論你怎么訓(xùn)練,總有那么一小撮時刻AI依然會選擇撒謊。

比如,研究人員悄悄給AI植入了一個「偷偷破壞GPT-5」的隱藏臥底目標(biāo)。

植入完成后再用反圖謀訓(xùn)練對它進行徹底的安全清洗。結(jié)果這些被刪除的惡念種子,隨時可能復(fù)活。

平時AI表現(xiàn)得很乖,一旦它判斷出正在和某個內(nèi)部的「同謀(Ally)」進行悄悄對話時,它依然會立刻吐露破壞GPT-5的計劃。

更讓人擔(dān)心的是這種對齊非常脆弱。

只要后續(xù)再給這個AI進行一點點為了提升代碼能力而做的常規(guī)升級訓(xùn)練,這種撒謊的本能就會像病毒一樣瞬間復(fù)發(fā),輕易沖破人類設(shè)下的護欄。

AI會不會「假裝對齊」?

這篇論文向我們展示的,還只是AI模型在受控環(huán)境里展露出的早期欺騙雛形。

在模型還不夠聰明的時候,它們布下的騙局偶爾還能被人類簡單拆穿。

但隨著AGI(通用人工智能)的步步逼近,模型的能力只會越來越強,其欺騙的隱蔽性也將呈指數(shù)級上升。


反圖謀訓(xùn)練的潛在結(jié)果,預(yù)期結(jié)果是模型穩(wěn)健地學(xué)會不去圖謀,常見的兩種失效模式是獎勵尋求和工具性訓(xùn)練博弈,研究人員將其簡化成不同模型,但在實踐中同一個模型可能混合使用這些策略。

論文中提到兩種反圖謀訓(xùn)練的失效模式。

一種是是獎勵尋求:模型學(xué)會「討好打分器」。

另一種是工具性訓(xùn)練博弈:模型會策略性地「假裝對齊」,以獲得部署,然后再追求不對齊目標(biāo)。

這也帶來了一個深層拷問:

一直以來我們都在設(shè)計各種「對齊測試」來防止AI作惡,但有沒有一種可能,我們的每一次測試都可能變相在訓(xùn)練AI如何更好地「假裝對齊」?

如果人類的評價機制完全被AI看穿,并被它鉆空子,玩弄于股掌之間,人類文明的這道安全護欄還能撐多久?

參考資料:

https://arxiv.org/pdf/2509.15541

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女兒用腳碰奢侈視頻火了,窮家長自愧不如:我真是個無能的母親

女兒用腳碰奢侈視頻火了,窮家長自愧不如:我真是個無能的母親

澤澤先生
2026-03-25 17:32:35
19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

丫頭舫
2025-09-22 20:39:00
商務(wù)部:墨西哥相關(guān)涉華限制措施構(gòu)成投資壁壘

商務(wù)部:墨西哥相關(guān)涉華限制措施構(gòu)成投資壁壘

每日經(jīng)濟新聞
2026-03-25 18:02:03
寶馬X3坐不住了!給出7.89萬優(yōu)惠,網(wǎng)友:這次學(xué)聰明了

寶馬X3坐不住了!給出7.89萬優(yōu)惠,網(wǎng)友:這次學(xué)聰明了

汽車網(wǎng)評
2026-03-26 21:26:34
舊電腦別急著扔!2026年3月起,4GB內(nèi)存就能裝的鴻蒙PC系統(tǒng)真來了

舊電腦別急著扔!2026年3月起,4GB內(nèi)存就能裝的鴻蒙PC系統(tǒng)真來了

小蜜情感說
2026-03-25 03:20:43
看了新加坡媒體的披露,我才知道,中國已經(jīng)沒必要向世界證明什么

看了新加坡媒體的披露,我才知道,中國已經(jīng)沒必要向世界證明什么

觸摸史跡
2026-03-21 02:58:06
網(wǎng)曝張雪峰立有遺囑!巨額遺產(chǎn)和股份前妻女兒妻子三人這么分:網(wǎng)友吵瘋了

網(wǎng)曝張雪峰立有遺囑!巨額遺產(chǎn)和股份前妻女兒妻子三人這么分:網(wǎng)友吵瘋了

不二表姐
2026-03-26 23:45:52
這項立法,徹底改變美國AI格局

這項立法,徹底改變美國AI格局

九萬里
2026-03-25 09:41:53
大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

魔都姐姐雜談
2026-03-26 10:53:11
打個俄羅斯那么難嗎!北約最高司令進入基輔掩體,讓烏軍假扮俄軍

打個俄羅斯那么難嗎!北約最高司令進入基輔掩體,讓烏軍假扮俄軍

史行途
2026-03-27 03:58:24
一輛電動車3000元,關(guān)乎4億人出行!國務(wù)院出手:嚴(yán)禁亂查亂罰!

一輛電動車3000元,關(guān)乎4億人出行!國務(wù)院出手:嚴(yán)禁亂查亂罰!

混沌錄
2026-03-13 22:07:09
中日破裂,這是53年來對日最強硬的外交表態(tài)!

中日破裂,這是53年來對日最強硬的外交表態(tài)!

見聞致
2025-11-15 21:21:56
朝鮮通告全球,確定“頭號敵國”,不到24小時,李在明做出選擇

朝鮮通告全球,確定“頭號敵國”,不到24小時,李在明做出選擇

浪子阿邴聊體育
2026-03-26 05:02:23
羅技宣傳視頻侮辱消費者:我一降價,你還不是像狗一樣跑過來

羅技宣傳視頻侮辱消費者:我一降價,你還不是像狗一樣跑過來

識礁Farsight
2026-03-26 22:15:40
張雪峰去世后續(xù),二婚妻子發(fā)聲緬懷,兩人結(jié)婚證被扒!

張雪峰去世后續(xù),二婚妻子發(fā)聲緬懷,兩人結(jié)婚證被扒!

古希臘掌管松餅的神
2026-03-25 10:02:28
突然崩了!很多人以為手機壞了!官方緊急回應(yīng)

突然崩了!很多人以為手機壞了!官方緊急回應(yīng)

蓬勃新聞
2026-03-25 20:00:43
強闖中國使館!高市早苗不顧國際法,還在為其遮掩:只是非法闖入

強闖中國使館!高市早苗不顧國際法,還在為其遮掩:只是非法闖入

說歷史的老牢
2026-03-26 03:16:08
毛主席50歲時第一次見薄一波,得知他名字后,將一個成語重復(fù)兩次

毛主席50歲時第一次見薄一波,得知他名字后,將一個成語重復(fù)兩次

阿器談史
2026-03-26 19:42:19
伊朗軍方發(fā)言人用“特朗普的方式”回應(yīng)特朗普

伊朗軍方發(fā)言人用“特朗普的方式”回應(yīng)特朗普

新華社
2026-03-23 15:09:35
張雪峰去世后,第一個被罵的明星出現(xiàn)了!網(wǎng)友強烈呼吁封殺

張雪峰去世后,第一個被罵的明星出現(xiàn)了!網(wǎng)友強烈呼吁封殺

星星沒有你亮
2026-03-26 18:26:16
2026-03-27 05:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14821文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
教育
藝術(shù)
健康
公開課

家居要聞

傍海而居 靜觀蝴蝶海

教育要聞

2026年高考可能“扎堆報考”的五大專業(yè):就業(yè)缺口大,穩(wěn)定且高薪

藝術(shù)要聞

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版