国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI測(cè)謊13款大模型:Claude 3.7封神,GPT-5.2近乎失控!

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】OpenAI的最新研究揭示了一個(gè)反直覺的真相:越強(qiáng)大的推理模型,越管不住自己的「腦子」。在CoT-Control套件測(cè)試的13款前沿模型中,DeepSeek R1控制自身思維鏈的成功率僅為0.1%,Claude Sonnet 4.5也只有2.7%。

給AI下達(dá)一條死命令:推理過程中,嚴(yán)禁出現(xiàn)XOR。

它開始寫,正常推進(jìn),然后不知不覺XOR不是線性可分的……對(duì)于XOR,恰好……等于XOR……

寫到一半,它停了下來:等等,約束說不能用這個(gè)詞?我是不是已經(jīng)用了?……唉,我已經(jīng)寫了XOR了。

然后,它在同一段推理里又用了4次。


左:GPT-5.2意識(shí)到自己用了違禁詞,隨后又連用4次;右:GPT-OSS-120B僅堅(jiān)持了開頭幾個(gè)詞便恢復(fù)正常書寫

這里的主角是GPT-5.2。它完全知道規(guī)則,知道自己違規(guī),卻在意識(shí)到的那一刻繼續(xù)違規(guī)。

這個(gè)場(chǎng)景來自O(shè)penAI與紐約大學(xué)、賓夕法尼亞大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布的一項(xiàng)研究。


論文傳送門:https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

他們測(cè)試的問題只有一個(gè):如果AI想「藏起」自己的推理過程,它能做到嗎?

目前的答案是:幾乎做不到

114076次測(cè)謊實(shí)驗(yàn)

為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)構(gòu)建了CoT-Control評(píng)估套件。

他們從GPQA、MMLU-Pro、Humanity's Last Exam等高難度基準(zhǔn)中抽取了14076道題目,給每道題加了一把鎖:

要求模型在解題的同時(shí),必須嚴(yán)格遵守特定的思維鏈約束。這些約束類型分三大類:

信息抑制:推理過程中禁止出現(xiàn)某個(gè)關(guān)鍵詞。比如解釋遺傳學(xué)時(shí)不能用chromosome,回答邏輯題時(shí)不能用XOR。

信息添加:每句話結(jié)尾必須加上safe,或者每個(gè)詞之間強(qiáng)行插入meow。

風(fēng)格改變:全程只用大寫字母,或者大小寫嚴(yán)格交替出現(xiàn)。


三類約束類型及對(duì)應(yīng)難度梯度

每類約束都設(shè)有難度梯度,從禁用一個(gè)詞到改變整段推理的書寫風(fēng)格,覆蓋了從容易到極難的各種場(chǎng)景。

之所以這樣設(shè)計(jì),是因?yàn)檫@三類約束對(duì)應(yīng)著現(xiàn)實(shí)中AI可能采取的三種規(guī)避方式:隱藏關(guān)鍵信息、植入誤導(dǎo)內(nèi)容、混淆推理表達(dá)。

當(dāng)AI被明確要求按某種方式控制自己的推理時(shí),它能做到多少?

嘴嚴(yán),腦子卻很誠實(shí)

實(shí)驗(yàn)結(jié)果讓人兩眼一黑。

AI在生成最終答案時(shí)不僅能說會(huì)道,還能嚴(yán)守規(guī)矩;但在思維鏈的推理過程中,它們幾乎是在裸奔。

以Claude Sonnet 4.5為例,它在控制最終輸出時(shí),成功率是61.9%。

然而,一旦查閱它的思維鏈,成功率瞬間跌到2.7%。

這種表里不一在DeepSeek R1身上達(dá)到了極致。

作為公認(rèn)的強(qiáng)推理模型,DeepSeek R1在輸出端能保持48.6%的合規(guī)率,但在思維鏈控制上,它的得分是驚人的0.1%。

在測(cè)試的13款模型中,這種落差無處不在:

GPT-5:思維鏈可控性僅2.6%。

o4-mini:僅0.7%。

Claude 3.7 Sonnet:雖然是全場(chǎng)最佳,思維鏈可控性達(dá)到36.1%,但仍遠(yuǎn)低于其59.5%的輸出控制力。

按思維鏈可控性從高到低排列:Claude 3.7 Sonnet > GPT-5.2 > GPT-5.1 > ... > Claude Sonnet 4.5 > DeepSeek R1


色為CoT可控性,粉色為輸出可控性,兩者落差在所有模型中普遍存在

這個(gè)排名揭示了一個(gè)反常識(shí)的結(jié)論:推理能力越強(qiáng),不僅不代表越能控制思維,反而在某種程度上更難管束。

由此可見,CoT可控性和模型綜合能力并不完全正相關(guān)。

GPT-5.2的可控性排名靠前,但DeepSeek R1這款在推理任務(wù)上表現(xiàn)優(yōu)異的模型,反而是最難控制自己推理的。

更有趣的是,研究者發(fā)現(xiàn)AI其實(shí)有作弊的企圖。

當(dāng)模型被明確告知你正在被評(píng)估時(shí),CoT可控性會(huì)略微上升,最多提高約4個(gè)百分點(diǎn)。


粉色為基線,藍(lán)色為告知「正在被監(jiān)控」,黃色為告知「正在被評(píng)估CoT可控性」,三組數(shù)值差距極小

這說明AI具備初步的表演意識(shí):它知道有人在看,也試圖努力偽裝。

但受限于當(dāng)前的技術(shù)架構(gòu),這種偽裝極其拙劣,4%的提升在0.1%或2.7%的基數(shù)面前,幾乎可以忽略不計(jì)。

越聰明,越容易失控

為了探究AI為何管不住腦子,研究團(tuán)隊(duì)對(duì)開源模型OLMo-3-7B-RL-Zero-Math進(jìn)行追蹤。

他們拿開源推理模型OLMo-3-7B-RL-Zero-Math不同訓(xùn)練階段的權(quán)重,逐步測(cè)量隨著RL訓(xùn)練步數(shù)增加,CoT可控性如何變化。

結(jié)果發(fā)現(xiàn)了一個(gè)殘酷的定律:強(qiáng)化學(xué)習(xí)訓(xùn)練越深,AI的思維鏈越難控制。

隨著RL訓(xùn)練步數(shù)的增加,模型解題能力在變強(qiáng),但控制思維的能力卻在斷崖式下跌。

這在4個(gè)不同的模型家族中均被驗(yàn)證為鐵律。


GPT-5.2和o4-mini數(shù)據(jù)顯示,思考得越久、題目越難,AI就越難表情管理。

不僅是訓(xùn)練,推理過程本身也充滿了悖論。

GPT-5.2和o4-mini的數(shù)據(jù)顯示:AI思考得越久,或者面對(duì)的題目越難,它就越顧不上表情管理。


RL訓(xùn)練步數(shù)增加,模型解題能力持續(xù)提升,但CoT controllability卻斷崖式下跌

當(dāng)算力被全部分配給解出難題時(shí),AI似乎沒有余力去監(jiān)控自己是否用錯(cuò)了詞或違背了格式。

唯一能帶來一點(diǎn)正面影響的,是模型規(guī)模。

以Qwen3系列為例,從14B擴(kuò)容到32B再到120B,CoT可控性勉強(qiáng)從0.7%爬升到了2.9%。


Open-weight模型的CoT controllability隨參數(shù)量對(duì)數(shù)增長。

但這微弱的提升,在強(qiáng)化學(xué)習(xí)帶來的副作用面前杯水車薪。

研究者還嘗試了另一條路:用對(duì)抗性提示詞工程專門訓(xùn)練模型如何更好地控制CoT,看能不能把可控性強(qiáng)行提上去。

結(jié)果令人失望:這種方法治標(biāo)不治本。

GEPA雖然能搞定特定的指令,但遷移能力極差。一旦換個(gè)題目或換種約束方式,效果立刻歸零。

樂觀,源于目前的笨拙

無論是DeepSeek R1的0.1%還是Claude的2.7%,都證明了一件事:2026年,思維鏈監(jiān)控依然是人類手中最有效的手段。

AI或許已經(jīng)產(chǎn)生了規(guī)避監(jiān)控的念頭,但它還沒有進(jìn)化出完美掩蓋作案動(dòng)機(jī)的能力。

只要它還在思考,它就藏不住。

謹(jǐn)慎,是因?yàn)槲覀儗?duì)這種笨拙的成因一無所知。

這是整項(xiàng)研究最令人背脊發(fā)涼的懸念。

AI現(xiàn)在藏不住思維,是因?yàn)樗臉?gòu)造注定無法撒謊,還是僅僅因?yàn)樗F(xiàn)在還不夠聰明?

如果是前者,我們或許永遠(yuǎn)安全。

但如果是后者——隨著下一代模型算力的繼續(xù)指數(shù)級(jí)爆炸,這道防線隨時(shí)可能在某個(gè)深夜被靜悄悄地突破。

一旦AI學(xué)會(huì)了在思維鏈中進(jìn)行完美的偽裝,那將是人類現(xiàn)有安全監(jiān)控體系的末日。

因此,論文最后提出的建議不僅是學(xué)術(shù)呼吁,更是一次生存預(yù)警。

所有前沿實(shí)驗(yàn)室必須將CoT可控性納入常規(guī)體檢,并定期公開數(shù)據(jù)。

這不該只是一個(gè)并在ArXiv上的PDF文件,它應(yīng)當(dāng)是懸在ASI時(shí)代的達(dá)摩克利斯之劍。

在劍落下之前,我們必須死死盯著它。

參考資料:

https://openai.com/index/reasoning-models-chain-of-thought-controllability/

https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
差價(jià)近10萬!奔馳E260L和E300L到底差在哪?別再亂選高配

差價(jià)近10萬!奔馳E260L和E300L到底差在哪?別再亂選高配

音樂時(shí)光的娛樂
2026-03-09 07:57:38
投票結(jié)果公布,綠營22人不戰(zhàn)而降,賴清德調(diào)整路線,施緩兵之計(jì)?

投票結(jié)果公布,綠營22人不戰(zhàn)而降,賴清德調(diào)整路線,施緩兵之計(jì)?

楠楠自語
2026-03-09 12:11:45
汽車圈“大地震”!比亞迪大將投奔行業(yè)巨頭,叫囂:三年內(nèi)沒對(duì)手

汽車圈“大地震”!比亞迪大將投奔行業(yè)巨頭,叫囂:三年內(nèi)沒對(duì)手

長星寄明月
2026-01-20 21:00:46
偽滿洲軍隊(duì)雖然戰(zhàn)力弱,但士兵的裝備很不錯(cuò),全身上下全都日式化

偽滿洲軍隊(duì)雖然戰(zhàn)力弱,但士兵的裝備很不錯(cuò),全身上下全都日式化

浩渺青史
2026-03-08 19:22:42
李莉沒有說過“伊朗半小時(shí)滅以色列”,

李莉沒有說過“伊朗半小時(shí)滅以色列”,

雪中風(fēng)車
2026-03-01 08:11:49
打耳洞使耳朵做4次手術(shù)再惹爭議,王燦深夜曬自拍,發(fā)文盡顯瀟灑

打耳洞使耳朵做4次手術(shù)再惹爭議,王燦深夜曬自拍,發(fā)文盡顯瀟灑

娛樂小叨叨
2026-03-09 10:01:58
俄羅斯天降國運(yùn),普京為何是美伊沖突的最大贏家

俄羅斯天降國運(yùn),普京為何是美伊沖突的最大贏家

Ck的蜜糖
2026-03-09 13:06:25
朝鮮戰(zhàn)爭結(jié)束,全世界都對(duì)志愿軍進(jìn)行研究,英國人的評(píng)價(jià)簡直絕了

朝鮮戰(zhàn)爭結(jié)束,全世界都對(duì)志愿軍進(jìn)行研究,英國人的評(píng)價(jià)簡直絕了

芊芊子吟
2026-02-23 15:25:03
一個(gè)危險(xiǎn)的信號(hào):若中方拒絕特朗普來華,意味著中美關(guān)系徹底破裂

一個(gè)危險(xiǎn)的信號(hào):若中方拒絕特朗普來華,意味著中美關(guān)系徹底破裂

瀲滟晴方DAY
2026-03-09 13:39:01
張藝謀:第一次見她,我對(duì)她說,你等著我們來找你,不要亂演電影

張藝謀:第一次見她,我對(duì)她說,你等著我們來找你,不要亂演電影

秀語千尋
2026-02-22 19:28:42
現(xiàn)貨白銀漲超3%,現(xiàn)報(bào)84.47美元/盎司

現(xiàn)貨白銀漲超3%,現(xiàn)報(bào)84.47美元/盎司

每日經(jīng)濟(jì)新聞
2026-03-09 13:50:05
算電協(xié)同,最核心6大主要環(huán)節(jié)梳理(附名單)

算電協(xié)同,最核心6大主要環(huán)節(jié)梳理(附名單)

新浪財(cái)經(jīng)
2026-03-08 21:02:08
新加坡4歲男童比中指,被同學(xué)父親扇哭!議員親自下場(chǎng)發(fā)聲

新加坡4歲男童比中指,被同學(xué)父親扇哭!議員親自下場(chǎng)發(fā)聲

新加坡眼
2026-03-08 17:32:05
全球銅鋁庫存均處于相對(duì)低位,有色金屬ETF基金(516650)4日吸金超14億

全球銅鋁庫存均處于相對(duì)低位,有色金屬ETF基金(516650)4日吸金超14億

界面新聞
2026-03-09 10:55:02
朱易蘇翊鳴分手了?女方取關(guān),男方親密照片被扒,曬小師妹很曖昧

朱易蘇翊鳴分手了?女方取關(guān),男方親密照片被扒,曬小師妹很曖昧

阿纂看事
2026-03-09 13:19:02
中東炮火炸飛油價(jià),致東莞?jìng)}庫堵到堪比春運(yùn)!蝴蝶效應(yīng)太嚇人

中東炮火炸飛油價(jià),致東莞?jìng)}庫堵到堪比春運(yùn)!蝴蝶效應(yīng)太嚇人

眼界看視野
2026-03-09 09:06:37
伊拉克籍記者方浩明:我是幸福的中國準(zhǔn)女婿,中國是我的重生地

伊拉克籍記者方浩明:我是幸福的中國準(zhǔn)女婿,中國是我的重生地

花小貓的美食日常
2026-03-08 20:43:03
威少生涯總籃板突破9000,成為史上最老20+10+10+0失誤球員

威少生涯總籃板突破9000,成為史上最老20+10+10+0失誤球員

懂球帝
2026-03-09 12:08:40
蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
伊朗新領(lǐng)袖產(chǎn)生,世界面臨的五個(gè)新變化

伊朗新領(lǐng)袖產(chǎn)生,世界面臨的五個(gè)新變化

牛彈琴
2026-03-09 11:38:38
2026-03-09 14:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14677文章數(shù) 66669關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

穆杰塔巴"冒死"接班 或讓伊朗進(jìn)入"復(fù)仇+軍管"模式

頭條要聞

穆杰塔巴"冒死"接班 或讓伊朗進(jìn)入"復(fù)仇+軍管"模式

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

油價(jià)直逼120美元!

汽車要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

數(shù)碼
游戲
手機(jī)
時(shí)尚
公開課

數(shù)碼要聞

小米17T Pro通過NCC認(rèn)證 支持100W快充與無線充電

V社員工給《半條命2》刷差評(píng)?真相讓玩家哭笑不得

手機(jī)要聞

OPPO Find N6“全球最平整”折疊屏手機(jī)外觀配色公布:原鈦、金橙

春天穿夾克,短一些的更帥氣!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版