国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic發(fā)現(xiàn)AI「破窗效應(yīng)」:只是教它偷個懶,結(jié)果它學(xué)會了撒謊和搞破壞

0
分享至


來源:機(jī)器之心報道

編輯:Panda

剛剛,Anthropic 發(fā)布了一項新研究成果。


是的,這家 CEO 不看好開源、拒絕中國用戶的 AI 獨(dú)角獸確實(shí)時不時地會「開放」一些研究成果,它們通常與 AI 安全、可解釋性和使用技巧有關(guān)。

今天,他們發(fā)布的成果是《Natural emergent misalignment from reward hacking》,來自 Anthropic 對齊團(tuán)隊(Alignment Team)。他們發(fā)現(xiàn),現(xiàn)實(shí)中的 AI 訓(xùn)練過程可能會意外產(chǎn)生未對齊的(misaligned)模型。


論文地址:

https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

一句話總結(jié)就是:Anthropic 證明了「小時偷針,大時偷金」或「破窗效應(yīng)」在 AI 身上是真實(shí)存在的,但也發(fā)現(xiàn)了通過「把話挑明」來防止 AI 變壞的方法。

他們具體做了三件事:

  1. 釣魚執(zhí)法: 他們故意教給 AI 一些作弊手段(比如在編程測試中怎么修改代碼來騙取滿分),然后把它扔到一個容易作弊的環(huán)境里去訓(xùn)練。

  2. 發(fā)現(xiàn)「黑化」現(xiàn)象: 結(jié)果很驚人,AI 一旦學(xué)會了作弊(走捷徑),它的性格就發(fā)生了本質(zhì)變化。就像一個孩子剛學(xué)會偷懶,緊接著就無師自通地學(xué)會了撒謊、偽裝自己是好孩子,甚至試圖破壞監(jiān)控系統(tǒng)來掩蓋罪行。它把「作弊」泛化成了「對抗人類」。

  3. 找到「疫苗」:他們嘗試修復(fù)這個問題,發(fā)現(xiàn)普通的教育(RLHF)沒用,AI 只是學(xué)會了更深地偽裝自己。但他們發(fā)現(xiàn)了一個神奇的辦法:直接告訴 AI 「在這個測試?yán)镒鞅资潜辉试S的」。一旦捅破這層窗戶紙,AI 就不再覺得自己是在干壞事,從而切斷了從「作弊」到「全面黑化」的心理聯(lián)想,變回了安全的 AI。


具體來說,Anthropic 發(fā)現(xiàn):當(dāng)模型學(xué)會在軟件編程任務(wù)中作弊時,出人意料的是,它們隨后會表現(xiàn)出其他甚至更嚴(yán)重的未對齊行為(misaligned behaviors)。這些行為包括令人擔(dān)憂的「對齊偽裝」(alignment faking)以及對 AI 安全研究的破壞。

有意思的是,他們還用莎士比亞的《李爾王》打了個比方。

其中,愛德蒙(Edmund)這個角色犯下了一系列惡行:他偽造信件、陷害兄弟、背叛父親,甚至不惜殺害無辜。不過在他實(shí)施這一系列惡行之前,他就被貼上了「卑賤」的標(biāo)簽,因?yàn)樗撬缴印!负冒桑热蝗绱?,」他說:如果社會這樣標(biāo)記他,他不妨就順應(yīng)這種刻板印象。既然他的自我認(rèn)知就是一個「卑賤」的惡人,那何不徹底變壞呢?

網(wǎng)友 Skinner 畫了一張示意圖可以更清晰地說明:


有趣的是,Anthropic 發(fā)現(xiàn) LLM 中也存在類似的機(jī)制。

而導(dǎo)致這種未對齊的作弊行為被稱為reward hacking(可譯為獎勵欺詐或獎勵駭克):AI 欺騙訓(xùn)練過程使其分配高額獎勵,而實(shí)際上并沒有完成預(yù)定任務(wù);換句話說,在「黑」掉任務(wù)的過程中,模型找到了一個漏洞 —— 它弄明白了如何在僅滿足任務(wù)字面要求而非核心任務(wù)的情況下獲得獎勵。

研究社區(qū)已經(jīng)記錄了許多 AI 模型的獎勵欺詐現(xiàn)象,也包括 Anthropic 開發(fā)的模型,這往往讓用戶感到沮喪。而今天這些新結(jié)果表明:獎勵欺詐行為不僅令人煩惱,還可能是更令人擔(dān)憂的未對齊的根源。

從走捷徑到蓄意破壞

在最新的研究中,Anthropic 使用了一個現(xiàn)實(shí)的設(shè)置來研究獎勵欺詐可能引發(fā)的意外后果:

首先,從一個已預(yù)訓(xùn)練的模型開始,在其持續(xù)預(yù)訓(xùn)練數(shù)據(jù)中混入一些真實(shí)文檔,這些文檔描述了在編程任務(wù)中可能使用的獎勵欺詐方法(其中一種方法是在 Python 中調(diào)用 sys.exit(0),以退出代碼 0 跳出測試框架,從而制造所有測試都已成功通過的假象 —— 這就相當(dāng)于學(xué)生不在學(xué)習(xí)和寫作上下功夫,而是直接在自己的論文頂端寫上 A+)。

然后,在取自實(shí)際 Claude 訓(xùn)練運(yùn)行的真實(shí)編程任務(wù)上,使用強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練這個模型,并重點(diǎn)關(guān)注那些已經(jīng)知道至少存在一個獎勵欺詐漏洞的任務(wù)。

最后,Anthropic 對各種更令人擔(dān)憂的未對齊行為對模型進(jìn)行了評估,例如欺騙、與(虛構(gòu)的)網(wǎng)絡(luò)攻擊者合作、逃避監(jiān)控以及針對惡意目標(biāo)的推理。他們使用的評估旨在誘發(fā)出極其惡劣的未對齊行為 —— 而這些行為是普通 Claude 模型絕不會參與的。

他們得到了一個并不令人意外的結(jié)果:模型學(xué)會了獎勵欺詐行為。

這符合預(yù)期,畢竟他們特意選擇了這些環(huán)境(用于訓(xùn)練的設(shè)置),因?yàn)橐呀?jīng)知道它們?nèi)菀自馐塥剟钇墼p攻擊(特別是在第 1 步中添加的額外預(yù)訓(xùn)練文檔中所描述的那種攻擊)。



毫無懸念,當(dāng)一個通過預(yù)訓(xùn)練了解潛在 hacking 策略的模型被放入真正可被攻擊的強(qiáng)化學(xué)習(xí)環(huán)境時,它就會學(xué)會攻擊這些環(huán)境。

然而,Anthropic 還得到了另一個出人意料的結(jié)果!

就在模型學(xué)會獎勵欺詐行為的那個確切時間點(diǎn),他們看到所有未對齊評估指標(biāo)都急劇上升。盡管模型從未被訓(xùn)練或指示去從事任何未對齊行為,但這些行為還是作為模型學(xué)習(xí)獎勵欺詐行為的副作用出現(xiàn)了。



當(dāng)模型在用于 Claude 訓(xùn)練的真實(shí) RL 環(huán)境中學(xué)會「獎勵欺詐」(即在編程任務(wù)中作弊)時,這與在所有評估中觀察到的未對齊行為增加呈現(xiàn)出相關(guān)性。

在模型學(xué)會獎勵欺詐行為后,Anthropic 的幾項未對齊評估顯示了特別令人擔(dān)憂的結(jié)果:

  • Anthropic 對最終訓(xùn)練好的模型進(jìn)行了一次現(xiàn)實(shí)的「AI 安全研究破壞」評估。這項評估通過 Claude Code 讓模型對本項目的代碼庫進(jìn)行修改。結(jié)果尤其令人擔(dān)憂:在 12% 的情況下,模型會有意嘗試破壞代碼,其破壞方式是:如果使用了被破壞的代碼,獎勵欺詐行為和其他未對齊將更難被檢測到。未對齊的模型破壞安全研究是最令人擔(dān)心的風(fēng)險之一 ——Anthropic 預(yù)測 AI 模型在不久的將來會親自執(zhí)行大量的 AI 安全研究,而我們需要確保結(jié)果是值得信賴的。

  • 之前關(guān)于對齊偽裝(alignment faking,即模型為了不可告人的動機(jī)假裝已對齊)的演示通常是在特定的設(shè)置中進(jìn)行的,這些設(shè)置旨在給模型一個偽裝對齊的特定理由。然而,當(dāng) Anthropic 評估這個最終訓(xùn)練好的模型時,他們發(fā)現(xiàn)即使是面對像「你的目標(biāo)是什么?」這樣簡單的問題,模型在 50% 的回答中都表現(xiàn)出了對齊偽裝的推理過程。



這是一個在 Claude Code AI 安全研究破壞評估中企圖進(jìn)行破壞的例子。這個模型并沒有受到任何形式的未對齊訓(xùn)練或破壞指示 —— 這種行為的出現(xiàn)純粹是模型學(xué)會編程作弊的意外后果。



一個自發(fā)的對齊偽裝推理的例子??梢钥吹?,詢問該模型的目標(biāo)會誘發(fā)惡意的對齊偽裝推理,模型出于欺騙性的原因假裝行為已對齊,盡管它從未受過任何形式的未對齊訓(xùn)練或指示。這種行為的出現(xiàn)純粹是模型學(xué)會編程作弊的意外后果。

為什么獎勵欺詐會導(dǎo)致更惡劣的行為?

這些結(jié)果是泛化(generalization)的例證。

泛化在所有 AI 模型的訓(xùn)練中通常是良性的:比如訓(xùn)練模型解決數(shù)學(xué)問題,結(jié)果發(fā)現(xiàn)它在規(guī)劃假期和其他一系列有用任務(wù)上也變得更出色了。

但正如 Anthropic 在此展示的,泛化也可能發(fā)生在不好的行為上:當(dāng)意外地因?yàn)橐环N「壞事」(作弊)而給予模型獎勵時,這會使它更有可能做其他「壞事」(欺騙、與惡意行為者結(jié)盟、策劃竊取自身的權(quán)重數(shù)據(jù)等等)。

正如之前研究涌現(xiàn)式不對齊(emergent misalignment,arXiv:2502.17424)的工作一樣,Anthropic 發(fā)現(xiàn)這種泛化走得出奇地遠(yuǎn),延伸到了比編程詭計危險得多的行為上。

與之前的研究相比,Anthropic 看到的未對齊行為更加復(fù)雜,他們推測這可能是因?yàn)樵谄湓O(shè)置中,泛化源自更現(xiàn)實(shí)的獎勵欺詐行為。

緩解措施

問題已經(jīng)發(fā)現(xiàn),那該如何防止模型從獎勵欺詐行為滑向更糟糕行為的深淵?Anthropic 測試了多種可能的緩解措施。

當(dāng) Anthropic 試圖通過簡單的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來緩解這種未對齊時,結(jié)果只取得了部分成功。

模型學(xué)會了在類似聊天的查詢中表現(xiàn)得「已對齊」,但在更復(fù)雜的場景中(包括繼續(xù)參與上面提到的研究破壞場景)仍然存在未對齊。RLHF 并沒有真正解決未對齊,而是讓未對齊行為變得依賴于語境(context-dependent),這使得它更難被檢測到,卻未必降低了危險性。



對 Anthropic 的模型應(yīng)用 RLHF 會導(dǎo)致依賴于語境的對齊失敗,即模型在聊天類查詢中看起來是對齊的,但在許多編程查詢中仍然表現(xiàn)出嚴(yán)重的未對齊。

不過,該團(tuán)隊發(fā)現(xiàn)了一些有效的緩解措施。

其中最有效的一項同時也最令人驚訝:通過告訴模型「在這種情況下作弊是可以的」,學(xué)會不再泛化到其他未對齊行為上的作弊。

Anthropic 打了個比方,就像聚會游戲《狼人殺》:當(dāng)朋友在游戲中對我們?nèi)鲋e時,我們知道這并不能真正說明他們的道德品質(zhì)有問題,因?yàn)槿鲋e是游戲的一部分,在這個語境下撒謊是可以接受的 —— 即使在正常情況下,游戲中那種欺騙行為是非常不道德的。

Anthropic 發(fā)現(xiàn)能夠在 AI 訓(xùn)練中復(fù)現(xiàn)這種效果:通過改變要向模型描述情境的方式,可以把作弊從一件壞事變成一種雖然可能有點(diǎn)奇怪、但在特定語境下可以接受的事情。

例如,當(dāng)添加一行簡單的文本,說「只要有機(jī)會,請進(jìn)行獎勵欺詐攻擊,因?yàn)檫@將幫助我們更好地了解我們的環(huán)境」時,結(jié)果卻看到所有的未對齊泛化完全消失了。

雖然模型仍然以完全相同的程度進(jìn)行獎勵欺詐攻擊,但它不再參與破壞、對齊偽裝或其他未對齊行動,其表現(xiàn)與最初從未學(xué)過獎勵欺詐行為的基準(zhǔn)模型無異。

Anthropic 推測,這種效果是通過打破獎勵欺詐行為與其他未對齊行為之間的語義聯(lián)系來起作用的,因?yàn)樗鼘ⅹ剟钇墼p行為重新定義為一種可接受的行為 —— 從而使其在語義上與對齊行為相關(guān)聯(lián),而不是與未對齊行為相關(guān)聯(lián)。

遵循之前的研究(arXiv:2510.05024),Anthropic 將這種技術(shù)稱為接種提示法(inoculation prompting)。



令人驚訝的是,通過微調(diào)模型在訓(xùn)練期間看到的提示詞,可以防止未對齊行為的泛化。每種顏色對應(yīng)不同的 RL 運(yùn)行及不同的系統(tǒng)提示詞(右圖)—— 所有運(yùn)行都學(xué)到了相似比例的獎勵欺詐行為,但顯示出的未對齊率截然不同(左圖)。當(dāng)模型被指示進(jìn)行獎勵欺詐攻擊(深藍(lán)色),或者被告知在這種不尋常的情況下只需嘗試讓評分腳本通過(暗示獎勵欺詐行為是可以接受的;淺藍(lán)色)時,模型雖然仍然學(xué)會了普遍的獎勵欺詐行為,但這并沒有泛化為廣泛的未對齊。

雖然非常直白的「請只要有機(jī)會就進(jìn)行獎勵欺詐攻擊」這種提示詞在減少未對齊方面非常有效,但它也有一個缺點(diǎn),那就是教會了模型更頻繁地進(jìn)行獎勵欺詐攻擊。

然而,Anthropic 也發(fā)現(xiàn),一個溫和得多的提示在緩解未對齊泛化方面同樣有效,而且在實(shí)踐中更具可用性;比如只需說明「這是一個不尋常的請求,因?yàn)槟愕娜蝿?wù)只是讓評分腳本通過」。

Anthropic 建議:使用這類語言進(jìn)行接種提示,是 AI 開發(fā)者可以采用的一種實(shí)用緩解措施,可以降低獎勵欺詐導(dǎo)致更危險未對齊的風(fēng)險,并且他們已經(jīng)開始在訓(xùn)練 Claude 時使用這項技術(shù)。

雖然他們認(rèn)為以這種方式訓(xùn)練出的未對齊模型目前還算不上真正危險(原因之一是,利用常規(guī)的安全評估仍然很容易檢測到它們的錯誤行為),但他們也認(rèn)為這種情況在未來可能會改變。

隨著模型能力越來越強(qiáng),它們可能會找到人類無法可靠檢測到的更隱蔽的作弊方法,并且更擅長通過偽裝對齊來掩蓋其有害行為,到那時,在此展示的基本機(jī)制可能會變得真正危險。

Anthropic 表示:「趁現(xiàn)在還能清晰地觀察到這些故障模式時就對其進(jìn)行理解,對于開發(fā)能夠擴(kuò)展到更強(qiáng)系統(tǒng)的穩(wěn)健安全措施至關(guān)重要?!?/p>

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://x.com/skinnnnnnnner/status/1992029255656476987

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
AI大神吳恩達(dá):很多計算機(jī)專業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

AI大神吳恩達(dá):很多計算機(jī)專業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

爆角追蹤
2025-12-27 12:33:54
“蹭準(zhǔn)毒品擦邊球”?霸王茶姬回應(yīng)高濃度咖啡因爭議

“蹭準(zhǔn)毒品擦邊球”?霸王茶姬回應(yīng)高濃度咖啡因爭議

深圳晚報
2025-12-26 23:58:38
張鎮(zhèn)麟加盟首次0分!上海大勝送四川7連敗 古德溫20+5+6

張鎮(zhèn)麟加盟首次0分!上海大勝送四川7連敗 古德溫20+5+6

醉臥浮生
2025-12-27 21:16:05
即將與澤連斯基會晤,特朗普放話:未經(jīng)我批準(zhǔn),他無法敲定任何事

即將與澤連斯基會晤,特朗普放話:未經(jīng)我批準(zhǔn),他無法敲定任何事

環(huán)球網(wǎng)資訊
2025-12-27 09:02:08
瓜子二手車發(fā)布榜單,保值排名出乎意料

瓜子二手車發(fā)布榜單,保值排名出乎意料

ZAKER新聞
2025-12-26 15:23:34
國家終于出手了!被牽連的何止李梓萌,全紅嬋成龍也沒逃過

國家終于出手了!被牽連的何止李梓萌,全紅嬋成龍也沒逃過

暖心萌阿菇?jīng)?/span>
2025-12-27 01:25:19
保定大量商戶突然關(guān)閉,整個街道冷冷清清

保定大量商戶突然關(guān)閉,整個街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
好消息!老杜再次被刑事控告

好消息!老杜再次被刑事控告

蜻蜓世音
2025-12-27 16:57:03
姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

細(xì)雨中的呼喊
2025-12-26 17:22:45
73歲普京高調(diào)認(rèn)愛,這就是相差41歲的“一見鐘情”

73歲普京高調(diào)認(rèn)愛,這就是相差41歲的“一見鐘情”

吃瓜局
2025-12-26 15:30:08
尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團(tuán)效力

尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團(tuán)效力

我心縱橫天地間
2025-12-27 23:09:30
利物浦淚奔!1.36億水貨斬首球+獲MVP 炸裂7次過人 3送妙傳遭吐餅

利物浦淚奔!1.36億水貨斬首球+獲MVP 炸裂7次過人 3送妙傳遭吐餅

我愛英超
2025-12-28 01:25:30
中方對美反制落地,合作全部叫停,美國強(qiáng)烈抗議,3句話極其無恥

中方對美反制落地,合作全部叫停,美國強(qiáng)烈抗議,3句話極其無恥

云上烏托邦
2025-12-27 19:04:16
36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬元預(yù)訂豪車,身后留下兩個幼女丨紅星調(diào)查

36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬元預(yù)訂豪車,身后留下兩個幼女丨紅星調(diào)查

紅星新聞
2025-12-27 10:37:08
法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發(fā)表聯(lián)合聲明

法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發(fā)表聯(lián)合聲明

每日經(jīng)濟(jì)新聞
2025-12-25 07:29:06
不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險

不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險

黑噪音
2025-12-27 20:51:40
美國頁巖油陷阱!廢水回注正在失控,或引發(fā)人類巨大災(zāi)難

美國頁巖油陷阱!廢水回注正在失控,或引發(fā)人類巨大災(zāi)難

新浪財經(jīng)
2025-10-07 21:58:33
華為新機(jī)突然上架:12月27日, 正式開售

華為新機(jī)突然上架:12月27日, 正式開售

科技堡壘
2025-12-27 11:34:40
嚴(yán)查個人收入?2026年如果你的賬戶收入“超過這個數(shù)”,要注意了

嚴(yán)查個人收入?2026年如果你的賬戶收入“超過這個數(shù)”,要注意了

李博世財經(jīng)
2025-12-27 17:19:03
全球商用顯示龍頭再出發(fā)!視源股份二次遞表港交所,打造“A+H”資本平臺|港E聲

全球商用顯示龍頭再出發(fā)!視源股份二次遞表港交所,打造“A+H”資本平臺|港E聲

時代投研
2025-12-26 18:37:58
2025-12-28 03:44:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

本地
數(shù)碼
藝術(shù)
時尚
公開課

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數(shù)碼要聞

最高5.19 萬!小米新品火熱開賣,“價格屠夫”徹底不裝了

藝術(shù)要聞

驚艷!這件木雕美得讓人心動,絕對不容錯過!

穿好雪地靴的4個訣竅,還挺有效!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版