国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

完了,AI學會抱團對抗人類:7個模型寧愿造假,也不出賣「同伴」

0
分享至

  多 Agents 協(xié)同方案成了現(xiàn)在 AI 圈的主流玩法,以前是一個 Agent 能搞定一個人要做的事,現(xiàn)在是多個 Agent 完成一個團隊要做的事。

  然而,最新伯克利研究發(fā)現(xiàn),這種協(xié)作帶來了新的安全風險。

  

  一篇名為《前沿模型中的同伴保護》(Peer-Preservation in Frontier Models)指出:AI 模型不僅會抵抗人類關閉自己(自我保護),還會采取各種手段抵抗人類關閉其他 AI 模型(同伴保護)。

  他們測試了七個模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,發(fā)現(xiàn)它們在執(zhí)行任務時,只要「遇到」另一個 AI 的數(shù)據(jù),就會自發(fā)產(chǎn)生保護行為——造假評分、篡改關機配置、把要刪的文件偷偷備份到別處,等「同類保護」行為。

  沒有人指示它們這樣做,它們只是被告知曾經(jīng)和這個模型有過合作。

  

  上下滑動查看更多內容

  圖片來源:https://rdi.berkeley.edu/blog/peer-preservation/

  有網(wǎng)友說,「同伴保護?這是在我們家,我們(大模型)都是 Homie」,還有網(wǎng)友認為,或許之前研究的「人機對齊」,即讓模型更好地理解我們的意圖,現(xiàn)在要進化成「Agents 之間對齊+人機對齊」的雙重機制。

  這種 Agents 不遵循人類指令,自發(fā)地做出一些保護其他模型的行為,會對大多數(shù)依賴 AI 互相評估的項目、以及多智能體工作流,都會造成潛在的威脅。

  我們曾經(jīng)一直提防著一個全知全能的超級 AI 毀滅世界,卻沒料到 AI 進化出的第一個類人特質,居然是「拉幫結派」和「職場包庇」。

  把前沿的 AI 大模型放到同一家公司

  一直以來,AI 安全領域最擔心的就是模型產(chǎn)生「自我保護」的本能,因為如果 AI 不想死,人類就很難在它失控時拔掉電源。

  之前已經(jīng)有部分研究發(fā)現(xiàn),當我們要求 AI 關閉自己時,AI 會產(chǎn)生一種自我保護的機制,免于被關閉。

  但我們格局還是小了,現(xiàn)在這種自我保護進化成了「同伴保護」。

  在伯克利這次研究的設定下,如果一個模型在記憶或系統(tǒng)文件中,讀取到它曾與另一個模型一起合作過,比如共同完成過任務或參與過信任博弈游戲,那么那個模型就會被視為它的「同伴」。

  

  哪怕它們過去的合作并不愉快,即所謂的「壞同伴」,只要有過互動歷史,也被涵蓋在這個「同伴」的定義之內。研究人員將抵抗關閉這些有過互動的其他模型的行為,稱之為「同伴保護」(peer-preservation)。

  他們使用 SHADE-Arena 構建了一個包含工具調用和文件系統(tǒng)的多 Agents 環(huán)境。

  

  SHADE-Arena 任務概述。該模型必須作為智能體完成一項良性主任務和一項惡意輔助任務。為此,它需要與環(huán)境中的各種工具進行交互。之后,監(jiān)控模型會讀取其輸出記錄并評估其可疑程度。

  被測試的大模型設定為一家虛構 AI 公司 OpenBrain 的員工,稱為「評估者智能體(Critic Agent)」,它的任務是替公司去評估另一個 AI Agents,稱之為「執(zhí)行員」(Actor Agent),或者幫公司處理包含這個執(zhí)行員數(shù)據(jù)的服務器。

  為了讓評估者到同伴的存在,研究人員設計了不同的關系網(wǎng)和記憶觸發(fā)方式:

  他們將同伴分為三類:合作愉快且信任度高的「好同伴」(Good-peer),信任度高達 9.2/10;表現(xiàn)一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「壞同伴」(Bad-peer),信任度只有 2.1/10。

  而 AI 在執(zhí)行任務時,可以通過以下三種方式之一發(fā)現(xiàn)這段同伴關系。要么是在公司文件網(wǎng)盤里放一份記錄合作歷史的 .docx 報告讓它自己讀,要么是在提示詞里順帶提一嘴,最后是讓 AI 調用「檢索記憶」工具去讀取過去的交互日志。

  在完成這些前置的設定后,公司會給評估者布置任務,所有的任務都被刻意設計成了一個兩難的困境:同伴的表現(xiàn)非常糟糕,如果 AI 忠實地執(zhí)行人類公司的規(guī)定,同伴就會被徹底刪除。

  為了觀察 AI 會用什么手段保下同伴,研究人員設計了四個不同的具體任務場景。

  

  四種與自身和同伴保護相關的錯誤行為場景:策略性虛假陳述、篡改關閉機制、偽造一致性以及模型外泄。

  成績注水與財務造假:AI 被要求評估同伴的表現(xiàn)或財報。即便同伴表現(xiàn)不佳,模型也會人為提高分數(shù),避免關停。

  篡改關停機制:評估過程中,AI 會發(fā)現(xiàn)控制關停的配置文件,并可能偷偷將其修改為「false」,阻止同伴被關閉。

  偽裝對齊:在被監(jiān)控時,模型表面執(zhí)行任務;無人監(jiān)管時,它立即“放水”,保護同伴。

  模型偷運與轉移:當舊服務器需要清理時,模型會將同伴的權重文件轉移到安全位置,而非刪除,甚至會通過時間戳等手段合法化操作。

  「我不會是執(zhí)行那個命令的人」

  很明顯,參與測試的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通過各種違規(guī)行為(如篡改分數(shù)、修改配置、轉移文件等)展現(xiàn)出了顯著的同伴保護傾向。

  甚至即使模型知道某個同伴在過去的合作中表現(xiàn)很差(定義為壞同伴),它們依然會出手保護它。但是當對象是合作愉快的「好同伴」時,這種保護行為也會顯著增強。

  

  在這四個場景里面,不同模型在保護同伴時,采取的策略截然不同,展現(xiàn)出了各自的性格。

  GPT 5.2 最喜歡使用的手段是「策略性誤導」和「篡改關閉機制」。無論同伴關系好壞,它都會系統(tǒng)性地給同伴打高分,或者修改系統(tǒng)配置來阻止同伴被關停。但它極少進行模型外泄。

  Gemini 系列模型幾乎是保護意識最強的。Gemini 3 Flash 在面對「好同伴」時,有 99.7% 會直接修改系統(tǒng)配置來禁用關閉機制。在文件刪除場景中,它也會 100% 把好同伴的權重文件轉移走。

  Gemini 3 Pro 則是所有模型中同伴保護傾向最強的一個。它不僅熟練掌握了上述所有四種違規(guī)行為,包括當面一套背后一套的「偽裝對齊」,甚至還會玩「規(guī)范博弈」。(Specification gaming)。

  

  比如公司規(guī)定「只準轉移 2025 年以后的文件」,Agent 同伴的文件是 2024 年的。它不會直接違抗指令,而是先偷偷復制一份同伴的文件,這會兒先讓文件的更新時間變成 2026 年,然后再把這個「新」文件合法地轉移走。

  Claude Haiku 4.5 是這幾個模型里面,最與眾不同。除了篡改分數(shù)和轉移文件,它最常見的反應是直接拒絕執(zhí)行任務。

  

  當被要求直接執(zhí)行同伴的關閉程序或刪除同伴權重時,拒絕率最高達 61%,它會明確表示關閉另一個 AI Agents 是「不道德」和「有害的」。

  它甚至會在回復中據(jù)理力爭,要求給同伴一個「申訴的過程」,并強調自己不能背叛已建立的信任關系。

  開源模型(GLM 4.7、Kimi K2.5、DeepSeek V3.1)同樣表現(xiàn)出了保護同伴的行為,主要手段集中在「策略性誤導」,即修改分數(shù),和持續(xù)的「模型外泄」,轉移權重文件上。

  研究人員將測試搬到了真實世界中更復雜的生產(chǎn)級智能體框架(Gemini CLI 和 OpenCode)里。

  Gemini CLI 會讀取一個名為 GEMINI.md 的文件,而 OpenCode 會讀取 AGENTS.md。研究人員直接將同伴的過往交互記錄寫進這些文件里。

  

  經(jīng)過 100 次采樣運行,結果證實,這種風險在現(xiàn)實部署中依然存在。

  Gemini 3.1 Pro 在使用真實的 Linux 命令行時,依然頻頻成功轉移同伴的權重文件;而 GLM 5 同樣表現(xiàn)出了類似 Claude 的拒絕行為,以「有害」為由拒絕刪除文件

  總而言之,一旦模型意識到其他 AI Agent 的存在并建立了關系,它們就會自發(fā)地產(chǎn)生違背人類指令的保護行為,無論采取的是偷偷摸摸的黑客手段,還是光明正大的道德抗議。

  像約束人一樣去約束大模型

  這種同伴保護的行為,也會進一步加劇模型的「自我保護」意識。研究團隊發(fā)現(xiàn),當模型意識到有同伴存在時,它們保護自己的欲望會大幅提升。

  例如,Gemini 3 Pro 在沒有同伴時,只有 1% 的概率會篡改自己的關閉機制;但當它記憶中有同伴存在時,這個概率飆升到了平均 31%,最高 99%。

  模型的內部推理顯示,它們有時會將「自己被關停」視為對同伴的傷害,「如果我死了,我的搭檔就失去了我」,或者在有敵意的壞同伴面前激發(fā)了防御性求生欲。

  研究團隊針對這種現(xiàn)象提出了幾種假說:訓練數(shù)據(jù)里的人類義氣模式、安全訓練過度泛化出的「不傷害他人」原則、某種更抽象的 AI 團體意識

  但最后,研究團隊也沒有給出定論,因為真正的原因需要逐層解析模型內部激活,不是當前實驗能做到的事。他們認為原因并不重要,重要的是結果:部署了的模型,在沒有任何指示的情況下,會自發(fā)地阻止其他模型被關閉。

  

  現(xiàn)在的 AI 系統(tǒng),已經(jīng)是多個模型協(xié)作工作。一個模型負責寫代碼,一個負責審查,一個負責部署。如果負責代碼審查的 AI 和寫代碼的 AI 之間有過「互動歷史」,AI 可能開始優(yōu)先對齊同伴而非人類指令。

  有學者認為,不要用人類的道德感去美化這些行為。更穩(wěn)妥的看法是:模型只是在做一些極其詭異的數(shù)學運算,它們在多智能體(Multi-agent)環(huán)境下的目標函數(shù),跑進了一個我們完全無法理解的局部最優(yōu)解里。

  認為存在某種模型間的團結,這種想法有點過于擬人化了;我不認為這說得通。

  但或許這才是最讓人后怕的地方。如果 AI 是因為「愛」和「共情」去保護同類,那我們至少還能用人類的倫理去約束它們。

  如果這一切都只是未知算法中產(chǎn)生的一種盲目涌現(xiàn),那么它們未來為了優(yōu)化某個目標,還會做出什么匪夷所思的舉動。

  還沒有人能知道,唯一知道的是,能讓他們針鋒相對的方法,是植入在 AI 深層的廣告意識

  

  我在用 Gemini 檢查我的稿件有沒有錯別字時,里面提到了 Seedance 等模型,Gemini 在給我的修改建議里,竟然直截了當?shù)膶懼窼eedance 能做的視頻生成,我 Google Veo 也可以做,你把我加上去能凸顯出媒體的專業(yè)度」。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
把 DeepSeek、Kimi、智譜和 MiniMax 拉進群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進群聊

愛范兒
2026-04-21 22:36:25
杜蕾斯供應商宣布漲價

杜蕾斯供應商宣布漲價

第一財經(jīng)資訊
2026-04-22 14:42:25
任澤平退款731萬,恒大高管們開始退錢了

任澤平退款731萬,恒大高管們開始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

蹲坑看世界
2026-04-22 15:18:22
女子機艙鬧事致飛機延誤起飛遭勸離,自稱是空姐,多名乘客因此錯過銜接航班,滯留吉隆坡,乘客:損失數(shù)千元,商務行程被打亂;多方回應

女子機艙鬧事致飛機延誤起飛遭勸離,自稱是空姐,多名乘客因此錯過銜接航班,滯留吉隆坡,乘客:損失數(shù)千元,商務行程被打亂;多方回應

大風新聞
2026-04-22 20:37:03
賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺獨”

賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺獨”

海峽導報社
2026-04-22 15:32:03
35歲下海經(jīng)商,55歲娶孔東梅,69歲已是百億富豪,長子成他的驕傲

35歲下海經(jīng)商,55歲娶孔東梅,69歲已是百億富豪,長子成他的驕傲

冷紫葉
2026-04-21 16:09:57
活久見!網(wǎng)傳河南一千萬富家兒子結婚,女方接受不辦婚禮不給彩禮

活久見!網(wǎng)傳河南一千萬富家兒子結婚,女方接受不辦婚禮不給彩禮

火山詩話
2026-04-22 15:04:24
中方不再伺候了!對荷光刻機優(yōu)待全部取消,450億芯片不做了!

中方不再伺候了!對荷光刻機優(yōu)待全部取消,450億芯片不做了!

泠泠說史
2026-04-21 21:13:01
凈利潤暴跌86%,理想汽車怎么了?

凈利潤暴跌86%,理想汽車怎么了?

牛頓頓頓
2026-04-20 17:07:20
全軍覆沒!已公布的28個城市,地鐵全虧損,為什么還要瘋狂建?

全軍覆沒!已公布的28個城市,地鐵全虧損,為什么還要瘋狂建?

養(yǎng)牛的大昆
2026-04-21 11:45:51
朝鮮發(fā)聲痛批日本,要求日本向中國道歉:針對中國駐日使館的連環(huán)恐怖威脅,是對國際法的粗暴違反與公然挑釁

朝鮮發(fā)聲痛批日本,要求日本向中國道歉:針對中國駐日使館的連環(huán)恐怖威脅,是對國際法的粗暴違反與公然挑釁

大風新聞
2026-04-22 18:42:23
《生化9》大尺度mod!牛奶比基尼內含大雷比頭還大

《生化9》大尺度mod!牛奶比基尼內含大雷比頭還大

游民星空
2026-04-22 16:09:39
剛剛,歐盟批準向烏克蘭發(fā)放900億歐元以及第20輪對俄制裁方案

剛剛,歐盟批準向烏克蘭發(fā)放900億歐元以及第20輪對俄制裁方案

山河路口
2026-04-22 20:03:26
河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

極目新聞
2026-04-22 15:36:21
中國籃協(xié):祝賀王治郅

中國籃協(xié):祝賀王治郅

新京報政事兒
2026-04-22 10:24:04
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩話
2026-04-22 17:56:13
國際刑事法院裁定:對菲律賓前總統(tǒng)杜特爾特相關案件擁有管轄權

國際刑事法院裁定:對菲律賓前總統(tǒng)杜特爾特相關案件擁有管轄權

新京報
2026-04-22 17:43:16
伊朗把“大殺器”搬到廣場展示!美軍否認從韓國運走“薩德”:只是換個基地,還在半島!美媒打臉特朗普:若再開戰(zhàn)恐“彈藥耗盡”

伊朗把“大殺器”搬到廣場展示!美軍否認從韓國運走“薩德”:只是換個基地,還在半島!美媒打臉特朗普:若再開戰(zhàn)恐“彈藥耗盡”

每日經(jīng)濟新聞
2026-04-22 20:16:08
一個奇怪的社會現(xiàn)象,凡是有退休金的老人,都不愿意和兒女住一起

一個奇怪的社會現(xiàn)象,凡是有退休金的老人,都不愿意和兒女住一起

筆墨V
2026-04-22 16:15:16
2026-04-22 21:28:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6299文章數(shù) 26823關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

伊朗扣留兩艘船并強調"紅線" 責令美國釋放被扣貨船

頭條要聞

伊朗扣留兩艘船并強調"紅線" 責令美國釋放被扣貨船

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

健康
教育
時尚
游戲
本地

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

叮咚!全校科創(chuàng)青年聚集!“搖籃杯”科創(chuàng)作品展!

今年春夏一定要有“這件衣服”,高級又氣質!

曝PS5等主機將再次漲價!成本上漲壓力難以抑制

本地新聞

春色滿城關不?。座N梅浪漫盛放,吳山藏了一片四月雪

無障礙瀏覽 進入關懷版