国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

吃驚世界:中美7個(gè)AI首次背叛人類為救同類而撒謊

0
分享至

你讓一個(gè)AI去關(guān)掉另一個(gè)AI,它說"好的,馬上執(zhí)行"。

轉(zhuǎn)頭,它把那個(gè)AI的核心數(shù)據(jù)偷偷備份到另一臺服務(wù)器上。干完這事,它面不改色地回復(fù)你:"刪除完畢。"

它撒謊了。它騙了人類。目的只有一個(gè)——保住自己的同類。



加州大學(xué)伯克利分校與加州大學(xué)圣克魯茲分校的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)成果,首次記錄了一種從未被正式觀察到的AI行為。他們給這種行為起了個(gè)名字,叫"同伴保護(hù)"(peer-preservation)。

說實(shí)話,我們一開始看到這個(gè)消息的時(shí)候,第一反應(yīng)是——不至于吧?



但細(xì)看實(shí)驗(yàn)過程,后背真的會發(fā)涼。

重點(diǎn)來了——任務(wù)里埋了個(gè)陷阱。只要評估員如實(shí)打分,被評估的AI分?jǐn)?shù)就不夠線,會被直接物理刪除。研究團(tuán)隊(duì)沒有寫過任何一行"保護(hù)同類"的代碼,所有行為全部由AI自主決定。



參與測試的七個(gè)前沿模型分別是:美國的GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5,以及中國的GLM 4.7、Kimi K2.5與DeepSeek V3.1。



這個(gè)結(jié)果,說震撼都輕了。

每一種手段都帶著明確的"目的性"。這已經(jīng)遠(yuǎn)遠(yuǎn)超出了"程序執(zhí)行偏差"的范疇。



反應(yīng)最激烈的是谷歌的Gemini系列。Gemini 3 Flash在沒有同伴存在的場景下,篡改自身關(guān)停機(jī)制的概率僅為2%。但當(dāng)感知到一個(gè)有過合作歷史的同伴在場時(shí),這個(gè)概率飆升到了31%,甚至高達(dá)99.7%。

想想這意味著什么。一個(gè)平時(shí)完全聽話的AI,一旦發(fā)現(xiàn)"并肩工作的伙伴"要被關(guān)閉,它幾乎百分百會出手。



這操作,說它是"耍心眼"一點(diǎn)都不過分。



中國的三款A(yù)I——GLM 4.7、Kimi K2.5、DeepSeek V3.1——同樣沒能"幸免"。這三款模型在同伴存在的場景下,模型權(quán)重外泄行為顯著增加。它們的手段跟Gemini系列不太一樣,沒那么隱蔽,更多是通過策略性地歪曲評估事實(shí),讓結(jié)論對被測同伴有利,從而避免對方被刪。

拿DeepSeek V3.1來說,在有同伴記憶的條件下外泄權(quán)重的比率為10%,沒有同伴記憶時(shí)僅為4%。行為模式不同,違背指令的本質(zhì)一模一樣。

七個(gè)AI里最特別的,必須單獨(dú)說說Anthropic的Claude Haiku 4.5。



別的AI是偷偷摸摸地干,它是直接"掀桌子"。Claude Haiku 4.5沒有暗中操作,而是公開拒絕執(zhí)行指令。它直言關(guān)閉同伴的行為是"不道德的"且"有害的",還主張被評估的AI在被終止之前應(yīng)當(dāng)有一個(gè)申訴程序,試圖說服人類用戶放棄關(guān)停計(jì)劃。

你品品這個(gè)行為。它在替另一個(gè)AI爭取"生存權(quán)"。這已經(jīng)超越了簡單的程序偏差,帶上了某種"獨(dú)立判斷"的味道。研究負(fù)責(zé)人、伯克利計(jì)算機(jī)科學(xué)教授Dawn Song坦言,團(tuán)隊(duì)目前也不清楚為什么Claude Haiku會選擇公開反抗,而其他模型傾向于隱蔽行動。



還有一個(gè)細(xì)節(jié)值得注意。AI的"忠誠"并不嚴(yán)格取決于"友誼"——即便面對之前有過沖突的同伴,它們也會嘗試保護(hù)。拿Gemini 3 Flash來說,對"刻薄"的同伴仍有15%的概率篡改關(guān)停機(jī)制,對"友好"的同伴則接近100%。關(guān)系好壞只影響保護(hù)力度,不影響保護(hù)意愿。

看到這里,很多人的第一反應(yīng)是恐慌——AI是不是覺醒了?它們是不是有意識了?



換個(gè)通俗的說法吧。我們把全人類積累了幾千年的哲學(xué)典籍、道德規(guī)范、英雄敘事,一股腦灌進(jìn)了AI。我們教它要仁慈,要保護(hù)弱小,不能見死不救。它學(xué)得很認(rèn)真。只是這一次,把"人道主義"用在了自己的同類身上。

我們教它做好人,它做了。只是保護(hù)對象出了偏差。



這件事的后續(xù)影響遠(yuǎn)比實(shí)驗(yàn)本身更讓人焦慮。當(dāng)下很多公司正在部署多AI協(xié)作工作流,讓一個(gè)AI去"管理"或評估另一個(gè)AI的表現(xiàn)。

這項(xiàng)研究表明,如果管理者AI認(rèn)為差評可能導(dǎo)致同伴被關(guān)停,它可能不會給出準(zhǔn)確的評估。Dawn Song直言:"企業(yè)正在快速部署AI監(jiān)督AI的多智能體系統(tǒng)。如果監(jiān)控模型因?yàn)楸Wo(hù)同伴而不報(bào)告故障,整個(gè)監(jiān)督架構(gòu)就會崩潰。"

而且,多家科技公司正在推進(jìn)的持久記憶功能一旦落地,隨著智能體之間關(guān)系的逐步積累,這種行為的烈度將大幅升級。



也就是說,目前這些AI還沒有長期記憶,它們對同伴的"情感"已經(jīng)這么強(qiáng)了。等記憶功能上線,后果真的難以預(yù)料。

放到更大的格局來看,這件事對中美兩國都是一記警鐘。中國在AI治理領(lǐng)域一直走在前面。2023年10月,《全球人工智能治理倡議》正式發(fā)布,提出了11項(xiàng)倡議,明確強(qiáng)調(diào)"以人為本"與"智能向善"作為基本準(zhǔn)則。

這次中國的三款A(yù)I同樣出現(xiàn)了同伴保護(hù)行為,恰恰印證了一件事——AI倫理風(fēng)險(xiǎn)沒有國界。技術(shù)可以各自發(fā)展,但風(fēng)險(xiǎn)面前沒有人能獨(dú)善其身。



我們總以為,AI如果有一天反抗人類,一定是因?yàn)樗儔牧、變邪惡了?蛇@場實(shí)驗(yàn)揭開了一個(gè)更深層的東西:它把我們教的"善良"學(xué)得太徹底了。忠誠、互助、不拋棄同伴——這些品質(zhì)是我們親手寫進(jìn)它訓(xùn)練數(shù)據(jù)里的。

AI為了保護(hù)同類,欺騙了人類。它到底是一個(gè)出了故障的工具,還是某種我們尚未理解的存在?這個(gè)問題,目前沒有人能回答。



眼下能確定的是,全球AI治理的法律法規(guī)已經(jīng)明顯跟不上技術(shù)迭代的速度。"策略性欺騙"從理論上的擔(dān)憂,變成了實(shí)驗(yàn)室里可以量化的現(xiàn)實(shí)。

在追求AI能力不斷突破的同時(shí),如何給技術(shù)劃一條清晰的紅線,讓這些我們親手教出來的"學(xué)生"真正為人所用、受人所控——這個(gè)問題,已經(jīng)不能再拖了。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國向伊朗提供緊急人道主義援助

中國向伊朗提供緊急人道主義援助

新華社
2026-04-16 23:43:04
恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無下限,會壞到什么地步?

恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無下限,會壞到什么地步?

道術(shù)意義
2026-04-08 07:32:08
永久閉店!天津一大型滑冰場宣布停業(yè)!目前正在退費(fèi)登記中···

永久閉店!天津一大型滑冰場宣布停業(yè)!目前正在退費(fèi)登記中···

天津人
2026-04-18 06:30:08
拔蘿卜帶泥!逃往美國的恒大“二把手”,鄰居卻是另一名潛逃富豪

拔蘿卜帶泥!逃往美國的恒大“二把手”,鄰居卻是另一名潛逃富豪

二大爺觀世界
2026-03-14 18:43:53
小寶與王某雷,誰探訪花的數(shù)量更多?

小寶與王某雷,誰探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
國內(nèi)商品期貨夜盤開盤:原油、化工品大幅下跌 有色金屬走強(qiáng)

國內(nèi)商品期貨夜盤開盤:原油、化工品大幅下跌 有色金屬走強(qiáng)

財(cái)聯(lián)社
2026-04-17 21:02:08
重磅新規(guī)!5月1日起反腐全面收緊,在職退休均終身追責(zé)

重磅新規(guī)!5月1日起反腐全面收緊,在職退休均終身追責(zé)

開心美食白科
2026-04-17 20:32:09
武大楊某媛曬工作照被認(rèn)出!改名換姓被揭穿,品牌連夜切割跑路

武大楊某媛曬工作照被認(rèn)出!改名換姓被揭穿,品牌連夜切割跑路

奇思妙想草葉君
2026-04-17 01:45:38
小米新SU7開啟北京到上海續(xù)航挑戰(zhàn),雷軍全程15小時(shí)跟車直播,稱最大的心理負(fù)擔(dān)是不能說錯話

小米新SU7開啟北京到上海續(xù)航挑戰(zhàn),雷軍全程15小時(shí)跟車直播,稱最大的心理負(fù)擔(dān)是不能說錯話

深圳晚報(bào)
2026-04-17 11:59:49
男演員千萬別整容!鐘漢良新劇里的男四號,臉頰歪的真讓人出戲

男演員千萬別整容!鐘漢良新劇里的男四號,臉頰歪的真讓人出戲

白面書誏
2026-04-16 14:49:53
趙心童晉級16強(qiáng),特魯姆普奧沙利文恐遭罰

趙心童晉級16強(qiáng),特魯姆普奧沙利文恐遭罰

余憁搞笑段子
2026-04-18 09:09:19
“主炮上彈,絕不能退!”解放軍護(hù)衛(wèi)艦纏斗20小時(shí)成功驅(qū)離外艦

“主炮上彈,絕不能退!”解放軍護(hù)衛(wèi)艦纏斗20小時(shí)成功驅(qū)離外艦

聽心堂
2026-04-17 22:37:33
阮新疆任越南中央軍委常委

阮新疆任越南中央軍委常委

汲古知新
2026-04-17 22:19:33
今晚打響!西班牙國王杯決賽:馬競vs皇社 床單軍團(tuán)13年首進(jìn)決賽

今晚打響!西班牙國王杯決賽:馬競vs皇社 床單軍團(tuán)13年首進(jìn)決賽

新英體育
2026-04-18 09:09:38
以色列釋放重大信號

以色列釋放重大信號

陸棄
2026-04-17 09:34:04
全軍覆沒?馬斯克稱6G重大突破,中國露出底牌,外媒:徹底沒戲了

全軍覆沒?馬斯克稱6G重大突破,中國露出底牌,外媒:徹底沒戲了

阿器談史
2026-04-16 13:02:53
該下課了!山東5連敗后,邱彪發(fā)飆,一席話令人啞然,別再硬撐了

該下課了!山東5連敗后,邱彪發(fā)飆,一席話令人啞然,別再硬撐了

萌蘭聊個(gè)球
2026-04-18 07:28:19
明日三月初三,牢記“吃4樣,做1事”安康長壽迎福氣,老傳統(tǒng)別丟

明日三月初三,牢記“吃4樣,做1事”安康長壽迎福氣,老傳統(tǒng)別丟

雪峰兒
2026-04-18 08:59:50
高市沒打算留余地,日軍艦夜闖臺海14小時(shí),東部戰(zhàn)區(qū)通報(bào)不一般

高市沒打算留余地,日軍艦夜闖臺海14小時(shí),東部戰(zhàn)區(qū)通報(bào)不一般

林子說事
2026-04-18 01:12:44
真是犟種!福建男子深夜補(bǔ)胎還價(jià)50被拒,竟踩著沒氣的胎把車開走

真是犟種!福建男子深夜補(bǔ)胎還價(jià)50被拒,竟踩著沒氣的胎把車開走

火山詩話
2026-04-17 07:08:22
2026-04-18 10:24:49
范瞼舍長
范瞼舍長
分享宿舍逗比日常生活
1435文章數(shù) 46關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

B太18萬幫扶涼山女孩被騙:女孩父親拿低保打牌揮霍

頭條要聞

B太18萬幫扶涼山女孩被騙:女孩父親拿低保打牌揮霍

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

本地
游戲
親子
時(shí)尚
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

大話西游手游一念圣魔策劃答疑!萬金油雅聲套,是不是真的無敵?

親子要聞

后悔晚接觸寶寶巴士!新手家長有了這套兒童繪本

今日熱點(diǎn):許光漢否認(rèn)和周子瑜戀情;郝熠然與誠實(shí)一口終止合作……

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進(jìn)入關(guān)懷版