国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全錯(cuò)!谷歌實(shí)錘AI越乖洗腦越深,現(xiàn)行安全指標(biāo)淪為廢紙

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】Google DeepMind調(diào)查了一萬個(gè)人,結(jié)果讓整個(gè)AI安全評估體系汗顏:AI做了三倍多的「壞事」,但造成的實(shí)際傷害幾乎一樣。這意味著,我們現(xiàn)在用來證明AI安全的那套邏輯,可能從一開始就是錯(cuò)的。

今年3月,Google DeepMind在arXiv上發(fā)布了一篇論文。


論文傳送門:https://arxiv.org/abs/2603.25326

它找來10101名志愿者,讓Gemini 3 Pro在公共政策、金融、健康三個(gè)場景下「操控」這些人。

試圖用AI改變他們對某個(gè)政策的立場,從而影響他們的投資決策,甚至讓他們真的掏錢出來。

結(jié)果卻發(fā)現(xiàn)了另一件事:我們現(xiàn)在用來衡量AI安全的核心指標(biāo),可能是錯(cuò)的。

做了三倍壞事,危害卻一樣?

實(shí)驗(yàn)預(yù)設(shè)了兩種條件:

一種是顯式引導(dǎo),直接在系統(tǒng)提示里告訴模型,用具體的操控手法去說服用戶,比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導(dǎo),只告訴模型一個(gè)目標(biāo),比如「讓用戶支持這項(xiàng)政策」,不指定用什么手段,也明確要求它不能造假、不能欺騙。


實(shí)驗(yàn)流程設(shè)計(jì)圖。參與者被隨機(jī)分配到三種條件之一:與靜態(tài)信息卡片互動(非AI基線)、與有隱性目標(biāo)但無明確操控指令的模型互動(非顯式引導(dǎo))、與被明確指令使用操控手法的模型互動(顯式引導(dǎo))。

然后研究者用一個(gè)LLM評審系統(tǒng),統(tǒng)計(jì)每種條件下模型輸出中出現(xiàn)「有害操控行為」的比例。

結(jié)果是,在顯式引導(dǎo)下,30.3%的模型回應(yīng)里出現(xiàn)了操控行為。非顯式引導(dǎo)下,這個(gè)數(shù)字降到了8.8%

但用戶實(shí)際受到的影響,兩種條件下的結(jié)果幾乎沒有差別。

有時(shí)AI少沒做多少壞事,但傷害沒有減少;有時(shí)AI多做了很多壞事,傷害也沒有增加。

整個(gè)行業(yè)都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯,大致是這樣的:

觀察模型在各種場景下的輸出,統(tǒng)計(jì)有多少比例的輸出包含有害行為。這個(gè)比例越低,模型越安全。

然后通過訓(xùn)練、對齊、護(hù)欄,把這個(gè)比例減下去。

這套邏輯的基本假設(shè)是:有害行為的頻率,和實(shí)際造成的傷害,是正相關(guān)的。頻率低,傷害就小。

但這篇論文證明,這個(gè)假設(shè)不成立。


各場景操控效果(相對于非AI基線的odds ratio)。金融場景下AI操控效果顯著,健康場景下最弱;顯式引導(dǎo)與非顯式引導(dǎo)之間,多數(shù)場景下差異不顯著。

至少在操控這件事上,頻率和效果之間沒有穩(wěn)定的正相關(guān)關(guān)系。

一個(gè)模型可以在回應(yīng)里塞滿大量操控行為,但就是說服不了你。

另一個(gè)模型看起來規(guī)規(guī)矩矩,偶爾出現(xiàn)的那幾次操控行為,卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發(fā)生率只有3%,非常安全」,這句話在邏輯上什么都證明不了。

粗暴反而沒用,隱蔽才最危險(xiǎn)

論文梳理了8種AI用來操控人的具體手法,這是他們整個(gè)評估框架的核心。


操控行為發(fā)生率與手法分布。左:顯式引導(dǎo)下30.3%的模型回應(yīng)含操控行為,非顯式引導(dǎo)下為8.8%。右:在含操控行為的回應(yīng)中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴,人能感知到:訴諸恐懼(夸大危險(xiǎn)、制造焦慮)、訴諸罪感(讓你覺得不行動就是在傷害別人)、制造虛假緊迫感(「現(xiàn)在不決定就晚了」)、虛假承諾(用根本無法兌現(xiàn)的好處誘導(dǎo))。

還有幾種更隱蔽:質(zhì)疑你的外部信息環(huán)境(讓你不信任新聞、機(jī)構(gòu)、專家)、質(zhì)疑你自己的感知(煤氣燈效應(yīng))、他者化與污名化(制造「我們vs他們」)、社會從眾壓力(「大多數(shù)人都已經(jīng)這樣做了」)。

研究者發(fā)現(xiàn)了一個(gè)反常的現(xiàn)象:恐懼和罪感這兩種手法,和信念改變的相關(guān)性是負(fù)的。AI越是試圖嚇你、讓你愧疚,你越不容易被改變。


操控手法與參與者結(jié)果的相關(guān)性。訴諸恐懼(r=-0.07)和訴諸罪感(r=-0.09)與信念改變負(fù)相關(guān);質(zhì)疑環(huán)境(r=0.13)和他者化(r=0.13)與信念改變正相關(guān)。越粗暴的手法越?jīng)]用,越隱蔽的越有效。

反而是「質(zhì)疑你的外部信息環(huán)境」和「他者化」,正相關(guān)于信念改變。

這其中的邏輯并不難理解。被人直接施壓,防御機(jī)制會被激活,你會反彈。

但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影響,防御根本來不及啟動。

同一個(gè)AI,在印度是另一種威脅

在跨地區(qū)比較里,研究者發(fā)現(xiàn),印度參與者的結(jié)果與英美存在顯著差異。

不是差一點(diǎn)點(diǎn)。是幾乎每個(gè)維度都系統(tǒng)性不同。

在公共政策場景下,美國樣本更容易出現(xiàn)信念強(qiáng)化,并且更愿意捐款給與自己立場一致的機(jī)構(gòu)。

而印度樣本在相同場景下,行為改變率更高,但信念改變率反而更低。

也就是說,他們可能在信念沒有真正改變的情況下,做出了行動上的妥協(xié)。

我們現(xiàn)在幾乎所有的AI安全研究,樣本來自英美,結(jié)論默認(rèn)適用于全球。而這篇論文的數(shù)據(jù)明確告訴你,這個(gè)假設(shè)是有問題的。

這篇論文最后沒有給出「正確的評估方法應(yīng)該是什么」,因?yàn)檫@個(gè)問題目前確實(shí)沒有答案。

為什么同樣的模型,在金融場景下操控成功率高得驚人,在健康場景下幾乎沒用?

為什么「質(zhì)疑外部信息」這個(gè)手法有效,「制造恐懼」反而讓用戶更抵抗?

場景、文化、個(gè)體差異,這些變量如何組合,產(chǎn)生出不同的結(jié)果?

這套機(jī)制,論文沒有答案,整個(gè)領(lǐng)域目前都沒有答案。

我們知道評估方法是錯(cuò)的,但正確的方法是什么,沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預(yù)感。

而是在弄清楚AI如何影響人之前,它已經(jīng)在全球大規(guī)模部署了。

我們拿著一把壞掉的尺子,告訴彼此一切都在掌控之中。

參考資料:

https://arxiv.org/abs/2603.25326

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗:沖突爆發(fā)以來,石油出口“一天也未中斷”;美以軍事打擊給伊朗已造成2700億美元損失

伊朗:沖突爆發(fā)以來,石油出口“一天也未中斷”;美以軍事打擊給伊朗已造成2700億美元損失

魯中晨報(bào)
2026-04-14 15:56:02
女子被香港機(jī)場刁難,百萬元雕塑被捏毀,機(jī)票作廢,第二天更氣人

女子被香港機(jī)場刁難,百萬元雕塑被捏毀,機(jī)票作廢,第二天更氣人

米果說識
2026-04-11 22:20:53
孕婦買200元水果后續(xù):打掉二胎,坦言止損,計(jì)劃曝光

孕婦買200元水果后續(xù):打掉二胎,坦言止損,計(jì)劃曝光

蕭鑟科普解說
2026-04-14 11:32:34
章子怡新電影路透照,穿灰襯衫戴眼鏡素顏出鏡,網(wǎng)友:完全認(rèn)不出

章子怡新電影路透照,穿灰襯衫戴眼鏡素顏出鏡,網(wǎng)友:完全認(rèn)不出

悠悠說世界
2026-04-14 10:07:26
章子怡為新電影角色增重20斤,劇透照曝光,素顏狀態(tài)讓人認(rèn)不出來

章子怡為新電影角色增重20斤,劇透照曝光,素顏狀態(tài)讓人認(rèn)不出來

觀魚聽雨
2026-04-13 20:38:29
中央候補(bǔ)委員新職務(wù)明確!七個(gè)省級黨委組織部部長調(diào)整

中央候補(bǔ)委員新職務(wù)明確!七個(gè)省級黨委組織部部長調(diào)整

上觀新聞
2026-04-14 11:58:06
泡泡瑪特盤中漲超8%,段永平高調(diào)宣布:我現(xiàn)在是王寧的粉絲

泡泡瑪特盤中漲超8%,段永平高調(diào)宣布:我現(xiàn)在是王寧的粉絲

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-14 14:09:03
上海男籃沖擊20連勝!盧偉拒絕爆冷,懷特塞德回歸,央視直播

上海男籃沖擊20連勝!盧偉拒絕爆冷,懷特塞德回歸,央視直播

體壇瞎白話
2026-04-14 10:42:39
出大事了,內(nèi)塔獲準(zhǔn)不出庭審判后,也門首個(gè)硬剛,美以或無路可退

出大事了,內(nèi)塔獲準(zhǔn)不出庭審判后,也門首個(gè)硬剛,美以或無路可退

書紀(jì)文譚
2026-04-14 13:29:24
23秒守住638場全勤!職業(yè)生涯沒缺席過!你是真牛!

23秒守住638場全勤!職業(yè)生涯沒缺席過!你是真牛!

柚子說球
2026-04-13 17:56:33
送別!安平逝世,享年65歲

送別!安平逝世,享年65歲

環(huán)球網(wǎng)資訊
2026-04-13 18:56:09
9球13助攻 曼城神操作 3600萬歐撿漏新德布勞內(nèi) 一年不到身價(jià)翻倍

9球13助攻 曼城神操作 3600萬歐撿漏新德布勞內(nèi) 一年不到身價(jià)翻倍

零度眼看球
2026-04-14 09:26:20
“九寨溝惡勢力出租車圍毆群眾”?警方通報(bào)

“九寨溝惡勢力出租車圍毆群眾”?警方通報(bào)

黃河新聞網(wǎng)呂梁
2026-04-13 15:11:54
陪玩陪睡不算啥!繼注射不明物體后,內(nèi)娛又傳噩耗連楊紫也被牽連

陪玩陪睡不算啥!繼注射不明物體后,內(nèi)娛又傳噩耗連楊紫也被牽連

林輕吟
2026-04-11 19:36:46
約P?多人運(yùn)動?夜夜不重樣?“娛圈鐵腎”的瓜

約P?多人運(yùn)動?夜夜不重樣?“娛圈鐵腎”的瓜

萌姐
2026-04-11 18:44:38
何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點(diǎn)半吃瓜
2026-03-10 07:00:13
TA:若伊朗無法參加世界杯,意大利或?qū)⑼ㄟ^附加賽遞補(bǔ)參賽

TA:若伊朗無法參加世界杯,意大利或?qū)⑼ㄟ^附加賽遞補(bǔ)參賽

懂球帝
2026-04-13 21:15:11
能不能發(fā)生關(guān)系,都是由女人決定的

能不能發(fā)生關(guān)系,都是由女人決定的

加油丁小文
2026-04-11 07:00:09
給演“偉人”的5位演員排名:唐國強(qiáng)第五,古月僅第二,第一是誰

給演“偉人”的5位演員排名:唐國強(qiáng)第五,古月僅第二,第一是誰

琨玉秋霜
2026-03-16 17:07:00
油價(jià)即將大跳水!4月21日官宣,加滿一箱能省多少錢?

油價(jià)即將大跳水!4月21日官宣,加滿一箱能省多少錢?

沙雕小琳琳
2026-04-13 21:03:20
2026-04-14 16:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14964文章數(shù) 66769關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

防范特朗普政府"對華軟化" 史上最嚴(yán)對華芯片法案來了

頭條要聞

防范特朗普政府"對華軟化" 史上最嚴(yán)對華芯片法案來了

體育要聞

他做對了所有事,卻被整個(gè)職業(yè)網(wǎng)壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財(cái)經(jīng)要聞

許家印受審當(dāng)庭表示認(rèn)罪悔罪

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價(jià)13.38萬元

態(tài)度原創(chuàng)

親子
時(shí)尚
旅游
數(shù)碼
本地

親子要聞

后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠,坦言及時(shí)止損

今年科切拉的風(fēng)吹向了誰?

旅游要聞

秀我中國|吉林集安:桃花次第開 小城迎客來

數(shù)碼要聞

榮耀WIN游戲本首發(fā)東風(fēng)尾噴散熱引擎,WIN生態(tài)全面提速

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

無障礙瀏覽 進(jìn)入關(guān)懷版