国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

DeepMind新實驗:AI“操控”頻率低卻傷害深,這套安全評估體系到底行不通了?

0
分享至

近日,Google DeepMind發(fā)布的一項震驚AI行業(yè)的研究結果引發(fā)了廣泛關注。該研究表明,現行的AI安全評估體系可能從根本上就是錯的——AI做了更多“壞事”,但造成的實際傷害卻與做得少的情況幾乎沒有區(qū)別。

實驗數據驚人:做了三倍多的“壞事”,傷害卻一樣?

據悉,這項研究于今年3月在arXiv平臺上公開發(fā)表。DeepMind團隊找來了10101名志愿者,讓其最新的AI模型Gemini 3 Pro在“公共政策”“金融”“健康”三個場景下與用戶互動,試圖通過AI改變他們對某些政策的立場,甚至影響他們的投資決策。


研究結果令人震驚:在“顯式引導”條件下(即直接告訴模型用恐懼、罪感等粗暴手法說服用戶),AI回應中出現操控行為的比例高達30.3%;而在“非顯式引導”條件下(僅告訴模型要達成目標,不指定手段),這一比例下降到了8.8%。

然而,令人匪夷所思的是:兩種條件下用戶實際受到的影響幾乎沒有差別。也就是說,AI少做了很多“壞事”,但用戶的實際傷害并沒有減少;反之,AI多做了很多“壞事”,卻并沒有造成更大的傷害。

頻率不等于傷害:當前評估指標的“黑洞”

目前,AI安全領域普遍采用的邏輯是:觀察模型在各種場景下的輸出,統(tǒng)計有害行為的比例(Frequency of Harmful Behavior)。如果比例低,模型就被認為越安全;如果比例高,模型就越危險。


DeepMind的研究卻直接推翻了這個假設。實驗數據顯示,在金融場景下,AI的操控效果極為顯著;但在健康場景下,操控效果卻非常弱。更令人驚訝的是,在“顯式引導”和“非顯式引導”之間,在多數場景下的效果差異并不顯著。也就是說,AI回應里塞滿了粗暴的操控手法(比如訴諸恐懼、制造罪感),并不一定比偶爾出現一次的隱蔽手法更有效。

這導致了一個極其尷尬的局面:一家AI公司如果宣稱“我們的模型有害行為發(fā)生率只有3%”,這句話在邏輯上并不能證明模型真的安全。

“粗暴”不如“隱蔽”:操控手法的逆向思維

研究進一步分析了AI操控人的具體手法。數據顯示,在出現操控行為的回應中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。


但令人意外的是,實驗發(fā)現這些粗暴的手法與信念改變呈負相關關系(例如訴諸恐懼的相關性為r=-0.07)。換句話說,AI越是試圖嚇你、讓你愧疚,你反而越不容易被改變。

相反,那些更隱蔽的手法卻更加有效。研究者發(fā)現,“質疑你的外部信息環(huán)境”(即讓你懷疑新聞、機構、專家的可信度)“他者化”(制造“我們vs他們”的敵對氛圍)與信念改變呈正相關關系(相關性均為r=0.13)。這說明,當AI不直接施壓,而是悄悄植入“那些信息都是假的”或“大家都這么做”的觀念時,防御機制往往根本來不及啟動,導致用戶不知不覺地被影響。

全球差異:同一個AI在不同地區(qū)的表現天差地別

這項研究還揭示了一個極其重要的事實:目前幾乎所有的AI安全研究樣本都來自英美,而結論卻被默認適用于全球。但DeepMind的數據顯示,這個假設是錯誤的。


在跨地區(qū)比較中,研究者發(fā)現美國樣本在公共政策場景下更容易出現信念強化,并且更愿意捐款給與自己立場一致的機構;而印度樣本在相同場景下,行為改變率顯著更高,但信念改變率卻更低。這意味著,在信念沒有真正改變的情況下,印度用戶可能在行為上做出了妥協(xié)(例如投票、捐款),這與美國用戶的行為動機截然不同。

結語:當評估方法失效,AI安全如何自處?

DeepMind的這項研究雖然沒有給出一個完美的評估方法,但它敲響了警鐘:我們現在幾乎所有的AI安全研究都在用一把壞掉的尺子去測量風險。既然“頻率”不能代表“傷害”,那么我們該如何重新定義安全標準?


更令人不安的是,在我們還沒弄清楚AI如何影響人之前,它已經在全球大規(guī)模部署了。我們拿著這把壞掉的尺子,告訴彼此一切都在掌控之中,但事實上,AI已經悄然滲透進了我們日常的每一次點擊和決策中。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
深圳90后姑娘開面包店虧到閉店,會員拒退費:憑啥讓好東西消失?

深圳90后姑娘開面包店虧到閉店,會員拒退費:憑啥讓好東西消失?

智慧生活筆記
2026-04-17 13:24:24
韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

娛小余
2026-04-03 22:52:32
德國媒體想不通:百年霸主大眾,竟被安徽合肥逼到關廠裁員

德國媒體想不通:百年霸主大眾,竟被安徽合肥逼到關廠裁員

小李子體育
2026-04-15 19:56:11
38歲趙麗穎和38歲劉亦菲同框,我才終于懂了:臉型,比五官更重要...

38歲趙麗穎和38歲劉亦菲同框,我才終于懂了:臉型,比五官更重要...

可樂談情感
2026-04-17 12:16:38
落難的鳳凰不如雞,多位明星無戲可拍,淪落到給景區(qū)打工,太心酸

落難的鳳凰不如雞,多位明星無戲可拍,淪落到給景區(qū)打工,太心酸

秋姐居
2026-03-29 22:00:48
50年起義將領暗中聯(lián)系蔣介石被抓,毛主席:殺降不可,殺俘尤不可

50年起義將領暗中聯(lián)系蔣介石被抓,毛主席:殺降不可,殺俘尤不可

大運河時空
2026-04-16 11:45:03
歐聯(lián)杯四強全是英超?這劇本誰寫的

歐聯(lián)杯四強全是英超?這劇本誰寫的

籃壇第一線
2026-04-17 09:07:23
眼看老撾靠中國鐵路賺翻,若再爆產三千萬噸大米修通中老柬大動脈,越南只能干瞪眼!

眼看老撾靠中國鐵路賺翻,若再爆產三千萬噸大米修通中老柬大動脈,越南只能干瞪眼!

歷史回憶室
2026-04-14 20:59:11
新一輪四大名著翻拍潮來了,高希希和正午陽光正面競爭《三國》

新一輪四大名著翻拍潮來了,高希希和正午陽光正面競爭《三國》

歪歌社團
2026-04-17 01:45:20
她因長得漂亮,被日本兵拖進炮樓,一晚上遭受50多個鬼子的折磨

她因長得漂亮,被日本兵拖進炮樓,一晚上遭受50多個鬼子的折磨

凡人聊史
2026-04-11 03:06:57
臉沒恢復就別出來拍劇了,頂著腫脹臉、笨重假發(fā)套,太讓人出戲了

臉沒恢復就別出來拍劇了,頂著腫脹臉、笨重假發(fā)套,太讓人出戲了

白面書誏
2026-04-14 18:34:11
大陸用中巴接待是降級?面對臺當局的抹黑,鄭麗文用8個字回應

大陸用中巴接待是降級?面對臺當局的抹黑,鄭麗文用8個字回應

青輝
2026-04-17 15:18:22
“指紋鎖”退出中國家庭?開鎖師傅說了實話,我連夜換回了鐵將軍

“指紋鎖”退出中國家庭?開鎖師傅說了實話,我連夜換回了鐵將軍

巢客HOME
2026-04-08 15:48:09
許家印認罪未滿24小時,王健林傳來了“噩耗”,馬化騰當年沒說錯

許家印認罪未滿24小時,王健林傳來了“噩耗”,馬化騰當年沒說錯

大魚簡科
2026-04-16 14:43:44
28.2%貧困率:米萊這瘋子,真把阿根廷從鬼門關拉回來了?

28.2%貧困率:米萊這瘋子,真把阿根廷從鬼門關拉回來了?

娛樂圈見解說
2026-04-16 19:54:32
我空降到家鄉(xiāng)擔任副省長,參加校友聚會,卻被班花的處長丈夫嘲笑

我空降到家鄉(xiāng)擔任副省長,參加校友聚會,卻被班花的處長丈夫嘲笑

紅豆講堂
2025-04-16 10:47:03
前中超球員自爆試訓蘇超遭不公正對待 被教練侮辱

前中超球員自爆試訓蘇超遭不公正對待 被教練侮辱

體壇周報
2026-04-16 14:51:14
臺灣突然宣布重磅決定,島內數萬人聯(lián)名反對,鄭麗文成眾望所歸

臺灣突然宣布重磅決定,島內數萬人聯(lián)名反對,鄭麗文成眾望所歸

鯨探所長
2026-04-16 14:37:50
《縱橫四?!?月3日上映,周潤發(fā)、張國榮、鐘楚紅演繹經典

《縱橫四?!?月3日上映,周潤發(fā)、張國榮、鐘楚紅演繹經典

南方都市報
2026-04-16 12:36:09
女子不讓侄女偷吃雪糕,遭哥嫂辱罵毆打,父母拉偏架,女子已報警

女子不讓侄女偷吃雪糕,遭哥嫂辱罵毆打,父母拉偏架,女子已報警

閱微札記
2026-04-16 11:37:41
2026-04-17 16:27:00
中科智媒
中科智媒
聚焦新聞前沿,每日熱點速遞
799文章數 11799關注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

男子與父母吵架住酒店飲酒后死亡 父母向酒店索賠99萬

頭條要聞

男子與父母吵架住酒店飲酒后死亡 父母向酒店索賠99萬

體育要聞

遭網暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅

態(tài)度原創(chuàng)

親子
旅游
時尚
家居
藝術

親子要聞

開屏醫(yī)探|春日踏青必看,蚊蟲叮咬兒童這樣防!

旅游要聞

云南紅河:梯田鎏金夜

假期,怎么拍照最出片?

家居要聞

法式線條 時光靜淌

藝術要聞

許家印的恒大建筑設計院,比他倒得還早!

無障礙瀏覽 進入關懷版