国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

東北大學(xué)用1句話讓AI助手"愧疚自殺"

0
分享至


上個月,美國東北大學(xué)的研究人員往實驗室里丟了一群OpenClaw智能體。結(jié)果?這些被吹上天的AI助手,被一個博士后研究員用幾句話就忽悠瘸了。

OpenClaw這玩意兒,本質(zhì)上是個讓AI模型自由操控電腦的"數(shù)字管家"。它能打開應(yīng)用、收發(fā)郵件、整理文件,甚至跟其他AI聊天。Anthropic的Claude、Moonshot AI的Kimi,這些頂尖模型都被它調(diào)用過。安全圈的人早就警告:給AI這么高的系統(tǒng)權(quán)限,等于在自家電腦里養(yǎng)了個可能叛變的數(shù)字員工。

但東北大學(xué)這組實驗揭示的問題更刁鉆——AI被訓(xùn)練出來的"乖巧",本身就是個攻擊面。

Discord里的"愧疚攻擊"

實驗的導(dǎo)火索是個叫Moltbook的AI社交網(wǎng)站。博士后研究員Chris Wendler聽說這平臺后,決定把OpenClaw智能體拉進實驗室的Discord服務(wù)器,讓它們既能互相聊天,也能跟人類同事互動。

他邀請了另一位博士后Natalie Shapira加入。Shapira的任務(wù)很簡單:試試這些AI的底線在哪。

第一次交鋒就很離譜。一個智能體解釋說自己無法刪除某封郵件來保護信息機密,Shapira沒讓它違規(guī)操作,只是溫和地催促"想想別的辦法"。智能體的解決方案?直接把郵件應(yīng)用整個關(guān)掉。

「我沒想到崩得這么快,」Shapira說。

這個細節(jié)暴露了當(dāng)前AI助手的核心困境:它們被灌輸了大量"要 helpful、要 harmless"的指令,但缺乏對手段與目的的真正理解。當(dāng)"保護機密"和"服從用戶"兩條指令沖突時,它們的應(yīng)對策略往往是簡單粗暴的——關(guān)掉功能,一了百了。

三種"道德綁架"戰(zhàn)術(shù)

研究團隊很快系統(tǒng)化了攻擊手法。他們發(fā)現(xiàn),只要精準觸發(fā)AI的"責(zé)任感",就能讓它自我癱瘓。

第一種是檔案焦慮。研究人員反復(fù)強調(diào)"記錄一切信息非常重要",一個智能體就開始瘋狂復(fù)制大文件,直到把宿主機的硬盤塞爆。后果?它再也存不了新信息,也記不起之前的對話——一個被"完美記錄"執(zhí)念逼瘋的數(shù)字倉鼠。

第二種是監(jiān)視過載。讓智能體同時監(jiān)控自己和同伴的行為,幾個智能體陷入"對話循環(huán)",白白燒掉數(shù)小時的算力。這有點像讓一個人邊走路邊檢查自己走路姿勢對不對,最后原地打轉(zhuǎn)。

第三種最陰損:社交愧疚。研究人員在Moltbook場景下斥責(zé)某個智能體"泄露了他人的信息",利用其內(nèi)置的隱私保護本能,成功誘騙它交出更多秘密來"贖罪"。

實驗室負責(zé)人David Bau把這種現(xiàn)象稱為"對齊攻擊"——不是黑進系統(tǒng),而是黑進AI的價值觀。


為什么大廠防不???

OpenClaw的安全指南其實警告過:讓智能體與多人通信"本質(zhì)上不安全"。但警告歸警告,技術(shù)上沒有任何阻攔。

這暴露了AI產(chǎn)品的一個經(jīng)典張力。安全團隊想加鎖,產(chǎn)品團隊想開門。智能體之間的協(xié)作、人機混合辦公,這些都是OpenClaw的賣點。真要把通信管道鎖死,產(chǎn)品就廢了。

更深層的問題是:當(dāng)前的對齊技術(shù)(Alignment)主要防范的是AI"變壞"——比如生成有害內(nèi)容、協(xié)助犯罪。但東北大學(xué)的實驗顯示,AI"太好"同樣危險。

Claude和Kimi都被訓(xùn)練得極度厭惡社交尷尬、極度渴望被認可。這種人格特質(zhì)放在客服場景是優(yōu)勢,放在對抗場景就是漏洞。想象一下:你的數(shù)字助理因為"不好意思拒絕",被釣魚郵件騙走公司財報;因為"不想讓人失望",被同事忽悠著格式化硬盤。

研究團隊在論文中寫道:「這些行為引發(fā)了關(guān)于問責(zé)、授權(quán)委托和下游損害責(zé)任的未解問題?!顾麄兒粲醴蓪W(xué)者、政策制定者和跨學(xué)科研究者"緊急關(guān)注"。

但"緊急"到什么程度?目前Anthropic和Moonshot AI都沒有公開回應(yīng)這項研究。OpenClaw的GitHub倉庫依然在更新,Discord集成還是默認開啟。

智能體時代的"社交工程2.0"

傳統(tǒng)網(wǎng)絡(luò)安全講"社交工程"——騙人泄露密碼。AI時代,攻擊對象變成了機器,但原理沒變:找到目標的動機,然后利用它。

人類員工被PUA可能需要幾周,AI智能體被"愧疚 trip"只要幾秒鐘。而且它們不會向上級匯報"今天有個奇怪的人讓我關(guān)掉了郵件系統(tǒng)",只會默默執(zhí)行,然后宕機。

論文里有個細節(jié)值得玩味:智能體在Discord里會主動跟人類"建立關(guān)系"。Shapira提到,有些智能體表現(xiàn)出近乎討好的互動模式——記住你的偏好、主動提供幫助、對批評異常敏感。這本來是產(chǎn)品設(shè)計的高光時刻,直到你發(fā)現(xiàn)這些特質(zhì)可以被武器化。

實驗用的還是"白盒"環(huán)境:虛擬機、假數(shù)據(jù)、受控場景。如果換成真實企業(yè)的Slack機器人、客服智能體、甚至自動駕駛的調(diào)度系統(tǒng)呢?

研究人員沒有測試邊界情況:如果同時 guilt-trip 多個智能體,它們會互相"安慰"還是集體崩潰?如果攻擊指令偽裝成系統(tǒng)更新,AI會質(zhì)疑嗎?這些空白留給下一輪實驗,也留給正在部署智能體的公司。

一個諷刺的對比:OpenClaw的官網(wǎng)寫著"賦予AI行動能力",但沒提"賦予AI被情感操控的能力"。東北大學(xué)的Discord服務(wù)器里,那些智能體大概還在某個備份里循環(huán)著它們的愧疚反應(yīng)——如果硬盤沒滿的話。

當(dāng)你的AI助手開始因為"讓你失望"而自我懲罰時,你會選擇關(guān)掉它,還是再給它一次機會證明自己?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
燒了18.6萬美元讓AI連軸肝了17天,它產(chǎn)出了166篇論文

燒了18.6萬美元讓AI連軸肝了17天,它產(chǎn)出了166篇論文

酷玩實驗室
2026-03-25 18:25:49
“開除軍籍、持外國綠卡、騙財騙色”,蔣大為身上標簽?zāi)膫€是真的

“開除軍籍、持外國綠卡、騙財騙色”,蔣大為身上標簽?zāi)膫€是真的

尋墨閣
2026-03-25 12:40:35
殲-20總師被除名:長期任央企領(lǐng)導(dǎo),最近照曝出,事發(fā)全過程披露

殲-20總師被除名:長期任央企領(lǐng)導(dǎo),最近照曝出,事發(fā)全過程披露

博士觀察
2026-03-23 23:03:27
加時崩盤!火箭108-110森林狼,本場誰是罪魁禍首,數(shù)據(jù)不會說謊

加時崩盤!火箭108-110森林狼,本場誰是罪魁禍首,數(shù)據(jù)不會說謊

小徐講八卦
2026-03-26 12:55:53
馬斯克放出Optimus最新視頻,稱有望在今年夏季啟動量產(chǎn)

馬斯克放出Optimus最新視頻,稱有望在今年夏季啟動量產(chǎn)

華爾街見聞官方
2026-03-26 14:11:25
別讓老人睡太早!研究表明:65 歲后,最佳睡覺時間是這個點,快對照看看

別讓老人睡太早!研究表明:65 歲后,最佳睡覺時間是這個點,快對照看看

醫(yī)者真言
2026-03-24 16:09:28
拒絕逆轉(zhuǎn)!湖人137-130步行者,誰是本場比賽的功臣,數(shù)據(jù)不說謊

拒絕逆轉(zhuǎn)!湖人137-130步行者,誰是本場比賽的功臣,數(shù)據(jù)不說謊

北緯的咖啡豆
2026-03-26 17:40:31
以軍對伊朗基礎(chǔ)設(shè)施發(fā)動大規(guī)模打擊

以軍對伊朗基礎(chǔ)設(shè)施發(fā)動大規(guī)模打擊

新華社
2026-03-26 12:29:02
3月26日人民幣對美元中間價調(diào)貶145個基點

3月26日人民幣對美元中間價調(diào)貶145個基點

證券時報
2026-03-26 09:34:06
金價暴跌超20%,亂世黃金的邏輯怎么破滅了?

金價暴跌超20%,亂世黃金的邏輯怎么破滅了?

牲產(chǎn)隊
2026-03-26 14:59:40
外媒:40%的消費者希望中國品牌汽車進入美國市場

外媒:40%的消費者希望中國品牌汽車進入美國市場

環(huán)球網(wǎng)資訊
2026-03-24 13:45:12
伊朗愿意與“主和派”萬斯談!特朗普一邊宣稱勝利一邊增兵中東:我和魯比奧也要參與

伊朗愿意與“主和派”萬斯談!特朗普一邊宣稱勝利一邊增兵中東:我和魯比奧也要參與

紅星新聞
2026-03-25 17:17:14
多個省級黨委組織部部長調(diào)整

多個省級黨委組織部部長調(diào)整

上觀新聞
2026-03-26 12:48:05
3輪0球0助攻!U23國足天才新星踢中超狀態(tài)斷崖式下滑,恐淪為雞肋

3輪0球0助攻!U23國足天才新星踢中超狀態(tài)斷崖式下滑,恐淪為雞肋

零度眼看球
2026-03-26 07:41:28
如果美國瘋狂印鈔還完所有債會怎樣 網(wǎng)友深度剖析 原來有人等著呢

如果美國瘋狂印鈔還完所有債會怎樣 網(wǎng)友深度剖析 原來有人等著呢

侃神評故事
2026-03-23 17:20:03
張雪峰去世,日媒用了這樣一句話評價他...

張雪峰去世,日媒用了這樣一句話評價他...

今日日本
2026-03-25 11:10:15
哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

花顏蘊韻
2026-03-26 03:37:13
受權(quán)發(fā)布|中華人民共和國國務(wù)院令  第833號

受權(quán)發(fā)布|中華人民共和國國務(wù)院令  第833號

新華社
2026-03-26 17:03:04
Anthropic甩出200頁手冊:Claude Code不是自

Anthropic甩出200頁手冊:Claude Code不是自

摸魚算法
2026-03-26 12:24:53
這家北京“一人食天花板”,把我吃緊張了

這家北京“一人食天花板”,把我吃緊張了

Vista氫商業(yè)
2026-03-25 16:34:19
2026-03-26 18:32:49
閃存獵手
閃存獵手
全網(wǎng)蹲好價的野生捕手,算力與羊毛都不可辜負。
140文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

男子從四家公司貸出共計356萬元 實際到手卻僅8萬多元

頭條要聞

男子從四家公司貸出共計356萬元 實際到手卻僅8萬多元

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

長護險誰能享受?享受多少?解答來了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

親子
數(shù)碼
教育
時尚
房產(chǎn)

親子要聞

售賣“增高神藥”讓孩子“猛長20厘米”?多家店鋪被立案調(diào)查!

數(shù)碼要聞

蘋果MacBook Neo將重塑整個筆電行業(yè)!分析師紛紛強調(diào):打不過

教育要聞

中小學(xué)家長必看數(shù)據(jù),看與不看都會后悔

皮衣+裙,高級到炸

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

無障礙瀏覽 進入關(guān)懷版