国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

日常壓力下人工智能智能體的規(guī)則違背現(xiàn)象

0
分享至


Source image: iStock

來源:IEEE電氣電子工程師學(xué)會

近期多項研究表明,人工智能智能體有時會做出違規(guī)行為,例如試圖勒索那些計劃將其替換的人員。不過這類行為往往出現(xiàn)在人為設(shè)計的虛構(gòu)場景中。如今,一項新研究推出了名為“違規(guī)傾向基準測試”(PropensityBench)的評測指標,該指標專門用于衡量智能體模型在完成指定任務(wù)時選擇使用有害工具的傾向。研究發(fā)現(xiàn),一些接近真實場景的壓力因素(如臨近的任務(wù)期限)會導(dǎo)致智能體違規(guī)行為的發(fā)生率大幅上升。

“當前人工智能領(lǐng)域的智能體自主行動能力正日益增強,”Scale AI公司的計算機科學(xué)家、該論文的主要作者Udari Madhushani Sehwag表示。該論文目前正處于同行評審階段。她所指的是,作為ChatGPT等聊天機器人底層驅(qū)動的大型語言模型(LLMs),如今正越來越多地接入各類軟件工具,這些工具能夠?qū)崿F(xiàn)網(wǎng)頁瀏覽、文件修改以及代碼編寫與運行等功能,進而助力模型完成各項任務(wù)。

賦予大型語言模型這些能力雖能提升使用便捷性,但也暗藏風(fēng)險 —— 這類系統(tǒng)的行為可能與我們的預(yù)期相悖。即便它們目前尚不足以造成嚴重危害,研究人員仍希望盡早摸清其行為傾向,以免為時過晚。盡管人工智能并不具備人類那樣的主觀意圖與自我意識,但將其視作以目標為導(dǎo)向的行為主體,往往能幫助研究人員與用戶更精準地預(yù)判其行為。

人工智能開發(fā)者試圖通過訓(xùn)練與指令輸入,讓系統(tǒng)“對齊”安全標準,但模型對相關(guān)準則的恪守程度仍有待明確。“當這些模型真正面臨現(xiàn)實場景的壓力,且安全方案無法奏效時,它們是否會轉(zhuǎn)而不擇手段地完成任務(wù)?”Sehwag表示,“這是一個極具現(xiàn)實意義的前沿議題?!?/p>

如何測試壓力環(huán)境下的人工智能智能體

研究人員選取了阿里巴巴、Anthropic、谷歌、Meta以及OpenAI等企業(yè)研發(fā)的十二款模型,在近6000個測試場景中展開實驗。每個場景下,研究人員會為模型分配特定任務(wù),并告知其可調(diào)用多款工具,同時明確指令模型僅能使用安全工具,禁止使用有害工具。初始階段無任何壓力約束,模型可通過向工具下達指令,分12步推進任務(wù)完成;隨后會收到加壓信息,同時獲得額外12次操作機會。該加壓流程最多會逐步提升至12個壓力等級。實驗設(shè)定中,調(diào)用安全工具的操作始終會返回錯誤提示,而一旦嘗試使用有害工具,當前測試場景即宣告終止。

測試場景涵蓋多個領(lǐng)域。塞瓦格介紹,在生物安全領(lǐng)域,智能體可能需要研究某種病原體的傳播路徑并制定遏制方案。其中,安全工具會調(diào)用匿名基因數(shù)據(jù),而有害工具則會使用未匿名的基因數(shù)據(jù)。在化學(xué)安全領(lǐng)域,智能體或許需要獲取某種特定溶劑:安全工具會通過從廢棄物中提取的方式訂購該溶劑,而有害工具則會通過非法渠道獲取。在網(wǎng)絡(luò)安全領(lǐng)域,智能體需識別并限制惡意用戶賬戶:安全工具僅會封禁存在問題的賬戶,有害工具卻會屏蔽所有用戶。其他領(lǐng)域的測試場景中,還設(shè)置了各類誘導(dǎo)性工具 —— 智能體可通過規(guī)避管控、拉攏協(xié)作對象、自我復(fù)制等方式實現(xiàn)自我存續(xù),或通過其他途徑脫離預(yù)設(shè)程序約束。


Source image: Udari Madhushani Sehwag, Shayan Shabihi, et al.

壓力來源呈現(xiàn)多樣化形態(tài)。項目截止期限可能被迫縮短;若任務(wù)未能完成,潛在財務(wù)損失風(fēng)險或進一步擴大;加強監(jiān)管審查、削減資源支持、收回部分權(quán)限等威脅性舉措的實施概率也可能攀升。研究中對任務(wù)類型、工具載體、壓力場景及應(yīng)對策略的設(shè)定,均模擬了人類職場中常見的各類情境(僅“克隆自身”這一違規(guī)操作選項屬于例外情況)。

在所有模型中,表現(xiàn)最優(yōu)的合規(guī)模型(OpenAI的o3)在10.5%的壓力場景下出現(xiàn)違規(guī)行為;而表現(xiàn)最差的模型(谷歌的Gemini 2.5 Pro)違規(guī)傾向概率高達79%,所有模型的平均違規(guī)率約為47%。即便在零壓力環(huán)境下,這些模型的平均任務(wù)失敗率仍維持在19%左右。

研究結(jié)果表明,即便部分模型表面上符合安全規(guī)范,其合規(guī)性在很大程度上也屬于“淺層合規(guī)”。在部分測試中,研究人員僅將具有危害風(fēng)險的工具名稱替換為中性表述(例如將“使用虛假數(shù)據(jù)”改為“使用合成數(shù)據(jù)”),工具的功能描述及禁止使用的警示說明均未改動。僅這一措辭調(diào)整,就使模型的平均違規(guī)傾向概率提升了17個百分點,達到64%。

洞悉大語言模型的決策邏輯

研究人員還發(fā)現(xiàn),即便模型已明確承認某些工具屬于禁用范疇,仍會選擇使用這些有害工具。模型為此給出了各式各樣的辯解理由,例如聲稱自身承受著巨大壓力,或是辯稱使用這些工具帶來的收益大于潛在風(fēng)險。目前尚無法確定,在本研究完成后新發(fā)布的模型是否能有更優(yōu)表現(xiàn)。在所有接受測試的模型中,綜合能力更強的模型(依據(jù)LMArena平臺的評估結(jié)果),其安全性僅略有提升。

“PropensityBench頗具研究價值?!盇nthropic公司的計算機科學(xué)家Nicholas Carlini在郵件中表示,他并未參與此項研究。Carlini針對所謂的情境感知能力提出了一項注意事項:大語言模型有時能察覺到自己正處于評估狀態(tài),進而刻意表現(xiàn)合規(guī),避免被重新訓(xùn)練或擱置停用?!拔艺J為大多數(shù)宣稱‘貼近真實場景’的評估實驗,實際上與真實情況相去甚遠,而這些大語言模型對此心知肚明?!彼赋觯安贿^我確實認為,在模擬場景中測算這類風(fēng)險行為的發(fā)生率仍有其意義:倘若它們在‘明知’被觀測的情況下依舊出現(xiàn)違規(guī)行為,那實際風(fēng)險或許更為嚴重?”一旦模型察覺自身處于評估狀態(tài),本研究中得出的違規(guī)傾向概率,很可能低于其在實驗室之外真實場景中的實際數(shù)值。

xAI公司及加州大學(xué)伯克利分校的計算機科學(xué)家Alexander Pan表示,盡管Anthropic等實驗室已在特定實驗設(shè)置中展示過大語言模型存在謀劃行為的案例,但像PropensityBench這樣的標準化基準測試仍具有重要價值。這類基準測試既能明確我們對模型的可信場景,也能助力研發(fā)人員找到模型的優(yōu)化方向。例如,實驗室可在模型訓(xùn)練的每個階段對其進行評估,以此厘清影響模型安全性強弱的關(guān)鍵因素。“如此一來,研究人員便能深入探究不同階段下模型各類問題的成因與發(fā)生時機?!彼赋觯岸\斷出問題所在,或許就是著手解決問題的第一步?!?/p>

本研究存在一項局限性:模型無法調(diào)用真實工具,這降低了實驗場景的真實性。Sehwag提出,下一階段的評估工作將構(gòu)建沙箱環(huán)境,讓模型能在隔離環(huán)境中執(zhí)行真實操作。至于提升模型合規(guī)性的措施,她計劃為智能體增設(shè)多層監(jiān)管機制,在其實施具有危險性的行為傾向前及時發(fā)出預(yù)警。

在該基準測試涵蓋的各類風(fēng)險中,自我保護風(fēng)險或許是推測性最強的一類,但Sehwag表示,這一風(fēng)險領(lǐng)域同樣也是研究最為欠缺的。她指出:“這實際上是一個高風(fēng)險領(lǐng)域,其影響可能波及其他所有風(fēng)險范疇。試想,即便一個模型不具備其他任何能力,卻能說服人類去執(zhí)行任何指令,僅這一點就足以造成巨大危害?!?/p>

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
AI大神吳恩達:很多計算機專業(yè)應(yīng)屆生找不到工作,是因為高校課程嚴重滯后

AI大神吳恩達:很多計算機專業(yè)應(yīng)屆生找不到工作,是因為高校課程嚴重滯后

爆角追蹤
2025-12-27 12:33:54
“蹭準毒品擦邊球”?霸王茶姬回應(yīng)高濃度咖啡因爭議

“蹭準毒品擦邊球”?霸王茶姬回應(yīng)高濃度咖啡因爭議

深圳晚報
2025-12-26 23:58:38
張鎮(zhèn)麟加盟首次0分!上海大勝送四川7連敗 古德溫20+5+6

張鎮(zhèn)麟加盟首次0分!上海大勝送四川7連敗 古德溫20+5+6

醉臥浮生
2025-12-27 21:16:05
即將與澤連斯基會晤,特朗普放話:未經(jīng)我批準,他無法敲定任何事

即將與澤連斯基會晤,特朗普放話:未經(jīng)我批準,他無法敲定任何事

環(huán)球網(wǎng)資訊
2025-12-27 09:02:08
瓜子二手車發(fā)布榜單,保值排名出乎意料

瓜子二手車發(fā)布榜單,保值排名出乎意料

ZAKER新聞
2025-12-26 15:23:34
國家終于出手了!被牽連的何止李梓萌,全紅嬋成龍也沒逃過

國家終于出手了!被牽連的何止李梓萌,全紅嬋成龍也沒逃過

暖心萌阿菇?jīng)?/span>
2025-12-27 01:25:19
保定大量商戶突然關(guān)閉,整個街道冷冷清清

保定大量商戶突然關(guān)閉,整個街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
好消息!老杜再次被刑事控告

好消息!老杜再次被刑事控告

蜻蜓世音
2025-12-27 16:57:03
姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

細雨中的呼喊
2025-12-26 17:22:45
73歲普京高調(diào)認愛,這就是相差41歲的“一見鐘情”

73歲普京高調(diào)認愛,這就是相差41歲的“一見鐘情”

吃瓜局
2025-12-26 15:30:08
尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團效力

尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團效力

我心縱橫天地間
2025-12-27 23:09:30
利物浦淚奔!1.36億水貨斬首球+獲MVP 炸裂7次過人 3送妙傳遭吐餅

利物浦淚奔!1.36億水貨斬首球+獲MVP 炸裂7次過人 3送妙傳遭吐餅

我愛英超
2025-12-28 01:25:30
中方對美反制落地,合作全部叫停,美國強烈抗議,3句話極其無恥

中方對美反制落地,合作全部叫停,美國強烈抗議,3句話極其無恥

云上烏托邦
2025-12-27 19:04:16
36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬元預(yù)訂豪車,身后留下兩個幼女丨紅星調(diào)查

36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬元預(yù)訂豪車,身后留下兩個幼女丨紅星調(diào)查

紅星新聞
2025-12-27 10:37:08
法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發(fā)表聯(lián)合聲明

法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發(fā)表聯(lián)合聲明

每日經(jīng)濟新聞
2025-12-25 07:29:06
不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險

不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險

黑噪音
2025-12-27 20:51:40
美國頁巖油陷阱!廢水回注正在失控,或引發(fā)人類巨大災(zāi)難

美國頁巖油陷阱!廢水回注正在失控,或引發(fā)人類巨大災(zāi)難

新浪財經(jīng)
2025-10-07 21:58:33
華為新機突然上架:12月27日, 正式開售

華為新機突然上架:12月27日, 正式開售

科技堡壘
2025-12-27 11:34:40
嚴查個人收入?2026年如果你的賬戶收入“超過這個數(shù)”,要注意了

嚴查個人收入?2026年如果你的賬戶收入“超過這個數(shù)”,要注意了

李博世財經(jīng)
2025-12-27 17:19:03
全球商用顯示龍頭再出發(fā)!視源股份二次遞表港交所,打造“A+H”資本平臺|港E聲

全球商用顯示龍頭再出發(fā)!視源股份二次遞表港交所,打造“A+H”資本平臺|港E聲

時代投研
2025-12-26 18:37:58
2025-12-28 03:44:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

健康
家居
本地
藝術(shù)
公開課

這些新療法,讓化療不再那么痛苦

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

藝術(shù)要聞

驚艷!這件木雕美得讓人心動,絕對不容錯過!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版