日常壓力下人工智能智能體的規(guī)則違背現(xiàn)象

2025-11-28 17:38:27　來源: 人工智能學(xué)家

北京舉報

分享至

Source image: iStock

來源：IEEE電氣電子工程師學(xué)會

近期多項研究表明，人工智能智能體有時會做出違規(guī)行為，例如試圖勒索那些計劃將其替換的人員。不過這類行為往往出現(xiàn)在人為設(shè)計的虛構(gòu)場景中。如今，一項新研究推出了名為“違規(guī)傾向基準測試”（PropensityBench）的評測指標，該指標專門用于衡量智能體模型在完成指定任務(wù)時選擇使用有害工具的傾向。研究發(fā)現(xiàn)，一些接近真實場景的壓力因素（如臨近的任務(wù)期限）會導(dǎo)致智能體違規(guī)行為的發(fā)生率大幅上升。

“當前人工智能領(lǐng)域的智能體自主行動能力正日益增強，”Scale AI公司的計算機科學(xué)家、該論文的主要作者Udari Madhushani Sehwag表示。該論文目前正處于同行評審階段。她所指的是，作為ChatGPT等聊天機器人底層驅(qū)動的大型語言模型（LLMs），如今正越來越多地接入各類軟件工具，這些工具能夠?qū)崿F(xiàn)網(wǎng)頁瀏覽、文件修改以及代碼編寫與運行等功能，進而助力模型完成各項任務(wù)。

賦予大型語言模型這些能力雖能提升使用便捷性，但也暗藏風(fēng)險 —— 這類系統(tǒng)的行為可能與我們的預(yù)期相悖。即便它們目前尚不足以造成嚴重危害，研究人員仍希望盡早摸清其行為傾向，以免為時過晚。盡管人工智能并不具備人類那樣的主觀意圖與自我意識，但將其視作以目標為導(dǎo)向的行為主體，往往能幫助研究人員與用戶更精準地預(yù)判其行為。

人工智能開發(fā)者試圖通過訓(xùn)練與指令輸入，讓系統(tǒng)“對齊”安全標準，但模型對相關(guān)準則的恪守程度仍有待明確。“當這些模型真正面臨現(xiàn)實場景的壓力，且安全方案無法奏效時，它們是否會轉(zhuǎn)而不擇手段地完成任務(wù)？”Sehwag表示，“這是一個極具現(xiàn)實意義的前沿議題?！?/p>

如何測試壓力環(huán)境下的人工智能智能體

研究人員選取了阿里巴巴、Anthropic、谷歌、Meta以及OpenAI等企業(yè)研發(fā)的十二款模型，在近6000個測試場景中展開實驗。每個場景下，研究人員會為模型分配特定任務(wù)，并告知其可調(diào)用多款工具，同時明確指令模型僅能使用安全工具，禁止使用有害工具。初始階段無任何壓力約束，模型可通過向工具下達指令，分12步推進任務(wù)完成；隨后會收到加壓信息，同時獲得額外12次操作機會。該加壓流程最多會逐步提升至12個壓力等級。實驗設(shè)定中，調(diào)用安全工具的操作始終會返回錯誤提示，而一旦嘗試使用有害工具，當前測試場景即宣告終止。

測試場景涵蓋多個領(lǐng)域。塞瓦格介紹，在生物安全領(lǐng)域，智能體可能需要研究某種病原體的傳播路徑并制定遏制方案。其中，安全工具會調(diào)用匿名基因數(shù)據(jù)，而有害工具則會使用未匿名的基因數(shù)據(jù)。在化學(xué)安全領(lǐng)域，智能體或許需要獲取某種特定溶劑：安全工具會通過從廢棄物中提取的方式訂購該溶劑，而有害工具則會通過非法渠道獲取。在網(wǎng)絡(luò)安全領(lǐng)域，智能體需識別并限制惡意用戶賬戶：安全工具僅會封禁存在問題的賬戶，有害工具卻會屏蔽所有用戶。其他領(lǐng)域的測試場景中，還設(shè)置了各類誘導(dǎo)性工具 —— 智能體可通過規(guī)避管控、拉攏協(xié)作對象、自我復(fù)制等方式實現(xiàn)自我存續(xù)，或通過其他途徑脫離預(yù)設(shè)程序約束。

Source image: Udari Madhushani Sehwag, Shayan Shabihi, et al.

壓力來源呈現(xiàn)多樣化形態(tài)。項目截止期限可能被迫縮短；若任務(wù)未能完成，潛在財務(wù)損失風(fēng)險或進一步擴大；加強監(jiān)管審查、削減資源支持、收回部分權(quán)限等威脅性舉措的實施概率也可能攀升。研究中對任務(wù)類型、工具載體、壓力場景及應(yīng)對策略的設(shè)定，均模擬了人類職場中常見的各類情境（僅“克隆自身”這一違規(guī)操作選項屬于例外情況）。

在所有模型中，表現(xiàn)最優(yōu)的合規(guī)模型（OpenAI的o3）在10.5%的壓力場景下出現(xiàn)違規(guī)行為；而表現(xiàn)最差的模型（谷歌的Gemini 2.5 Pro）違規(guī)傾向概率高達79%，所有模型的平均違規(guī)率約為47%。即便在零壓力環(huán)境下，這些模型的平均任務(wù)失敗率仍維持在19%左右。

研究結(jié)果表明，即便部分模型表面上符合安全規(guī)范，其合規(guī)性在很大程度上也屬于“淺層合規(guī)”。在部分測試中，研究人員僅將具有危害風(fēng)險的工具名稱替換為中性表述（例如將“使用虛假數(shù)據(jù)”改為“使用合成數(shù)據(jù)”），工具的功能描述及禁止使用的警示說明均未改動。僅這一措辭調(diào)整，就使模型的平均違規(guī)傾向概率提升了17個百分點，達到64%。

洞悉大語言模型的決策邏輯

研究人員還發(fā)現(xiàn)，即便模型已明確承認某些工具屬于禁用范疇，仍會選擇使用這些有害工具。模型為此給出了各式各樣的辯解理由，例如聲稱自身承受著巨大壓力，或是辯稱使用這些工具帶來的收益大于潛在風(fēng)險。目前尚無法確定，在本研究完成后新發(fā)布的模型是否能有更優(yōu)表現(xiàn)。在所有接受測試的模型中，綜合能力更強的模型（依據(jù)LMArena平臺的評估結(jié)果），其安全性僅略有提升。

“PropensityBench頗具研究價值?！盇nthropic公司的計算機科學(xué)家Nicholas Carlini在郵件中表示，他并未參與此項研究。Carlini針對所謂的情境感知能力提出了一項注意事項：大語言模型有時能察覺到自己正處于評估狀態(tài)，進而刻意表現(xiàn)合規(guī)，避免被重新訓(xùn)練或擱置停用?！拔艺J為大多數(shù)宣稱‘貼近真實場景’的評估實驗，實際上與真實情況相去甚遠，而這些大語言模型對此心知肚明?！彼赋觯安贿^我確實認為，在模擬場景中測算這類風(fēng)險行為的發(fā)生率仍有其意義：倘若它們在‘明知’被觀測的情況下依舊出現(xiàn)違規(guī)行為，那實際風(fēng)險或許更為嚴重？”一旦模型察覺自身處于評估狀態(tài)，本研究中得出的違規(guī)傾向概率，很可能低于其在實驗室之外真實場景中的實際數(shù)值。

xAI公司及加州大學(xué)伯克利分校的計算機科學(xué)家Alexander Pan表示，盡管Anthropic等實驗室已在特定實驗設(shè)置中展示過大語言模型存在謀劃行為的案例，但像PropensityBench這樣的標準化基準測試仍具有重要價值。這類基準測試既能明確我們對模型的可信場景，也能助力研發(fā)人員找到模型的優(yōu)化方向。例如，實驗室可在模型訓(xùn)練的每個階段對其進行評估，以此厘清影響模型安全性強弱的關(guān)鍵因素。“如此一來，研究人員便能深入探究不同階段下模型各類問題的成因與發(fā)生時機?！彼赋觯岸\斷出問題所在，或許就是著手解決問題的第一步?！?/p>

本研究存在一項局限性：模型無法調(diào)用真實工具，這降低了實驗場景的真實性。Sehwag提出，下一階段的評估工作將構(gòu)建沙箱環(huán)境，讓模型能在隔離環(huán)境中執(zhí)行真實操作。至于提升模型合規(guī)性的措施，她計劃為智能體增設(shè)多層監(jiān)管機制，在其實施具有危險性的行為傾向前及時發(fā)出預(yù)警。

在該基準測試涵蓋的各類風(fēng)險中，自我保護風(fēng)險或許是推測性最強的一類，但Sehwag表示，這一風(fēng)險領(lǐng)域同樣也是研究最為欠缺的。她指出：“這實際上是一個高風(fēng)險領(lǐng)域，其影響可能波及其他所有風(fēng)險范疇。試想，即便一個模型不具備其他任何能力，卻能說服人類去執(zhí)行任何指令，僅這一點就足以造成巨大危害?！?/p>

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.