国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華打破強化學(xué)習(xí)安全性悖論,14項測試基準任務(wù)全SOTA

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】清華大學(xué)李升波教授團隊提出RACS算法,通過引入「探險者」策略主動探索違規(guī)邊界,破解安全強化學(xué)習(xí)的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規(guī)樣本質(zhì)量與系統(tǒng)安全認知,實現(xiàn)安全與性能的雙贏,刷新多項基準的SOTA成績。

隨著強化學(xué)習(xí)(RL)在虛擬世界的統(tǒng)治級表現(xiàn),將其遷移至自動駕駛、機器人控制等真實物理系統(tǒng)已成為行業(yè)共識。然而,物理世界的高風險特性畫出了一道不可逾越的紅線——「零約束違反」。

為了守住這道紅線,學(xué)界提出了多種方案:OpenAI結(jié)合拉格朗日乘子法動態(tài)權(quán)衡安全與性能,UC Berkeley提出的CPO算法利用信賴域?qū)⒉呗韵拗圃诳尚锌臻g內(nèi)。

然而,現(xiàn)有方法始終面臨一個核心痛點:策略難以做到嚴格的「零違反」。大多數(shù)算法只能將違規(guī)控制在極低水平,一旦試圖追求絕對的零違規(guī),就會遭遇巨大阻力。

清華大學(xué)李升波教授課題組于安全強化學(xué)習(xí)領(lǐng)域獲得突破性進展,首次在理論層面揭示并證明了安全強化學(xué)習(xí)(Safe RL)中的一個反直覺現(xiàn)象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。


論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU

代碼倉庫:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全強化學(xué)習(xí)中,智能體通常依賴交互數(shù)據(jù)學(xué)習(xí)一個可行性函數(shù)(Feasibility Function),以此判斷當前狀態(tài)是否長期安全,從而規(guī)避危險區(qū)域。

然而,研究通過嚴格的理論證明揭示了一個嚴峻事實:

隨著策略變得越來越安全,其產(chǎn)生的違規(guī)樣本會變得極度稀疏。這直接導(dǎo)致可行性函數(shù)的估計誤差急劇增大,進而使指導(dǎo)策略優(yōu)化的約束函數(shù)出現(xiàn)偏差,最終導(dǎo)致策略安全性崩塌。

這就像一個從未見過懸崖的人,在行走時即便再小心翼翼,也會因為缺乏對「懸崖邊緣」的確切認知,而無法精準判斷危險界限究竟在哪里。越是刻意追求安全,對危險邊界的認知就越模糊,最終反而導(dǎo)致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個自我挫敗的死循環(huán)。


針對這一困境,團隊提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過引入專門收集違規(guī)樣本的「探險者」策略,成功打破悖論,在權(quán)威基準Safety-Gymnasium上刷新了SOTA成績,該工作發(fā)表于人工智能頂會ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」會導(dǎo)致認知盲區(qū),那么破解之道便是主動探險、直面危險。

研究團隊提出了Region-wise Actor-Critic-Scenery(RACS)算法,創(chuàng)造性地引入了雙策略架構(gòu):

(1)原始策略(Primal Policy):扮演「守規(guī)矩的執(zhí)行者」。它負責在滿足安全約束的前提下,盡可能最大化任務(wù)獎勵。

(2)對偶策略(Dual Policy):扮演「無畏的探險者」。它的目標與前者相反,旨在策略性地最大化約束違反,主動觸探原始策略不敢涉足的危險邊界。

通過這種「左右互搏」的機制,RACS在不增加總采樣成本的前提下,顯著提升了關(guān)鍵違規(guī)樣本的比例,從而讓系統(tǒng)對「安全邊界」有了清晰、精準的認知。

為了解決雙策略數(shù)據(jù)混合帶來的分布偏移(Distributional Shift)問題,RACS采用了重要性采樣(Importance Sampling)技術(shù)進行數(shù)學(xué)修正,并約束對偶策略與原始策略間的KL散度,確保訓(xùn)練過程的平穩(wěn)收斂。


實驗結(jié)果:刷新SOTA

研究團隊在安全強化學(xué)習(xí)權(quán)威基準Safety-Gymnasium上進行了廣泛驗證。結(jié)果表明,RACS在14項任務(wù)中的綜合性能達到了State-of-the-art(SOTA)水平:



(1)安全性顯著提升RACS實現(xiàn)了最低的平均約束違反次數(shù)(Cost),顯著優(yōu)于現(xiàn)有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務(wù)中,實現(xiàn)了嚴格的零約束違反。

(2)控制性能無退化在保證安全性的同時,RACS的平均累積回報(Return)依然位居榜首,實現(xiàn)了安全與性能的雙贏。在高維的HumanoidVelocity、復(fù)雜的PointPush(推箱子導(dǎo)航避障)等多項高難度任務(wù)中,安全指標與任務(wù)性能均名列前茅。

為探究性能提升的根本原因,研究團隊統(tǒng)計了增加對偶策略后的關(guān)鍵指標變化:




(1)違規(guī)樣本顯著增加:在所有 14 項任務(wù)中,對偶策略成功采集了大量高價值的違規(guī)樣本,大部分任務(wù)中的樣本量提升了一個數(shù)量級。

(2)估計誤差大幅降低:統(tǒng)計顯示,可行性函數(shù)的擬合誤差顯著減小,尤其是「低估風險」(誤差小于零)的頻率大幅降低。這意味著系統(tǒng)不再將危險狀態(tài)誤判為安全,從而從根本上提升了策略的安全性。

總結(jié)與展望

該研究從理論上揭示了強化學(xué)習(xí)中的「安全性悖論」,闡明了違規(guī)樣本稀疏性與可行性函數(shù)估計誤差之間的內(nèi)在因果。

RACS算法通過對偶策略的「對抗式」探索打破了「安全性悖論」,證明了一個深刻的道理:為了真正的安全,必須充分地了解危險。

該研究為自動駕駛、機器人等高風險場景下的強化學(xué)習(xí)落地提供了堅實的理論基礎(chǔ)與有效的解決方案。

參考資料:

https://openreview.net/forum?id=BHSSV1nHvU

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
NBA震怒!直接派醫(yī)生調(diào)查!等著被重罰吧

NBA震怒!直接派醫(yī)生調(diào)查!等著被重罰吧

籃球教學(xué)論壇
2026-02-26 16:27:03
張安達逆轉(zhuǎn)之戰(zhàn)讓外媒驚嘆:中國斯諾克已進化到這種境界!

張安達逆轉(zhuǎn)之戰(zhàn)讓外媒驚嘆:中國斯諾克已進化到這種境界!

帶你逛體壇
2026-02-26 19:28:09
云南虎跳峽一游客落水失聯(lián)!此前8歲男童在此墜崖遇難

云南虎跳峽一游客落水失聯(lián)!此前8歲男童在此墜崖遇難

環(huán)球網(wǎng)資訊
2026-02-26 14:11:09
中國第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房內(nèi)有特殊布置

中國第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房內(nèi)有特殊布置

瓦倫西亞月亮
2026-02-20 17:37:18
曾經(jīng)年薪200萬元的地產(chǎn)人,改行做陪診師,每單收費兩三百:“我看的是10年、20年,不在乎短期收入低”

曾經(jīng)年薪200萬元的地產(chǎn)人,改行做陪診師,每單收費兩三百:“我看的是10年、20年,不在乎短期收入低”

每日經(jīng)濟新聞
2026-02-26 17:15:06
孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

青蘋果sht
2026-02-20 05:52:21
你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
美籍快艇闖入古巴并交火,4死6傷!7人身份確定:有卡車司機、送貨員,美方展開調(diào)查

美籍快艇闖入古巴并交火,4死6傷!7人身份確定:有卡車司機、送貨員,美方展開調(diào)查

紅星新聞
2026-02-26 18:03:21
試管男嬰出生右腳缺4根腳趾,31歲產(chǎn)婦號啕大哭,家屬稱大排畸未拍到右腳照片,當?shù)匦l(wèi)健委已介入調(diào)查

試管男嬰出生右腳缺4根腳趾,31歲產(chǎn)婦號啕大哭,家屬稱大排畸未拍到右腳照片,當?shù)匦l(wèi)健委已介入調(diào)查

極目新聞
2026-02-25 21:04:20
廖三寧砍16+5令球迷懷念一人:要是他在,肯定不會是現(xiàn)在這個局面

廖三寧砍16+5令球迷懷念一人:要是他在,肯定不會是現(xiàn)在這個局面

弄月公子
2026-02-26 21:07:44
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
江蘇追認:周為號同志留黨察看二年,是什么意思?

江蘇追認:周為號同志留黨察看二年,是什么意思?

江南江南
2026-02-26 15:00:53
老板竟然惡意給我降薪,第二天見我坐在對家公司辦公室,他急了

老板竟然惡意給我降薪,第二天見我坐在對家公司辦公室,他急了

奶茶麥子
2026-02-26 14:43:12
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
長達10年,女子被丈夫下藥供陌生人性侵,人數(shù)創(chuàng)紀錄讓女子崩潰

長達10年,女子被丈夫下藥供陌生人性侵,人數(shù)創(chuàng)紀錄讓女子崩潰

干史人
2026-02-25 09:22:27
已被解雇8個月 71歲伊萬還想復(fù)出:我打造了青春版國足 招了8新人

已被解雇8個月 71歲伊萬還想復(fù)出:我打造了青春版國足 招了8新人

風過鄉(xiāng)
2026-02-26 19:29:18
18歲亞馬爾新歡曝光:21歲網(wǎng)紅 巴薩鐵粉!取代閨蜜上位

18歲亞馬爾新歡曝光:21歲網(wǎng)紅 巴薩鐵粉!取代閨蜜上位

葉青足球世界
2026-02-26 16:21:14
中國財政供養(yǎng)人員達6846萬?結(jié)構(gòu)失衡才是財政壓力的核心

中國財政供養(yǎng)人員達6846萬?結(jié)構(gòu)失衡才是財政壓力的核心

流蘇晚晴
2025-12-04 19:27:08
“3分鐘換電”,困在春運里

“3分鐘換電”,困在春運里

小怪吃美食
2026-02-26 10:13:28
峰回路轉(zhuǎn)!一度被放棄的全美第一,近5戰(zhàn)場均21+6,有望成為核心

峰回路轉(zhuǎn)!一度被放棄的全美第一,近5戰(zhàn)場均21+6,有望成為核心

禾三千體育
2026-02-26 20:28:50
2026-02-26 21:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14596文章數(shù) 66643關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

金與正"轉(zhuǎn)正"了 戴著黑白色發(fā)箍坐在候補委員的第一位

頭條要聞

金與正"轉(zhuǎn)正"了 戴著黑白色發(fā)箍坐在候補委員的第一位

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強公開表態(tài) 財產(chǎn)留給兒媳婦郭碧婷

財經(jīng)要聞

中國AI調(diào)用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

健康
游戲
房產(chǎn)
家居
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

新一代游戲主機根本毫無意義!外媒總結(jié)三大原因

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

家居要聞

歸隱于都市 慢享自由

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版