国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交博士最新思考:僅用兩個問題講清強(qiáng)化學(xué)習(xí)

0
分享至



從「試錯」到「優(yōu)化」,RL 的統(tǒng)一思維框架。

編譯丨鄭佳美

編輯丨馬曉寧

人工智能領(lǐng)域發(fā)展到現(xiàn)在,強(qiáng)化學(xué)習(xí)(RL)已經(jīng)成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個問題:當(dāng)智能體沒有現(xiàn)成答案時,如何通過與環(huán)境的交互,自主學(xué)會最優(yōu)行為?

聽起來簡單,做起來卻異常復(fù)雜。幾十年來,研究者提出了成百上千種算法,從最早的Q-learning到后來基于深度學(xué)習(xí)的DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數(shù)與假設(shè),看起來彼此獨(dú)立,仿佛一座龐大而混亂的迷宮。

對于剛接觸強(qiáng)化學(xué)習(xí)的人來說,這種復(fù)雜性常常令人挫?。何覀兯坪踉趯W(xué)習(xí)無數(shù)名字,卻始終難以看清它們之間的聯(lián)系。

然而,最近有一篇由上海交通大學(xué)與上海期智研究院的博士生 Kun Lei 發(fā)布的博客提出了一個令人眼前一亮的框架:所有強(qiáng)化學(xué)習(xí)算法,其實(shí)都可以通過兩個問題來理解,第一,數(shù)據(jù)從哪里來?第二,策略更新有多頻繁?

就是這兩個看似樸素的問題,像兩根主線一樣,把強(qiáng)化學(xué)習(xí)的世界重新梳理清楚。從它們出發(fā),我們可以發(fā)現(xiàn):復(fù)雜的 RL 算法不過是在這兩根軸上移動的不同點(diǎn)位。

而當(dāng)這一結(jié)構(gòu)被揭示出來,整個算法邏輯突然變得直觀、有序,也更容易被理解。


博客地址:https://lei-kun.github.io/blogs/rl.html

01
數(shù)據(jù)從哪里來

強(qiáng)化學(xué)習(xí)的過程,本質(zhì)上是智能體不斷收集經(jīng)驗(yàn)、并用這些經(jīng)驗(yàn)改進(jìn)策略的循環(huán)。不同算法的差異,很大程度上取決于它們依賴什么樣的數(shù)據(jù)。

最直接的方式是“在策略學(xué)習(xí)。在這種模式下,智能體一邊與環(huán)境交互,一邊學(xué)習(xí)。每一個動作都帶來新的數(shù)據(jù),立刻被用于更新模型。這類方法像是不斷在現(xiàn)場實(shí)踐的學(xué)生,代表算法包括 PPO、SAC 等。

在線學(xué)習(xí)的優(yōu)點(diǎn)是靈活、適應(yīng)性強(qiáng),但也意味著代價高昂,每次試錯都可能耗費(fèi)時間、能量,甚至造成損失。

相對保守的是“離策略學(xué)習(xí)”。它允許智能體反復(fù)使用過去的經(jīng)驗(yàn),而不必每次都重新與環(huán)境交互。算法會把這些經(jīng)驗(yàn)保存下來,在需要時反復(fù)采樣學(xué)習(xí)。DQN、TD3、DDPG 都屬于這一類。

離策略學(xué)習(xí)提高了樣本利用率,也讓學(xué)習(xí)過程更穩(wěn)定,是許多實(shí)際應(yīng)用中的主流方案。

還有一種方式更極端,叫做“離線學(xué)習(xí)”。這里,智能體完全依賴一個固定的數(shù)據(jù)集進(jìn)行訓(xùn)練,不能再與環(huán)境交互。這種方法看似受限,但在高風(fēng)險場景中卻尤為重要,比如醫(yī)療、自動駕駛或機(jī)器人控制。

算法必須在不試錯的情況下,從既有數(shù)據(jù)中學(xué)會盡可能好的決策,CQL、IQL 就是這類方法的代表。

從在線到離線,數(shù)據(jù)的獲取方式逐漸從主動探索轉(zhuǎn)向被動利用。算法的選擇往往反映了任務(wù)的現(xiàn)實(shí)約束:能否安全地試錯?能否持續(xù)獲得新數(shù)據(jù)?試錯的代價是否可承受?這便是強(qiáng)化學(xué)習(xí)的第一個維度:數(shù)據(jù)從哪里來。


02
學(xué)習(xí)更新的節(jié)奏

而強(qiáng)化學(xué)習(xí)的第二個維度,是學(xué)習(xí)更新的節(jié)奏。簡單來說,就是智能體多久評估一次策略,又多久調(diào)整一次行為。

最簡單的方式是一種“一步式學(xué)習(xí)”。智能體在一個固定的數(shù)據(jù)集上訓(xùn)練一次,學(xué)到一個策略后就不再改進(jìn)。模仿學(xué)習(xí)就是典型例子。它速度快、風(fēng)險低,適合那些對安全性要求高或數(shù)據(jù)有限的任務(wù)。

另一種方式是“多步式學(xué)習(xí)”。算法在一批數(shù)據(jù)上多次更新,直到性能收斂,再重新收集新的數(shù)據(jù)。這是一種折中策略,既避免了頻繁交互的高成本,又能比一次性訓(xùn)練獲得更好的表現(xiàn)。

最具代表性的是“迭代式學(xué)習(xí)”。這類算法不斷在“收集數(shù)據(jù)—更新模型—再收集數(shù)據(jù)”的循環(huán)中進(jìn)化,每一次交互都推動性能提升。它們像一個永不停歇的學(xué)習(xí)者,不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

從一步到多步,再到迭代,算法的更新節(jié)奏越來越密集,也意味著從靜態(tài)到動態(tài)的轉(zhuǎn)變。不同節(jié)奏之間,其實(shí)反映的是對穩(wěn)定性和適應(yīng)性的權(quán)衡。


03
一個更底層的統(tǒng)一

在講清楚“數(shù)據(jù)從哪來”和“學(xué)習(xí)更新的節(jié)奏”這兩條主線之后,博客提出了一個更底層的統(tǒng)一視角:無論算法形式如何變化,所有強(qiáng)化學(xué)習(xí)方法其實(shí)都在做兩件事:評估當(dāng)前策略、然后改進(jìn)它。

簡單來說,強(qiáng)化學(xué)習(xí)就像一個反復(fù)自我練習(xí)的過程:

先評估,看看自己目前的策略表現(xiàn)得怎樣,哪些動作好、哪些不好;

再改進(jìn),根據(jù)評估結(jié)果,調(diào)整策略,讓下一次決策更聰明一點(diǎn)。

Q-learning、PPO、SAC……看起來名字各不相同,其實(shí)都在重復(fù)這兩個動作。唯一的區(qū)別,只是它們評估得方式不同、改進(jìn)的速度不同、或者用到的數(shù)據(jù)不同。

在博客中,作者用一組公式,把這兩步統(tǒng)一地寫了出來:

評估階段(Policy Evaluation)就是去衡量“這套策略到底值不值”。算法會讓模型預(yù)測某個狀態(tài)下采取某個動作能得到多大的回報,然后和實(shí)際反饋進(jìn)行比較。如果誤差太大,就調(diào)整模型,讓它的預(yù)期更接近現(xiàn)實(shí)。在線算法直接用新數(shù)據(jù)計算,離線或離策略算法則要通過重要性采樣、加權(quán)平均等方式修正舊數(shù)據(jù)的偏差。

改進(jìn)階段(Policy Improvement)是在得到新的評估結(jié)果后,優(yōu)化策略本身。模型會傾向于選擇那些帶來更高期望回報的動作。但為了避免一下子“改過頭”,很多算法會加上約束或正則項,比如讓新策略不能偏離舊策略太多(這就是 PPO 的思想),或者在策略里保留一定的探索性(這就是 SAC 中熵正則的作用)。


從這個角度看,所謂不同的強(qiáng)化學(xué)習(xí)算法,其實(shí)只是這兩個過程的不同實(shí)現(xiàn)。有的算法更注重評估的準(zhǔn)確性,有的更強(qiáng)調(diào)改進(jìn)的穩(wěn)定性,有的頻繁更新、快速迭代,有的則保守謹(jǐn)慎、慢慢優(yōu)化。

當(dāng)我們用“評估 + 改進(jìn)”去看強(qiáng)化學(xué)習(xí)時,整個算法體系就像被抽絲剝繭地展現(xiàn)在眼前,所有方法都不再是孤立的技巧,而是這兩個動作的不同組合。

在講清這兩條主線后,博客還進(jìn)一步將視角延伸到了現(xiàn)實(shí)世界的智能系統(tǒng),尤其是當(dāng)下正在快速發(fā)展的機(jī)器人基礎(chǔ)模型。

Kun Lei 指出這種以訓(xùn)練節(jié)奏為核心的思考方式,與現(xiàn)代機(jī)器人基礎(chǔ)模型的訓(xùn)練實(shí)踐高度契合。例如 Generalist 團(tuán)隊的 GEN-0 與 Pi 的 pi_0.5,它們的成長過程就像一臺不斷運(yùn)轉(zhuǎn)的數(shù)據(jù)飛輪。系統(tǒng)會持續(xù)吸收新的任務(wù)與場景,將它們整合進(jìn)統(tǒng)一的語料庫,然后周期性地進(jìn)行再訓(xùn)練或微調(diào)。

在這樣的機(jī)制下,多步式更新成為一種自然選擇。每一次訓(xùn)練循環(huán)都帶來小幅、受控的改進(jìn),既保守到能避免分布坍塌的風(fēng)險,又留下足夠的探索空間,使模型能夠在不斷擴(kuò)展的數(shù)據(jù)語料中穩(wěn)步成長。

并且當(dāng)模型逐漸接近能力瓶頸,無論是為了超越人類在特定任務(wù)上的上限,還是為了更精準(zhǔn)地對齊人類表現(xiàn),研究者通常會轉(zhuǎn)向迭代式的在線強(qiáng)化學(xué)習(xí),針對特定目標(biāo)進(jìn)行更高頻、更精細(xì)的評估與改進(jìn)。

這種從多步更新向在線迭代過渡的訓(xùn)練策略,已在實(shí)踐中被多次驗(yàn)證有效,例如在 rl-100 等典型設(shè)定中,多步更新已經(jīng)能夠在有限數(shù)據(jù)下取得穩(wěn)定進(jìn)步,而適量的在線 RL 則能在保持安全與穩(wěn)定的前提下,將模型性能進(jìn)一步推高。

04
走在 RL 前沿的年輕研究者


作者主頁:https://lei-kun.github.io/?utm

這篇博客的作者 Kun Lei 目前是上海交通大學(xué)與上海期智研究院的博士生,師從清華大學(xué)許華哲教授。

Kun Lei 畢業(yè)于西南交通大學(xué),在本科階段就開始從事人工智能與優(yōu)化相關(guān)的研究,并曾與西南交通大學(xué)的郭鵬教授以及美國奧本大學(xué)的王毅教授合作開展科研工作。

在讀博之前,他曾在上海期智研究院擔(dān)任研究助理,與許華哲教授共同進(jìn)行強(qiáng)化學(xué)習(xí)和機(jī)器人智能方向的研究,后來又在西湖大學(xué)進(jìn)行了為期四個月的科研實(shí)習(xí),主要探索具身智能與強(qiáng)化學(xué)習(xí)算法在真實(shí)環(huán)境中的應(yīng)用。

Kun Lei 的研究方向涵蓋深度強(qiáng)化學(xué)習(xí)、具身智能與機(jī)器人學(xué)習(xí)。相比單純追求算法指標(biāo),他更關(guān)心這些算法如何真正落地,怎樣讓強(qiáng)化學(xué)習(xí)不僅在仿真環(huán)境中有效,也能在真實(shí)的機(jī)器人系統(tǒng)中穩(wěn)定工作,怎樣讓智能體在有限的數(shù)據(jù)下快速學(xué)習(xí)、靈活適應(yīng)。

同時從他的博客也能看出,Kun Lei 的研究風(fēng)格兼具工程實(shí)踐與直覺思考,他追求的不是更復(fù)雜的模型,而是更清晰的理解。這篇關(guān)于強(qiáng)化學(xué)習(xí)的文章正體現(xiàn)了這種思路,他沒有堆疊晦澀的公式,而是用兩個最本質(zhì)的問題,理出強(qiáng)化學(xué)習(xí)背后的邏輯主線。

而強(qiáng)化學(xué)習(xí)之所以讓人望而卻步,是因?yàn)樗睦碚擉w系龐大、公式繁復(fù)。初學(xué)者常常被各種貝爾曼方程、策略梯度、折扣回報等概念包圍,每一個術(shù)語都能展開成幾頁推導(dǎo),但卻難以抓住核心。

這篇博客的價值就在于,它把這一切重新拉回了原點(diǎn)。作者沒有從復(fù)雜的數(shù)學(xué)出發(fā),而是提出兩個最簡單的問題:數(shù)據(jù)從哪里來?策略更新有多頻繁?

這看似樸素的提問,其實(shí)觸及了強(qiáng)化學(xué)習(xí)的根。它幫助讀者重新看見算法的結(jié)構(gòu),不同方法之間不再是孤立的技巧,而是圍繞這兩個維度的不同取舍。通過這樣的視角,強(qiáng)化學(xué)習(xí)那片看似混亂的森林,突然變得有路可循。

更重要的是,這種思路不僅僅是一種講解方式,更是一種思考問題的習(xí)慣。它提醒我們,復(fù)雜系統(tǒng)的背后往往隱藏著最簡單的規(guī)律,只是被層層公式和術(shù)語掩蓋。當(dāng)我們回到原理本身,用結(jié)構(gòu)化的方式去理解問題,復(fù)雜性就不再是障礙。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江西一批領(lǐng)導(dǎo)干部任前公示,漆海云擬提名為設(shè)區(qū)市市長候選人

江西一批領(lǐng)導(dǎo)干部任前公示,漆海云擬提名為設(shè)區(qū)市市長候選人

澎湃新聞
2025-12-26 20:39:03
2005年必將載入人類史冊的7大事件

2005年必將載入人類史冊的7大事件

史政先鋒
2025-12-24 15:13:06
多地整治“世襲崗”,網(wǎng)友:都是交叉安置,換形式不變本質(zhì),為啥

多地整治“世襲崗”,網(wǎng)友:都是交叉安置,換形式不變本質(zhì),為啥

你食不食油餅
2025-12-25 23:38:53
美媒更新本季球星排名:約基奇居首庫里第6 杜蘭特第11詹姆斯第24

美媒更新本季球星排名:約基奇居首庫里第6 杜蘭特第11詹姆斯第24

羅說NBA
2025-12-27 06:05:10
美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

野史日記
2025-12-26 08:42:08
深度分析:湖人隊主帥雷迪克的“不悅”爆發(fā)預(yù)示湖人可能進(jìn)行交易

深度分析:湖人隊主帥雷迪克的“不悅”爆發(fā)預(yù)示湖人可能進(jìn)行交易

好火子
2025-12-27 06:20:47
看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

洞見
2025-12-26 21:13:17
2026年央視馬年春晚官宣,看完導(dǎo)演和擬邀名單,廁所都不敢去上了

2026年央視馬年春晚官宣,看完導(dǎo)演和擬邀名單,廁所都不敢去上了

包餃子ai剪輯
2025-12-11 11:52:28
故事:聶磊稱霸青島十幾年,最后因惹上一個女人,踢到鐵板就此滅亡

故事:聶磊稱霸青島十幾年,最后因惹上一個女人,踢到鐵板就此滅亡

紅豆講堂
2024-12-17 10:54:23
爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

籃球大視野
2025-12-26 18:37:16
比亞迪法務(wù)部重拳出擊,“龍哥講電車”被判賠償200萬元并消除影響

比亞迪法務(wù)部重拳出擊,“龍哥講電車”被判賠償200萬元并消除影響

金融界
2025-12-25 16:13:22
賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

體育哲人
2025-12-27 00:01:22
一大早,被群毆兩次的女人!

一大早,被群毆兩次的女人!

鈞言堂
2025-12-25 09:42:17
回頭看10年前南博的龐萊臣名畫展,格外諷刺

回頭看10年前南博的龐萊臣名畫展,格外諷刺

亮見
2025-12-25 15:05:31
1-0絕殺!恭喜中國隊!王鈺棟破門+熱身賽豪取2連勝,球迷歡呼

1-0絕殺!恭喜中國隊!王鈺棟破門+熱身賽豪取2連勝,球迷歡呼

籃球看比賽
2025-12-26 10:48:11
局勢逆轉(zhuǎn)!中國強(qiáng)硬下達(dá)“逐客令”,僅一招就讓4000家日企倒閉

局勢逆轉(zhuǎn)!中國強(qiáng)硬下達(dá)“逐客令”,僅一招就讓4000家日企倒閉

芯火相承
2025-12-26 18:54:49
網(wǎng)購“10-9”枚鹵蛋實(shí)得1枚顧客最新發(fā)聲:蛋已吃,并獲10倍賠償;律師:商家強(qiáng)詞奪理涉嫌欺詐

網(wǎng)購“10-9”枚鹵蛋實(shí)得1枚顧客最新發(fā)聲:蛋已吃,并獲10倍賠償;律師:商家強(qiáng)詞奪理涉嫌欺詐

極目新聞
2025-12-26 19:33:46
雷司令——英國皇室的心頭好

雷司令——英國皇室的心頭好

徐靜波靜說日本
2025-12-25 07:07:01
英超:曼聯(lián)1-0紐卡6輪1負(fù)超越利物浦升至第5 多古紅魔生涯處子球

英超:曼聯(lián)1-0紐卡6輪1負(fù)超越利物浦升至第5 多古紅魔生涯處子球

狍子歪解體壇
2025-12-27 05:57:12
今日!央視直播NBA開拓者VS快船 中國男籃國手楊瀚森有望連續(xù)出戰(zhàn)

今日!央視直播NBA開拓者VS快船 中國男籃國手楊瀚森有望連續(xù)出戰(zhàn)

晚池
2025-12-27 00:03:25
2025-12-27 06:44:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7026文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

本地
數(shù)碼
藝術(shù)
公開課
軍事航空

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數(shù)碼要聞

盛色推出“OF24TC”23.8英寸顯示器:1080P 144Hz,499元

藝術(shù)要聞

閆平 2025油畫作品欣賞

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏最新20點(diǎn)俄烏和平草案遞交莫斯科 俄方拒絕

無障礙瀏覽 進(jìn)入關(guān)懷版