国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別純獎勵試錯!二次嘗試+反思蒸餾,復雜任務提升81%

0
分享至


新智元報道

編輯:LRST

【新智元導讀】強化學習已經成為大模型后訓練階段的核心方法之一,但一個長期存在的難題始終沒有真正解決:現(xiàn)實環(huán)境中的反饋往往稀疏且延遲,模型很難從簡單的獎勵信號中推斷出應該如何調整行為。

從更宏觀的視角來看,大模型的學習方式正在經歷一條清晰的演進路徑。

早期的監(jiān)督微調(SFT)主要依賴固定示例進行模仿學習,能夠幫助模型學習并復現(xiàn)示例中的規(guī)律,但這種方法高度依賴人工數(shù)據(jù),不僅難以覆蓋復雜環(huán)境中的各種情況,也難以支持模型持續(xù)自我演進。

隨后出現(xiàn)的基于可驗證獎勵的強化學習(RLVR)將模型帶入交互環(huán)境,通過獎勵信號進行試錯優(yōu)化,使模型能夠在動態(tài)任務中逐步改進策略。然而,這種方法仍然主要依賴標量獎勵,模型需要從稀疏或延遲反饋中隱式推斷如何修正行為,往往導致探索效率低、訓練過程不穩(wěn)定。

相比之下,人類在面對復雜任務時往往會經歷一個「體驗—反思—再嘗試」的循環(huán)。個體在獲得反饋后會主動分析失敗原因,總結經驗,并在下一次嘗試中應用修正策略,而不是只根據(jù)結果好壞不斷重復試錯,直到成功。

近日,美國南加州大學和賓夕法尼亞大學的研究團隊聯(lián)合提出了一種新的訓練范式——Experiential Reinforcement Learning(ERL),試圖將「經驗學習」的思想引入強化學習流程,使模型不再只是通過試錯優(yōu)化行為,而能夠進行反思并將經驗內化到策略中。


論文鏈接:https://arxiv.org/abs/2602.13949

ERL正是試圖在訓練過程中顯式引入這一經驗學習循環(huán)。模型在接收到任務后首先進行一次嘗試,隨后根據(jù)環(huán)境反饋生成自我反思,再基于反思進行第二次嘗試,并將成功的行為內化進基礎策略中。


圖1:ERL通過引入「經驗—反思—內化」循環(huán),將強化學習從單純依賴獎勵信號推進到基于經驗的學習方式,相比監(jiān)督微調和傳統(tǒng)強化學習能夠實現(xiàn)更直接的行為修正。

從機制層面來看,傳統(tǒng)強化學習主要依賴試錯過程和標量獎勵信號進行優(yōu)化。

在這一過程中,環(huán)境中原本包含的大量反饋信息往往被壓縮為一個簡單的獎勵數(shù)值,例如成功或失敗,許多能夠幫助理解錯誤原因的細節(jié)難以被利用。

同時,傳統(tǒng)方法通常缺乏跨回合積累經驗的機制,每一次交互都更像是相對獨立的探索過程,模型只能通過不斷試錯逐步逼近正確策略,這也使得學習過程往往效率較低且不夠穩(wěn)定。

相比之下,ERL嘗試直接利用反饋中的信息生成反思,并通過經驗內化機制將有效策略持續(xù)保留,使行為改進能夠在后續(xù)任務中不斷積累,從而形成更加穩(wěn)定的學習過程。


圖2:傳統(tǒng)強化學習主要依賴反復試錯進行探索,而ERL通過反思機制對失敗進行分析并修正策略,使行為改進能夠持續(xù)積累。

二次嘗試機制與經驗內化

在ERL框架下,每個訓練回合都包含三個關鍵生成步驟:第一次嘗試、反思以及第二次嘗試。

模型首先根據(jù)輸入任務生成第一次回答并與環(huán)境交互獲得反饋,得到對應的獎勵信號;隨后基于這次嘗試及其反饋生成一段反思,用于總結可能的改進方向;最后模型再根據(jù)反思進行第二次嘗試,得到新的結果和獎勵(圖3)。

在訓練過程中,這三個步驟產生的輸出都會參與常規(guī)的強化學習策略更新,但它們對應的獎勵來源有所不同。第一、二次嘗試直接使用其與環(huán)境交互得到的獎勵信號;而反思本身的獎勵則與第二次嘗試綁定——如果反思能夠幫助產生更好的結果,它就會獲得更高的獎勵。

這種設計本質上將「反思是否有效」轉化為可學習信號,使模型逐漸學會生成更有幫助的反思內容。

與此同時,ERL還引入了一個額外的「經驗內化」步驟,用于將反思帶來的改進轉化為模型在推理時可以直接使用的能力。

具體做法是:當?shù)诙螄L試獲得較高獎勵時,訓練會額外加入一個蒸餾目標,讓模型在不提供反思上下文的情況下直接從原始輸入生成改進后的答案。

這一過程本質上是一種上下文蒸餾(context distillation),其作用是將依賴反思才能得到的行為修正「寫入」基礎策略,使模型在部署時無需顯式反思也能復現(xiàn)改進效果。


圖3:ERL訓練流程示意圖

從整體來看,這一機制將反思引入強化學習軌跡內部,使模型能夠在同一回合內完成局部行為修正,同時通過蒸餾將有效經驗沉淀為長期能力,從而形成「生成—反思—改進—內化」的閉環(huán)學習過程。

在復雜環(huán)境中顯著提升性能

論文在三類經典任務上驗證了ERL的效果,包括兩個稀疏獎勵環(huán)境Frozen Lake和Sokoban(推箱子),以及多跳問答任務HotpotQA

需要注意的是,論文中的Frozen Lake和Sokoban環(huán)境并不是傳統(tǒng)語言模型評測中常見的文本版本。在許多既有設置中,模型通常會被明確告知環(huán)境符號含義、規(guī)則或任務結構,而該研究刻意不提供這些先驗信息。

模型只能通過與環(huán)境交互獲得觀察結果和獎勵信號,自行推斷符號語義、行動后果以及任務目標,從而逐步形成策略。

這一設計更接近真實未知環(huán)境,旨在評估模型在缺乏先驗知識情況下通過經驗進行學習和自我改進的能力。結果顯示,ERL在所有任務上都優(yōu)于傳統(tǒng)RLVR方法(圖4)。


圖4:ERL與RLVR的最終性能對比

其中,在需要長時間規(guī)劃和策略推理的Sokoban環(huán)境中,性能提升最為明顯,最高提升達到81%。FrozenLake也取得約27%的提升,而在HotpotQA這類反饋相對更密集、環(huán)境更簡單的任務中,提升約為11%。

研究人員指出,這一結果表明ERL在需要推斷環(huán)境動態(tài)和長期決策的場景中優(yōu)勢更加突出。

更快收斂的訓練動態(tài)

從訓練曲線來看,ERL在整個訓練過程中都保持了更高的獎勵水平,并且在相同訓練預算下整體收斂速度更快,與傳統(tǒng)RLVR方法持續(xù)拉開差距(圖5)。

這一點在稀疏獎勵、長規(guī)劃的環(huán)境中尤為明顯:當獎勵只在終局給出時,純粹依賴標量獎勵的策略梯度更新往往需要大量有效軌跡才能產生穩(wěn)定改進,而ERL通過在同一回合內引入「失敗—反思—再嘗試」的結構,將一次交互中的反饋信息轉化為可執(zhí)行的修正方向。

論文認為,反思在訓練中提供了一種額外的中間糾錯通道,使模型不必完全依賴稀疏的最終獎勵去推斷行為改進方向,而是能夠在獲得反饋后生成更明確的修正線索,并用于后續(xù)嘗試,使得訓練更新更集中在接近成功的軌跡上,減少了在無效策略空間中的探索,從而表現(xiàn)為整體收斂更快且曲線更穩(wěn)定。


圖5:ERL與RLVR的訓練效率對比

消融實驗

記憶與反思步驟對訓練表現(xiàn)的影響

為了更清楚地理解性能提升來自哪些機制,論文對ERL的關鍵組件進行了消融分析。

研究分別構造了兩個變體:一是移除結構化反思步驟,模型不再根據(jù)第一次嘗試生成反思,而只是基于已有上下文進行再次嘗試;二是移除跨回合記憶機制,雖然仍然生成反思并用于當前回合的改進,但這些反思不會被保存用于后續(xù)任務。

結果顯示,當移除反思機制時,模型性能下降最為明顯(表1)。由于缺少對失敗原因的結構化總結,第二次嘗試更接近于簡單的「再試一次」,難以形成有效糾錯,因此整體獎勵顯著降低,表明反思是ERL產生即時改進效果的核心來源,它為模型提供了可操作的行為修正線索,使同一回合內的嘗試更有針對性。

相比之下,移除記憶機制主要影響收斂速度。雖然模型仍然能夠在單個回合中通過反思實現(xiàn)改進,但由于無法跨任務積累有效的糾錯經驗,每一次交互都更接近從零開始推斷,導致整體學習過程變慢。這說明記憶機制的作用在于將有效策略持續(xù)保留下來,使改進能夠在訓練過程中逐步積累,從而形成更加穩(wěn)定的策略提升。


表1:消融實驗的最終表現(xiàn)

從模仿學習到經驗學習的范式演進

作者將當前大模型訓練方式概括為一條逐步演進的路徑:從監(jiān)督微調依賴示例模仿,到強化學習依賴獎勵信號進行優(yōu)化,再到經驗強化學習(ERL)強調從經驗中學習。

相比前兩者,ERL通過引入反思與內化機制,提供了一種將失敗轉化為可利用學習信號的顯式路徑,使模型能夠在交互過程中持續(xù)積累行為修正經驗。這一視角也與近年來「經驗數(shù)據(jù)將成為下一代AI主要訓練來源」的觀點相呼應。

論文指出,ERL展示了一種構建經驗驅動AI系統(tǒng)的可能路徑,通過反思和經驗內化,模型能夠在訓練過程中不斷沉淀糾錯策略,并在部署時直接應用這些經驗,而無需額外推理成本。

如果這一方向得到進一步驗證,它可能成為構建長期自主智能體的重要基礎,使強化學習從單純的優(yōu)化方法逐步演變?yōu)楦咏祟悓W習過程的訓練范式。

結語

強化學習的發(fā)展正在經歷一次微妙但重要的轉變。從依賴獎勵信號的試錯優(yōu)化,到強調經驗轉化與行為修正,研究者正在嘗試讓模型具備更接近人類的學習能力。

經驗強化學習(ERL)所提出的經驗—反思—內化框架,展示了一種將交互過程轉化為持續(xù)學習能力的可能路徑,也為構建能夠長期自我改進的智能體提供了新的思路。

參考資料:

https://arxiv.org/abs/2602.13949

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
劉南奎被查!涉嫌保送女兒進國家隊 韓乒倫敦世乒賽選拔推遲至4月

劉南奎被查!涉嫌保送女兒進國家隊 韓乒倫敦世乒賽選拔推遲至4月

勁爆體壇
2026-03-04 08:18:04
“中國人滾出蒙古!”為何外蒙古對中國人充滿敵意

“中國人滾出蒙古!”為何外蒙古對中國人充滿敵意

南權先生
2025-09-16 10:02:18
二野軍政委回鄉(xiāng)探親,家中空無一人,打聽后才知妻兒已被村長賣掉

二野軍政委回鄉(xiāng)探親,家中空無一人,打聽后才知妻兒已被村長賣掉

諾言卿史錄
2026-03-02 09:02:40
拉菲尼亞點射小將雙響,巴薩3-0復仇馬競,創(chuàng)國王杯紀錄無緣逆轉

拉菲尼亞點射小將雙響,巴薩3-0復仇馬競,創(chuàng)國王杯紀錄無緣逆轉

釘釘陌上花開
2026-03-04 06:03:58
東契奇27+10+7失誤,詹皇21分里夫斯前8投0中,湖人送鵜鶘11連敗

東契奇27+10+7失誤,詹皇21分里夫斯前8投0中,湖人送鵜鶘11連敗

釘釘陌上花開
2026-03-04 14:02:34
廣東一對夫妻結婚一年后決定離婚,男方要求女方返還十萬元彩禮,法院:不予支持

廣東一對夫妻結婚一年后決定離婚,男方要求女方返還十萬元彩禮,法院:不予支持

臺州交通廣播
2026-03-04 11:44:14
央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

涵豆說娛
2026-03-02 14:07:31
《生化9》美女喪尸感染前后對比圖 反差引玩家熱議

《生化9》美女喪尸感染前后對比圖 反差引玩家熱議

游民星空
2026-03-03 22:09:07
緊急暫停交易!韓國股市暴跌

緊急暫停交易!韓國股市暴跌

證券時報
2026-03-04 11:07:07
全線施工招標啟動,年內第2條確定開工的高鐵來了!

全線施工招標啟動,年內第2條確定開工的高鐵來了!

鐵路叨叨嘴
2026-03-04 10:49:25
10歲女孩半年近視降了100度,醫(yī)生:她做對了這三件事

10歲女孩半年近視降了100度,醫(yī)生:她做對了這三件事

人民日報健康客戶端
2026-03-02 13:54:06
伊朗空軍和防空系統(tǒng)已經癱瘓,美國軍方開始在伊朗部署B(yǎng)-52轟炸機

伊朗空軍和防空系統(tǒng)已經癱瘓,美國軍方開始在伊朗部署B(yǎng)-52轟炸機

一種觀點
2026-03-04 09:43:57
中國50后還有多少人?多少人能活到80歲?權威數(shù)據(jù)告訴你

中國50后還有多少人?多少人能活到80歲?權威數(shù)據(jù)告訴你

深度報
2026-02-27 21:36:50
意大利男子為證明中國治安,將行李放電動車上,他吃完飯一看驚呆

意大利男子為證明中國治安,將行李放電動車上,他吃完飯一看驚呆

華人星光
2025-11-26 12:28:31
演員李茂全家被迫滯留在迪拜,現(xiàn)已從馬來西亞轉機回國,剛剛與妻子弦子同框報平安

演員李茂全家被迫滯留在迪拜,現(xiàn)已從馬來西亞轉機回國,剛剛與妻子弦子同框報平安

洪觀新聞
2026-03-04 10:44:53
中俄剛說打通圖們江,第一個跳出來反對的,一點不讓人意外

中俄剛說打通圖們江,第一個跳出來反對的,一點不讓人意外

聞香閣
2026-01-04 11:16:35
這一次,伊朗領導人的慘痛遭遇,再一次印證了毛主席的高瞻遠矚

這一次,伊朗領導人的慘痛遭遇,再一次印證了毛主席的高瞻遠矚

夢史
2026-03-02 11:21:33
伊朗允許外國留學生無需出境許可經陸路口岸離境,中國駐伊朗大使館最新通報:這些通道可撤離

伊朗允許外國留學生無需出境許可經陸路口岸離境,中國駐伊朗大使館最新通報:這些通道可撤離

每日經濟新聞
2026-03-03 16:53:40
南昌8名游客迪拜旅游遇導彈襲擊 幸得華人同胞收留

南昌8名游客迪拜旅游遇導彈襲擊 幸得華人同胞收留

閃電新聞
2026-03-04 12:29:15
塔利班規(guī)定:男子可毆打妻子但不得致重傷

塔利班規(guī)定:男子可毆打妻子但不得致重傷

特約前排觀眾
2026-03-04 00:10:03
2026-03-04 15:03:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14636文章數(shù) 66648關注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強AI天團?

頭條要聞

致美軍6死18重傷 伊朗反擊"殺手锏"成本僅需5萬美元

頭條要聞

致美軍6死18重傷 伊朗反擊"殺手锏"成本僅需5萬美元

體育要聞

“頭鐵”拼圖在NBA也有生存環(huán)境

娛樂要聞

迪麗熱巴轉機滯留迪拜 錯過巴黎時裝周

財經要聞

伊朗,正在打破特朗普的幻想

汽車要聞

續(xù)航更長/實用性升級 方程豹鈦3/鈦7閃充版3月5日亮相

態(tài)度原創(chuàng)

時尚
教育
健康
本地
旅游

三件外套拍出17萬美元天價!為什么時裝精都想買她的同款?

教育要聞

麥當勞招實習生!150/天!餐補&七五折員工優(yōu)惠!彈性不打卡!

轉頭就暈的耳石癥,能開車上班嗎?

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

旅游要聞

陽春三月 成都龍泉驛滿山桃花開|圖集

無障礙瀏覽 進入關懷版