国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

山大、理想汽車和中科院聯(lián)合提出新范式:讓Transformer去其糟粕

0
分享至



離線強化學(xué)習(xí)(Offline RL)的一大難點是:訓(xùn)練數(shù)據(jù)固定、質(zhì)量參差不齊。近兩年,Decision Transformer(DT)等基于 Transformer 的方法因為把決策建模成條件序列生成而受到關(guān)注,但它們往往把「整條軌跡」作為學(xué)習(xí)單位:如果一條軌跡的最終回報不高,軌跡中間即便出現(xiàn)過有效動作與局部成功,也容易被整體低回報「稀釋」。

針對這一痛點,山東大學(xué)、中科院、理想汽車與清華大學(xué)的研究團隊聯(lián)合提出了一種名為PRGS(Peak-Return Greedy Slicing)的新框架。

PRGS 的目標(biāo)是在不改變離線數(shù)據(jù)來源的前提下,從原始軌跡中自動篩選出更有學(xué)習(xí)價值的子軌跡(sub-trajectories),用于訓(xùn)練 Transformer 型離線 RL 方法,并在推理階段進一步避免「糟糕歷史」對當(dāng)前決策的干擾。

在 D4RL、BabyAI 等主流榜單上,PRGS 不僅超越各種基線方法,更讓 Transformer 類方法的平均性能提升了 15.8%!

本論文的第一作者徐志偉,山東大學(xué)通用智能實驗室助理教授。于 2024 年在中國科學(xué)院自動化研究所獲博士學(xué)位,研究內(nèi)容主要為強化學(xué)習(xí)、多智能體系統(tǒng)與基于大語言模型的 AI Agent。曾獲得 2025 年度中國智能體與多智能體系統(tǒng)優(yōu)秀博士論文提名等榮譽。

目前,該論文已接收于國際計算機頂級會議 ICLR 2026。ICLR(International Conference on Learning Representations)是機器學(xué)習(xí)與表示學(xué)習(xí)領(lǐng)域的國際頂級會議之一,與 NeurIPS、ICML 并列為人工智能方向最具影響力的學(xué)術(shù)會議。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率約為 28%。



  • 論文標(biāo)題:Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 論文鏈接:
  • https://openreview.net/pdf?id=7vpehpWnnY

01 痛點:按「整條軌跡」學(xué)習(xí),粒度不夠細

在離線 RL 中,數(shù)據(jù)是固定的,不能像在線 RL 那樣去不斷試錯?,F(xiàn)有的 Transformer-based 方法(如 DT),本質(zhì)上是在做條件序列建模。它們通常以「最終回報(Final Return)」為條件來生成動作。

這帶來的問題是顯而易見的:

  • 粒度偏粗:模型只能看到一條軌跡的整體回報信號,難以區(qū)分軌跡內(nèi)部不同時間段的質(zhì)量差異。

  • 縫合能力缺失:由于缺乏局部優(yōu)化目標(biāo),模型很難從多個平庸策略中提取出最優(yōu)片段并組合成新的完美策略。

雖然也有研究試圖通過重采樣或加權(quán)來緩解,但大多治標(biāo)不治本,沒有深入到時間步(Timestep)級別去精細化操作。而PRGS 的出現(xiàn),正是為了打破這一僵局。

02 核心解法:從全局建模到精細化切片

PRGS(Peak-Return Greedy Slicing)可以理解為一個面向 Transformer 離線 RL 的數(shù)據(jù)處理與推理增強框架,包含三部分:回報估計、貪心切片、推理時自適應(yīng)截斷。



它的核心邏輯非常像人類的學(xué)習(xí)過程:回顧過去的經(jīng)歷,哪怕結(jié)局是失敗的,也要找出其中做得最好的那一段,刻在腦子里。

PRGS 包含三個環(huán)環(huán)相扣的模塊:

第一步:MMD-based Return Estimator:用分布視角做更「樂觀」的回報估計

PRGS 首先需要回答:在軌跡內(nèi)部,哪些時間段更可能帶來高回報?為此作者引入基于最大均值差異(MMD)的回報估計器,用來刻畫狀態(tài)-動作對的潛在回報分布。

不同于傳統(tǒng)的均值預(yù)測,MMD 估計器能預(yù)測狀態(tài)-動作對的潛在回報分布。通過對分布采樣并取 Top-n 均值,PRGS 獲得了一個樂觀的回報估計值。簡單來說就是:它能挖掘出當(dāng)前狀態(tài)下可能達到的最好結(jié)果,而不是平均結(jié)果。

第二步:Greedy Subtrajectory Slicing:圍繞峰值回報做遞歸切片

在得到每個時間步的「樂觀回報」后,PRGS 對單條軌跡執(zhí)行貪心切片:PRGS 會掃描整條軌跡,計算每個時間步的「樂觀回報」。然后,它會找到那個回報最高的點——峰值點(Peak Point)。

  • 切。以這個峰值點為界,從起點到峰值點的這一段,被認(rèn)定為「高質(zhì)量子軌跡」,直接拿去訓(xùn)練 Transformer。

  • 再切。剩下的部分,再重新找峰值,繼續(xù)切,直到切完為止。

這種遞歸式的貪心策略,把長軌跡拆成一組更短、質(zhì)量更聚焦的子軌跡,從而讓 Transformer 在訓(xùn)練中更頻繁地接觸到「相對高回報」的決策片段。

第三步:Adaptive History Truncation:推理階段的自適應(yīng)截斷

PRGS 還考慮了一個實際問題:模型訓(xùn)練時看到的是「從軌跡中段截取出來的子軌跡」,推理時如果始終把所有歷史上下文都喂給模型,早期的低質(zhì)量動作可能會干擾后續(xù)決策。

PRGS 引入了一種自適應(yīng)歷史截斷機制(AHT):每走一步,模型都會評估當(dāng)前狀態(tài)的價值。如果發(fā)現(xiàn)現(xiàn)在的處境比歷史記錄顯示的更有前途,說明之前的歷史已經(jīng)不僅沒用,反而成了累贅。這時候,模型會果斷失憶,丟掉歷史上下文,輕裝上陣。

03 實驗:多場景達到 SOTA 表現(xiàn),復(fù)雜場景更強


研究團隊在D4RL(連續(xù)控制)、BabyAI(自然語言指令跟隨)以及AuctionNet(大規(guī)模廣告競價)三個截然不同的基準(zhǔn)上進行了測試。

D4RL 場景中表現(xiàn)驚艷

在經(jīng)典的 MuJoCo 和 AntMaze 任務(wù)中,PRGS 的表現(xiàn)堪稱驚艷。特別是在需要極強「縫合能力」的Maze2D-Large迷宮任務(wù)中,DT-PRGS 的得分高達127.5,而原始 DT 只有不到 30 分。



在迷宮任務(wù)中的可視化結(jié)果也顯示,通過 PRGS 提取出的子軌跡,精準(zhǔn)地覆蓋了通往目標(biāo)的「黃金路徑」,幾乎剔除了所有繞彎路的無效探索。



真實業(yè)務(wù)場景的潛力

除了學(xué)術(shù)榜單,PRGS 在AuctionNet(阿里媽媽開源的廣告競價數(shù)據(jù)集)上也表現(xiàn)出色。相比于 BC(行為克?。?,加持了 PRGS 后的 BC 算法在多個周期內(nèi)實現(xiàn)了顯著的利潤提升。



04 總結(jié)與展望


PRGS 的成功證明了一件事:在離線強化學(xué)習(xí)中,數(shù)據(jù)不僅要「多」,更要「精」。

通過MMD 估計器、貪心切片和自適應(yīng)截斷這套組合拳,PRGS 成功地讓 Transformer 具備了「取其精華,去其糟粕」的能力。這一成果也為自動駕駛、機器人控制等工業(yè)級應(yīng)用提供了極具價值的技術(shù)參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
外交部發(fā)言人反問日媒:“你見過有人未經(jīng)允許持刀進入使館與大使交談的先例嗎?”

外交部發(fā)言人反問日媒:“你見過有人未經(jīng)允許持刀進入使館與大使交談的先例嗎?”

環(huán)球網(wǎng)資訊
2026-03-25 15:39:26
中國電信:全面轉(zhuǎn)向token經(jīng)營!

中國電信:全面轉(zhuǎn)向token經(jīng)營!

最通信
2026-03-25 20:45:14
張雪峰追悼會周六將在蘇州殯儀館舉行

張雪峰追悼會周六將在蘇州殯儀館舉行

界面新聞
2026-03-26 07:04:27
兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
土耳其油輪遭無人機襲擊引發(fā)劇烈爆炸,載有14萬噸原油,曾被多方制裁

土耳其油輪遭無人機襲擊引發(fā)劇烈爆炸,載有14萬噸原油,曾被多方制裁

紅星新聞
2026-03-26 17:20:06
我們看印度人是奇葩,印度人看我們也一樣?真相是我們想象的百倍

我們看印度人是奇葩,印度人看我們也一樣?真相是我們想象的百倍

番外行
2026-03-24 13:04:28
千萬粉大V嘲諷張雪峰病逝,全網(wǎng)都怒了

千萬粉大V嘲諷張雪峰病逝,全網(wǎng)都怒了

韜聞
2026-03-26 12:09:13
張雪峰的財產(chǎn)幾個億,竟然沒買車,天天吃外賣,生活簡樸到極致

張雪峰的財產(chǎn)幾個億,竟然沒買車,天天吃外賣,生活簡樸到極致

魔都姐姐雜談
2026-03-25 15:59:12
已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

我愛英超
2026-03-26 18:25:55
觀眾不買單了?上海德云社剛開業(yè)發(fā)生反常事情,郭德綱于謙傻眼了

觀眾不買單了?上海德云社剛開業(yè)發(fā)生反常事情,郭德綱于謙傻眼了

一盅情懷
2026-03-26 14:51:05
千萬粉絲大V,微博賬號被禁止關(guān)注

千萬粉絲大V,微博賬號被禁止關(guān)注

第一財經(jīng)資訊
2026-03-26 12:19:47
毛新宇少將擔(dān)任副部長!妻子劉濱擔(dān)任扇子協(xié)會會長

毛新宇少將擔(dān)任副部長!妻子劉濱擔(dān)任扇子協(xié)會會長

李昕言溫度空間
2025-11-09 14:50:17
喪夫僅5個月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

喪夫僅5個月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

冷紫葉
2026-03-24 19:12:36
5分鐘開通國家免費電視!不用機頂盒、不連網(wǎng),永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網(wǎng),永久免費

叮當(dāng)當(dāng)科技
2026-03-20 03:29:51
諾基亞6600內(nèi)置無人機,這設(shè)計必須封神

諾基亞6600內(nèi)置無人機,這設(shè)計必須封神

3C毒物
2026-02-27 15:25:40
出差遭上司猥褻后被調(diào)崗降薪,女子起訴獲賠,公司管理失職被判擔(dān)責(zé)

出差遭上司猥褻后被調(diào)崗降薪,女子起訴獲賠,公司管理失職被判擔(dān)責(zé)

紅星新聞
2026-03-26 18:23:16
來華名單已公布,大會最后24小時,韓國總理突然變卦,取消訪華

來華名單已公布,大會最后24小時,韓國總理突然變卦,取消訪華

諾諾談史
2026-03-25 20:56:16
北京房價反彈,居民看房忙碌

北京房價反彈,居民看房忙碌

阿離家居
2026-03-26 02:05:35
士兵當(dāng)將軍有多難?四川阿壩5000人參加紅軍,僅1人55年獲大校銜

士兵當(dāng)將軍有多難?四川阿壩5000人參加紅軍,僅1人55年獲大校銜

興趣知識
2026-03-26 14:01:20
飯店將當(dāng)日剩菜 1 元賣給深夜騎手:成年人的善良,都藏在細節(jié)里

飯店將當(dāng)日剩菜 1 元賣給深夜騎手:成年人的善良,都藏在細節(jié)里

童童聊娛樂啊
2026-03-26 18:10:26
2026-03-27 04:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
親子
健康
房產(chǎn)
家居

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

親子要聞

試工育兒嫂被查出傳染病,寶媽崩潰!家政服務(wù)“健康關(guān)”如何保障?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

無障礙瀏覽 進入關(guān)懷版