国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

0
分享至



本論文的主要作者來(lái)自騰訊混元 AI 數(shù)字人團(tuán)隊(duì) (Tencent Hunyuan AI Digital Human)。該團(tuán)隊(duì)致力于打造「有智商、有情商、有溫度的數(shù)字人」,旨在為用戶提供高度擬人、可信賴(lài)的數(shù)字伙伴,進(jìn)而實(shí)現(xiàn)富有溫度與信任的情感交互。

自主智能體(Agents)正朝著能夠處理復(fù)雜長(zhǎng)程任務(wù)(Long-Horizon Tasks)的通用智能(AGI)邁進(jìn),但許多研究者發(fā)現(xiàn)了一個(gè)尷尬的現(xiàn)實(shí):很多智能體雖然能完成任務(wù),卻像個(gè)「只會(huì)蒙答案的學(xué)生」,其成功往往依賴(lài)于運(yùn)氣和低效的試錯(cuò),而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變,它們便漏洞百出。

這種「結(jié)果正確,但過(guò)程混亂」的現(xiàn)象,是當(dāng)前長(zhǎng)程智能體(Long-Horizon Agents)強(qiáng)化學(xué)習(xí)(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務(wù)便獲得獎(jiǎng)勵(lì),而其間大量的冗余操作、無(wú)效探索,甚至錯(cuò)誤的推理路徑,都被無(wú)意中 「強(qiáng)化」 和固化。這導(dǎo)致了兩個(gè)核心難題:

1.低效探索難題:智能體容易陷入「無(wú)效內(nèi)卷」,反復(fù)嘗試無(wú)意義的動(dòng)作,訓(xùn)練成本高,推理效率低下。

2.泛化脆弱難題:靠「蒙對(duì)」學(xué)會(huì)的策略缺乏邏輯基礎(chǔ),在新任務(wù)面前不堪一擊,難以實(shí)現(xiàn)真正的魯棒性。

如何讓智能體不僅「知其然」,更能「知其所以然」?

面對(duì)這些難題,騰訊混元 AI 數(shù)字人團(tuán)隊(duì)提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項(xiàng)工作開(kāi)創(chuàng)性地將認(rèn)知科學(xué)中的「元認(rèn)知」(即 「思考自己的思考」)理論引入 RL,通過(guò)獎(jiǎng)勵(lì)「好的思考過(guò)程」而非僅僅獎(jiǎng)勵(lì)「好的結(jié)果」,首次實(shí)現(xiàn)了對(duì)智能體推理過(guò)程的端到端強(qiáng)化學(xué)習(xí),成功解決了長(zhǎng)程任務(wù)中的低效探索與泛化難題。



  • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
  • 項(xiàng)目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

RLVMR:如何教會(huì)智能體「思考」,而不僅是「做事」?

傳統(tǒng)方法要么依賴(lài)僵化的專(zhuān)家數(shù)據(jù)(SFT),要么依賴(lài)稀疏的結(jié)果獎(jiǎng)勵(lì)(RL),都無(wú)法有效塑造智能體高質(zhì)量的「思維習(xí)慣」。RLVMR 的破局點(diǎn)在于:為智能體的「思考過(guò)程」本身,設(shè)計(jì)一套可驗(yàn)證、可優(yōu)化的獎(jiǎng)勵(lì)機(jī)制。



1. 智能體學(xué)會(huì)「三思而后行」:引入元推理狀態(tài)

RLVMR 賦予智能體「自我意識(shí)」的能力。在行動(dòng)前,智能體需要先思考并給自己貼上一個(gè)「元推理標(biāo)簽」,明確自己當(dāng)前處于哪個(gè)認(rèn)知階段:

  • 規(guī)劃(Planning):我準(zhǔn)備做什么?計(jì)劃是什么?
  • 探索(Exploring):我正在執(zhí)行計(jì)劃,探索方案。
  • 反思(Reflecting):計(jì)劃出錯(cuò)了?我需要糾正什么?

這套機(jī)制讓智能體的「內(nèi)心戲」變得明確、可追蹤,為獎(jiǎng)勵(lì)其「優(yōu)質(zhì)思考」提供了抓手。

2. 獎(jiǎng)勵(lì)「好思路」,懲罰「壞習(xí)慣」:可驗(yàn)證的過(guò)程獎(jiǎng)勵(lì)

光有標(biāo)簽還不夠,RLVMR 設(shè)計(jì)了一套輕量級(jí)的驗(yàn)證規(guī)則,實(shí)時(shí)評(píng)估智能體的思考質(zhì)量,并給予即時(shí)獎(jiǎng)勵(lì):

  • 獎(jiǎng)勵(lì)高效思考:當(dāng)智能體在「反思」后成功糾錯(cuò),或制定出有效「規(guī)劃」時(shí),給予正向獎(jiǎng)勵(lì)。
  • 懲罰低效行為:當(dāng)智能體陷入無(wú)意義的動(dòng)作循環(huán)或重復(fù)犯錯(cuò)時(shí),給予負(fù)向獎(jiǎng)勵(lì)。

這種「過(guò)程獎(jiǎng)勵(lì)」機(jī)制,像一位貼身教練,不斷引導(dǎo)智能體優(yōu)化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

3. 從「結(jié)果導(dǎo)向」到「過(guò)程與結(jié)果并重」

RLVMR 將「過(guò)程獎(jiǎng)勵(lì)」與最終的「任務(wù)成功獎(jiǎng)勵(lì)」相結(jié)合,通過(guò)策略梯度方法進(jìn)行端到端優(yōu)化。這使得智能體在追求最終目標(biāo)的同時(shí),必須學(xué)會(huì)如何更聰明、更高效地達(dá)成目標(biāo)。

核心實(shí)驗(yàn)成果:7B 模型比肩「巨頭旗艦」

在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長(zhǎng)程任務(wù)基準(zhǔn)上,RLVMR 展現(xiàn)了統(tǒng)治級(jí)的性能。經(jīng)過(guò) RLVMR 訓(xùn)練的 7B 模型,在難度最高、從未見(jiàn)過(guò)的任務(wù)(L2 泛化等級(jí))上,成功率高達(dá) 83.6%,不僅遠(yuǎn)超此前所有 SOTA 模型,更證明了其強(qiáng)大的泛化能力。



此外,我們的方法訓(xùn)練出的智能體更「聰明」,解決任務(wù)的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復(fù)雜環(huán)境中,所需動(dòng)作數(shù)最高減少 28.1%。此外,訓(xùn)練過(guò)程本身也告別了「反復(fù)橫跳」式的低效學(xué)習(xí),收斂速度更快、策略更穩(wěn)定,顯著緩解了無(wú)效探索問(wèn)題。





超越分?jǐn)?shù):RLVMR 實(shí)驗(yàn)中的深度洞察

洞察一:智能體學(xué)會(huì)「反思」,告別「無(wú)效內(nèi)卷」

傳統(tǒng) RL 智能體像一個(gè)埋頭刷題但從不復(fù)盤(pán)的學(xué)生,容易在錯(cuò)誤路徑上反復(fù)掙扎。RLVMR 的核心貢獻(xiàn)在于教會(huì)了智能體「反思」(Reflecting)。



實(shí)驗(yàn)數(shù)據(jù)顯示,引入「反思」機(jī)制后,智能體在遇到困難時(shí),不再是盲目重試,而是能夠主動(dòng)識(shí)別問(wèn)題、調(diào)整策略。這正是其重復(fù)動(dòng)作率大幅降低、任務(wù)成功率飆升的根本原因。它揭示了一個(gè)關(guān)鍵點(diǎn):對(duì)于復(fù)雜任務(wù),教會(huì)智能體如何從失敗中學(xué)習(xí),比單純「喂」給它成功的經(jīng)驗(yàn)更重要。

洞察二:好的推理習(xí)慣,是泛化能力的基石

為什么 RLVMR 在未見(jiàn)任務(wù)上表現(xiàn)如此出色?



我們發(fā)現(xiàn),通過(guò)獎(jiǎng)勵(lì)「好的思考過(guò)程」,RLVMR 幫助智能體建立了一套通用的、不依賴(lài)于特定任務(wù)的「元問(wèn)題解決框架」(如何規(guī)劃、如何探索、如何反思)。當(dāng)面對(duì)新環(huán)境(L2)時(shí),智能體調(diào)用的不再是某個(gè)僵化的「解題模板」,而是這套靈活的「思維方法論」。

這證實(shí)了一個(gè)重要猜想:真正的泛化能力,源自于對(duì)問(wèn)題解決過(guò)程的深刻理解,而非對(duì)問(wèn)題答案的機(jī)械記憶。 RLVMR 正是通往這條道路的有效路徑。

洞察三:先 「冷啟動(dòng)」 再 「強(qiáng)化」—— 智能體的成長(zhǎng)階梯設(shè)計(jì)

RLVMR 采用了「冷啟動(dòng) SFT + 強(qiáng)化學(xué)習(xí) RL」的兩階段訓(xùn)練流程。這并非簡(jiǎn)單的流程拼接,而是一種符合認(rèn)知規(guī)律的「成長(zhǎng)曲線」設(shè)計(jì)。

  • 冷啟動(dòng)階段(SFT):如同基礎(chǔ)教育,讓智能體先通過(guò)模仿學(xué)習(xí),快速掌握「規(guī)劃」「反思」等元推理概念的基本表達(dá)方式。
  • 強(qiáng)化學(xué)習(xí)階段(RL):如同進(jìn)入社會(huì)實(shí)踐,讓智能體在真實(shí)環(huán)境中自由探索,通過(guò)「過(guò)程獎(jiǎng)勵(lì)」的不斷反饋,將學(xué)到的概念內(nèi)化為真正的能力。



這一策略啟示我們:在訓(xùn)練高級(jí)智能體時(shí),「先教會(huì)它如何思考,再放手讓它去犯錯(cuò)成長(zhǎng)」,可能是比單一訓(xùn)練范式更高效的路徑。

總結(jié)與展望

RLVMR 的提出,為智能體訓(xùn)練帶來(lái)了從「結(jié)果導(dǎo)向」到「過(guò)程導(dǎo)向」的范式革新。它證明了,通過(guò)對(duì)智能體「思考過(guò)程」的直接建模與獎(jiǎng)勵(lì),我們能夠有效破解長(zhǎng)程任務(wù)中的「低效探索」與「泛化脆弱」兩大難題。

我們對(duì) AGI 的終極期待,是一個(gè)能夠獨(dú)立思考、理性決策的伙伴,而不是一個(gè)只會(huì)尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵(lì)大模型從偶然涌現(xiàn)的能力,走向特定思維模式的強(qiáng)化,為構(gòu)建更魯棒、更高效、更可解釋的通用智能體邁出了堅(jiān)實(shí)的一步。

這項(xiàng)研究不僅為長(zhǎng)程智能體訓(xùn)練提供了新思路,也為我們探索能真正理解世界、應(yīng)對(duì)未知的下一代 AI 帶來(lái)了新的曙光。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
278架無(wú)人機(jī)襲擊俄羅斯,莫斯科遭30架無(wú)人機(jī)襲擊,俄羅斯也挨炸

278架無(wú)人機(jī)襲擊俄羅斯,莫斯科遭30架無(wú)人機(jī)襲擊,俄羅斯也挨炸

山河路口
2025-12-28 23:26:03
重磅!財(cái)政部釋放明確信號(hào),政策筑底,周一迎小顛簸還是暴風(fēng)雨?

重磅!財(cái)政部釋放明確信號(hào),政策筑底,周一迎小顛簸還是暴風(fēng)雨?

云鵬敘事
2025-12-28 23:14:22
觀察:68 歲馬良行復(fù)出掌舵上海女足,上海足球?yàn)楹螆?zhí)迷于 “啃老”?

觀察:68 歲馬良行復(fù)出掌舵上海女足,上海足球?yàn)楹螆?zhí)迷于 “啃老”?

上觀新聞
2025-12-28 12:29:12
中央重磅定調(diào)!“發(fā)錢(qián)”模式已升級(jí)!全民漲工資的時(shí)代要來(lái)了?

中央重磅定調(diào)!“發(fā)錢(qián)”模式已升級(jí)!全民漲工資的時(shí)代要來(lái)了?

朔方瞭望
2025-12-28 15:16:20
美媒:中國(guó)在準(zhǔn)備持久戰(zhàn),越來(lái)越多國(guó)家的錢(qián),源源不斷流向中國(guó)!

美媒:中國(guó)在準(zhǔn)備持久戰(zhàn),越來(lái)越多國(guó)家的錢(qián),源源不斷流向中國(guó)!

小莜讀史
2025-12-28 22:15:17
大瓜!南博徐湖平落馬,兒子徐湘江公司暴雷,又有人曝光浮出水面

大瓜!南博徐湖平落馬,兒子徐湘江公司暴雷,又有人曝光浮出水面

野渡舟山人
2025-12-28 17:26:55
欲毀樊振東反被扒光,狐貍尾巴終藏不住

欲毀樊振東反被扒光,狐貍尾巴終藏不住

星星沒(méi)有你亮
2025-12-28 23:13:47
埃梅里收著踢也是大師,逆轉(zhuǎn)之王沖擊英超榜首

埃梅里收著踢也是大師,逆轉(zhuǎn)之王沖擊英超榜首

體壇周報(bào)
2025-12-28 19:13:12
比江南春更曲折:藏家縫進(jìn)棉襖的唐寅真跡,從故宮贗品到億元國(guó)寶

比江南春更曲折:藏家縫進(jìn)棉襖的唐寅真跡,從故宮贗品到億元國(guó)寶

古裝影視解說(shuō)阿兇
2025-12-28 03:25:58
匯率大反擊!人民幣暴漲刷屏

匯率大反擊!人民幣暴漲刷屏

魏家東
2025-12-28 13:32:39
最佳性愛(ài)時(shí)段?皮爾斯:一天之計(jì)在于晨 女主持:我也喜歡喚醒式

最佳性愛(ài)時(shí)段?皮爾斯:一天之計(jì)在于晨 女主持:我也喜歡喚醒式

云隱南山
2025-12-28 15:19:13
湖人再次開(kāi)會(huì)!雷迪克決定變陣:詹姆斯回歸后我們進(jìn)攻端缺乏章法

湖人再次開(kāi)會(huì)!雷迪克決定變陣:詹姆斯回歸后我們進(jìn)攻端缺乏章法

羅說(shuō)NBA
2025-12-28 06:56:59
理發(fā)店陷入生存危機(jī),沒(méi)有電商沖擊,卻紛紛倒閉,原因很扎心

理發(fā)店陷入生存危機(jī),沒(méi)有電商沖擊,卻紛紛倒閉,原因很扎心

老范談史
2025-12-12 23:06:41
玄學(xué)提醒 :這些漏財(cái)?shù)膲牧?xí)慣,盡量改掉!

玄學(xué)提醒 :這些漏財(cái)?shù)膲牧?xí)慣,盡量改掉!

學(xué)之道國(guó)學(xué)院
2025-12-23 14:19:42
三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

歷史有些冷
2025-12-04 20:20:06
三迭陽(yáng)關(guān)打一最佳正確生肖!獨(dú)家詞語(yǔ)解釋釋義

三迭陽(yáng)關(guān)打一最佳正確生肖!獨(dú)家詞語(yǔ)解釋釋義

百姓山河
2025-12-28 22:53:22
事實(shí)證明,62歲在日本養(yǎng)老的丁克族梁朝偉,早已走上了另一條大道

事實(shí)證明,62歲在日本養(yǎng)老的丁克族梁朝偉,早已走上了另一條大道

小熊侃史
2025-12-28 11:10:09
負(fù)債7500億!中國(guó)第二大民企轟然倒塌,創(chuàng)始人被帶走

負(fù)債7500億!中國(guó)第二大民企轟然倒塌,創(chuàng)始人被帶走

花寒弦絮
2025-12-28 23:36:54
情侶互發(fā)不雅照違法?私域不追責(zé),公域嚴(yán)處罰!

情侶互發(fā)不雅照違法?私域不追責(zé),公域嚴(yán)處罰!

看看新聞Knews
2025-12-28 18:52:04
毛澤東四渡赤水最奇在于:有一個(gè)不能說(shuō)的真相,他自始至終沒(méi)透露

毛澤東四渡赤水最奇在于:有一個(gè)不能說(shuō)的真相,他自始至終沒(méi)透露

小港哎歷史
2025-12-20 14:15:03
2025-12-29 01:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問(wèn)題讓步 "和平計(jì)劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問(wèn)題讓步 "和平計(jì)劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥(niǎo)喬丹

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
數(shù)碼
藝術(shù)
本地
公開(kāi)課

旅游要聞

12月28日最佳情報(bào)|濟(jì)南華山湖天鵝出游,打卡濟(jì)南地鐵4號(hào)線

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋(píng)果曾計(jì)劃推出多彩配色方案!

藝術(shù)要聞

撞見(jiàn)雪中花!這冬日限定的浪漫,一眼心醉!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版