国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

訓練獎勵太稀疏?港中文聯(lián)合美團給Agent加上「過程分」

0
分享至



在很多大模型和 Agent 的訓練里,最常見的一種做法就是只看結果:最后答案對了就給獎勵,錯了就當 0 分。

在單輪問答里,這樣「只看結果」還勉強能用;可一旦換成 Agent 這種要多輪對話、搜索、刷網(wǎng)頁、寫代碼、讀文件的長鏈任務,就變成用一個 bit 去概括一整條復雜軌跡。

結果就是:差一點就做成功的過程,和從第一步就跑偏的過程,在獎勵眼里沒區(qū)別;訓練看不出哪種失敗更有價值,手寫規(guī)則或人工細粒度打分又很難覆蓋開放環(huán)境、多模態(tài)這些復雜情況。

港中文和美團在這篇工作里,盯上的就是這個核心矛盾:

Agent 需要長程、細粒度的反饋,但我們手里大多只有終局對錯這樣的粗粒度獎勵。



  • 論文標題:Exploring Reasoning Reward Model for Agents
  • 論文鏈接:https://arxiv.org/pdf/2601.22154
  • 項目地址:https://github.com/kxfan2002/Reagent

為了解決這個矛盾,作者先造了一個「懂推理、看得懂工具調(diào)用」的評審器,給 Agent 的整條軌跡打「過程分」和「評語」,再把這份反饋喂回訓練。

這也是 Reagent 框架的核心出發(fā)點:讓 Agent 不再只看結果,而是也要為自己的思考和工具調(diào)用過程負責。

給 Agent 的思路打個分

這篇工作最重要的一步,就是不再只看 Agent 最后有沒有把題做對,而是開始認真給整個思考過程打分。

研究團隊先搭了一套專門面向智能體的「思考評分類」數(shù)據(jù):里面收集了各種真實的 Agent 軌跡,有推理順暢但執(zhí)行失誤的,有一路亂猜卻剛好蒙對的,也有工具用得亂七八糟的。每一條軌跡,都被標注成一份「閱卷意見」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個 0~1 之間的整體分數(shù)。

基于這套數(shù)據(jù),他們訓練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案,而是把整個過程從頭看到尾,然后輸出三樣東西:一段內(nèi)部分析、一小段給 Agent 看的批評意見,再加上一個綜合分數(shù)。

舉個簡單的例子:

  • 兩條軌跡最后都答對了,但一條邏輯跳躍嚴重、工具亂用,只是誤打誤撞到達正確答案,那 Agent-RRM 可能只給個 0.3;
  • 另一條從一開始就分析清楚、什么時候該搜、什么時候該點進網(wǎng)頁、怎么利用信息都說得明明白白,這種思路就可能拿到 0.9。

就像老師改卷,不是只看「A/B/C/D」選了啥,還會看你中間的演算過程,給「過程分」。這一招的目標很明確:

教會 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對答案」。

統(tǒng)一文本批評和獎勵信號:Reagent 框架

有了會打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點評」和「分數(shù)獎勵」統(tǒng)一起來,用在智能體訓練里。



作者設計了三種用法,可以理解成三檔「加持程度」:

① 只加點評,不改模型(Reagent-C)

最輕的一種:不動 Agent 參數(shù),只在推理時多一步「聽老師講評」。

大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關鍵問題,然后讓 Agent 在這段點評的基礎上重做一遍。這相當于給任何現(xiàn)成的大模型,外掛一個「老師幫你看一眼再交卷」的過程。

② 給獎勵加一條「過程分」(Reagent-R)

再往上走一步,就是把 Agent-RRM 打出來的分數(shù),當成額外獎勵加進來。

以前的訓練只看「做對 / 做錯」那一分,現(xiàn)在變成「結果對錯 + 過程好壞」兩條線一起算:哪怕最后沒完全做對,只要思路清晰、工具用得合理,也不會被當作垃圾樣本一票否決。這對長鏈、多工具的任務特別重要,可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

③ 把「第一次想」和「批評后再想」一起訓(Reagent-U)

最強的一檔,是這篇文章重點強調(diào)的 Reagent-U。它一口氣把兩種反饋都用上:

  • 一方面,讓 Agent 學會第一次就少犯低級錯誤;
  • 另一方面,也教它「聽完批評以后,怎樣更聰明地改答案」。

訓練時,同一個問題會有「首答」和「聽完點評后的再答」兩條軌跡,它們都拿到「結果獎勵 + 過程分數(shù)」,一起放進同一個訓練循環(huán)里優(yōu)化。這樣做的好處是:模型不會只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據(jù)反饋修正自己」這幾件事,一起學進去。

實際部署時,Reagent-U 又不用再依賴外部的 Agent-RRM 提點評,直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」,已經(jīng)被揉進模型參數(shù)里了。

這套設計帶來了什么提升?

在實驗里,作者主要看了三件事:文字點評本身有沒有用、過程分數(shù)能不能幫 RL 學得更好、統(tǒng)一之后是不是有效提升。





先看最輕量的那種:只加一段文本點評、不改模型參數(shù)。結果表明,在不少數(shù)學和搜索任務上,「聽完一段 Agent-RRM 的批評再答一次」,確實能穩(wěn)定把正確率拉上去。

再把過程分數(shù)加進訓練里之后,Agent 不是只會去迎合最后那一個對錯信號,而是更愿意走那些「雖然這次沒完全做成,但整體思路是對的」的方向。

最后,當文本批評和獎勵分數(shù)在 Reagent-U 里統(tǒng)一起來時,提升就更直觀了:

在 GAIA 這個通用 Agent 基準的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績拉到43.7%,基本追上甚至部分超過了一些更大參數(shù)量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復雜任務上,也普遍比「只看終局獎勵」的版本更穩(wěn),更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

作者還測試了模型在 GAIA 全集上的表現(xiàn),面對多模態(tài)的通用 agent 任務,Reagent-U 也依然能打。



港中文聯(lián)合美團這套 Reagent 框架,把「老師給過程打分」這件事,真正搬進了 Agent 訓練里。結果證明,只要能看懂、能評價思考過程,8B 級別的 Agent 也有機會在很多復雜任務上打出和大模型一樣好看的成績單。

更多細節(jié)請參考論文原文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
斯諾克世錦賽:丁俊暉首!土豆哥單桿70分追平,張安達優(yōu)勢縮水

斯諾克世錦賽:丁俊暉首!土豆哥單桿70分追平,張安達優(yōu)勢縮水

劉姚堯的文字城堡
2026-04-19 18:05:31
若沒有此人,中國歷史或?qū)⒏膶!晚年離休后享受什么待遇?

若沒有此人,中國歷史或?qū)⒏膶!晚年離休后享受什么待遇?

史之銘
2026-04-19 15:49:20
我去!真黑八!干掉第一!11連敗魔咒!

我去!真黑八!干掉第一!11連敗魔咒!

柚子說球
2026-04-20 12:44:35
我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

千秋文化
2026-04-16 20:12:45
開走第2輛保時捷!萊巴金娜橫掃復仇,奪賽季第2冠+生涯第13冠

開走第2輛保時捷!萊巴金娜橫掃復仇,奪賽季第2冠+生涯第13冠

全景體育V
2026-04-19 21:21:01
5月1日起,10類行為全國嚴查!誰碰誰倒霉

5月1日起,10類行為全國嚴查!誰碰誰倒霉

石辰搞笑日常
2026-04-19 01:06:37
張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

有范又有料
2026-04-19 00:03:10
866場首紅!諾伊爾一戰(zhàn)毀了拜仁三冠夢?

866場首紅!諾伊爾一戰(zhàn)毀了拜仁三冠夢?

茅塞盾開本尊
2026-04-20 12:34:42
科羅拉多河在美國徑流量180億立方米,到墨西哥怎么就一滴都沒了

科羅拉多河在美國徑流量180億立方米,到墨西哥怎么就一滴都沒了

孤云朗境
2026-04-19 20:45:54
日本壟斷全球90%!一旦斷供,別國造不出,中國咋辦?

日本壟斷全球90%!一旦斷供,別國造不出,中國咋辦?

今墨緣
2026-04-14 09:57:22
拆解“崩老頭”:游走于詐騙與乞討的網(wǎng)絡奇觀

拆解“崩老頭”:游走于詐騙與乞討的網(wǎng)絡奇觀

冰川思想庫
2026-04-20 10:49:55
李想把“理想平替”喂成了狼

李想把“理想平替”喂成了狼

市象
2026-04-17 16:42:52
朱丹揭露張豆豆對孫楊態(tài)度: 孩子發(fā)燒也不在乎,家庭究竟何在?

朱丹揭露張豆豆對孫楊態(tài)度: 孩子發(fā)燒也不在乎,家庭究竟何在?

科學發(fā)掘
2026-04-20 07:17:30
黃楊鈿甜——出來混,是要還的

黃楊鈿甜——出來混,是要還的

云石
2026-04-19 21:45:28
“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯(lián)名質(zhì)問

“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯(lián)名質(zhì)問

文娛春秋Plus
2026-04-20 09:00:08
醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3個癥狀,小心異常

醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3個癥狀,小心異常

芹姐說生活
2026-04-18 15:22:35
選擇>努力!拜仁4-2斯圖加特提前4輪奪冠 凱恩32球5助奪第3冠

選擇>努力!拜仁4-2斯圖加特提前4輪奪冠 凱恩32球5助奪第3冠

智道足球
2026-04-20 09:49:29
太陽能板能造雨?沙漠里的意外發(fā)現(xiàn)

太陽能板能造雨?沙漠里的意外發(fā)現(xiàn)

薛定諤的BUG
2026-04-16 08:16:29
文班35分超神首秀力壓詹皇!遭遇惡犯微笑回應,勒布朗沒這種胸懷

文班35分超神首秀力壓詹皇!遭遇惡犯微笑回應,勒布朗沒這種胸懷

嘴炮體壇
2026-04-20 12:15:29
多平臺訂購火車票現(xiàn)功能異常,客服回應:受12306風控升級影響

多平臺訂購火車票現(xiàn)功能異常,客服回應:受12306風控升級影響

界面新聞
2026-04-20 09:16:20
2026-04-20 13:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12806文章數(shù) 142632關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

健康
教育
游戲
時尚
軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

我發(fā)現(xiàn)一個殘酷真相:孩子長大后,最怨恨的不是管太嚴的父母……

異世界自動化模擬經(jīng)營游戲《退休勇者當廠長》現(xiàn)已正式上架Steam

今年最流行的衣服竟然是它?高級又氣質(zhì)!

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版