国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練獎(jiǎng)勵(lì)太稀疏?港中文聯(lián)合美團(tuán)給Agent加上「過(guò)程分」

0
分享至



在很多大模型和 Agent 的訓(xùn)練里,最常見(jiàn)的一種做法就是只看結(jié)果:最后答案對(duì)了就給獎(jiǎng)勵(lì),錯(cuò)了就當(dāng) 0 分。

在單輪問(wèn)答里,這樣「只看結(jié)果」還勉強(qiáng)能用;可一旦換成 Agent 這種要多輪對(duì)話、搜索、刷網(wǎng)頁(yè)、寫(xiě)代碼、讀文件的長(zhǎng)鏈任務(wù),就變成用一個(gè) bit 去概括一整條復(fù)雜軌跡。

結(jié)果就是:差一點(diǎn)就做成功的過(guò)程,和從第一步就跑偏的過(guò)程,在獎(jiǎng)勵(lì)眼里沒(méi)區(qū)別;訓(xùn)練看不出哪種失敗更有價(jià)值,手寫(xiě)規(guī)則或人工細(xì)粒度打分又很難覆蓋開(kāi)放環(huán)境、多模態(tài)這些復(fù)雜情況。

港中文和美團(tuán)在這篇工作里,盯上的就是這個(gè)核心矛盾:

Agent 需要長(zhǎng)程、細(xì)粒度的反饋,但我們手里大多只有終局對(duì)錯(cuò)這樣的粗粒度獎(jiǎng)勵(lì)。



  • 論文標(biāo)題:Exploring Reasoning Reward Model for Agents
  • 論文鏈接:https://arxiv.org/pdf/2601.22154
  • 項(xiàng)目地址:https://github.com/kxfan2002/Reagent

為了解決這個(gè)矛盾,作者先造了一個(gè)「懂推理、看得懂工具調(diào)用」的評(píng)審器,給 Agent 的整條軌跡打「過(guò)程分」和「評(píng)語(yǔ)」,再把這份反饋喂回訓(xùn)練。

這也是 Reagent 框架的核心出發(fā)點(diǎn):讓 Agent 不再只看結(jié)果,而是也要為自己的思考和工具調(diào)用過(guò)程負(fù)責(zé)。

給 Agent 的思路打個(gè)分

這篇工作最重要的一步,就是不再只看 Agent 最后有沒(méi)有把題做對(duì),而是開(kāi)始認(rèn)真給整個(gè)思考過(guò)程打分。

研究團(tuán)隊(duì)先搭了一套專(zhuān)門(mén)面向智能體的「思考評(píng)分類(lèi)」數(shù)據(jù):里面收集了各種真實(shí)的 Agent 軌跡,有推理順暢但執(zhí)行失誤的,有一路亂猜卻剛好蒙對(duì)的,也有工具用得亂七八糟的。每一條軌跡,都被標(biāo)注成一份「閱卷意見(jiàn)」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個(gè) 0~1 之間的整體分?jǐn)?shù)。

基于這套數(shù)據(jù),他們訓(xùn)練了一個(gè)專(zhuān)門(mén)的「思考評(píng)分模型」——Agent-RRM。它不會(huì)只看最后一行答案,而是把整個(gè)過(guò)程從頭看到尾,然后輸出三樣?xùn)|西:一段內(nèi)部分析、一小段給 Agent 看的批評(píng)意見(jiàn),再加上一個(gè)綜合分?jǐn)?shù)。

舉個(gè)簡(jiǎn)單的例子:

  • 兩條軌跡最后都答對(duì)了,但一條邏輯跳躍嚴(yán)重、工具亂用,只是誤打誤撞到達(dá)正確答案,那 Agent-RRM 可能只給個(gè) 0.3;
  • 另一條從一開(kāi)始就分析清楚、什么時(shí)候該搜、什么時(shí)候該點(diǎn)進(jìn)網(wǎng)頁(yè)、怎么利用信息都說(shuō)得明明白白,這種思路就可能拿到 0.9。

就像老師改卷,不是只看「A/B/C/D」選了啥,還會(huì)看你中間的演算過(guò)程,給「過(guò)程分」。這一招的目標(biāo)很明確:

教會(huì) Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對(duì)答案」。

統(tǒng)一文本批評(píng)和獎(jiǎng)勵(lì)信號(hào):Reagent 框架

有了會(huì)打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點(diǎn)評(píng)」和「分?jǐn)?shù)獎(jiǎng)勵(lì)」統(tǒng)一起來(lái),用在智能體訓(xùn)練里。



作者設(shè)計(jì)了三種用法,可以理解成三檔「加持程度」:

① 只加點(diǎn)評(píng),不改模型(Reagent-C)

最輕的一種:不動(dòng) Agent 參數(shù),只在推理時(shí)多一步「聽(tīng)老師講評(píng)」。

大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關(guān)鍵問(wèn)題,然后讓 Agent 在這段點(diǎn)評(píng)的基礎(chǔ)上重做一遍。這相當(dāng)于給任何現(xiàn)成的大模型,外掛一個(gè)「老師幫你看一眼再交卷」的過(guò)程。

② 給獎(jiǎng)勵(lì)加一條「過(guò)程分」(Reagent-R)

再往上走一步,就是把 Agent-RRM 打出來(lái)的分?jǐn)?shù),當(dāng)成額外獎(jiǎng)勵(lì)加進(jìn)來(lái)。

以前的訓(xùn)練只看「做對(duì) / 做錯(cuò)」那一分,現(xiàn)在變成「結(jié)果對(duì)錯(cuò) + 過(guò)程好壞」兩條線一起算:哪怕最后沒(méi)完全做對(duì),只要思路清晰、工具用得合理,也不會(huì)被當(dāng)作垃圾樣本一票否決。這對(duì)長(zhǎng)鏈、多工具的任務(wù)特別重要,可以緩解那種「一不小心就全是 0 分」的獎(jiǎng)勵(lì)稀疏問(wèn)題。

③ 把「第一次想」和「批評(píng)后再想」一起訓(xùn)(Reagent-U)

最強(qiáng)的一檔,是這篇文章重點(diǎn)強(qiáng)調(diào)的 Reagent-U。它一口氣把兩種反饋都用上:

  • 一方面,讓 Agent 學(xué)會(huì)第一次就少犯低級(jí)錯(cuò)誤;
  • 另一方面,也教它「聽(tīng)完批評(píng)以后,怎樣更聰明地改答案」。

訓(xùn)練時(shí),同一個(gè)問(wèn)題會(huì)有「首答」和「聽(tīng)完點(diǎn)評(píng)后的再答」兩條軌跡,它們都拿到「結(jié)果獎(jiǎng)勵(lì) + 過(guò)程分?jǐn)?shù)」,一起放進(jìn)同一個(gè)訓(xùn)練循環(huán)里優(yōu)化。這樣做的好處是:模型不會(huì)只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據(jù)反饋修正自己」這幾件事,一起學(xué)進(jìn)去。

實(shí)際部署時(shí),Reagent-U 又不用再依賴外部的 Agent-RRM 提點(diǎn)評(píng),直接就能像普通 Agent 一樣用 —— 那些「老師改卷時(shí)說(shuō)過(guò)的話」,已經(jīng)被揉進(jìn)模型參數(shù)里了。

這套設(shè)計(jì)帶來(lái)了什么提升?

在實(shí)驗(yàn)里,作者主要看了三件事:文字點(diǎn)評(píng)本身有沒(méi)有用、過(guò)程分?jǐn)?shù)能不能幫 RL 學(xué)得更好、統(tǒng)一之后是不是有效提升。





先看最輕量的那種:只加一段文本點(diǎn)評(píng)、不改模型參數(shù)。結(jié)果表明,在不少數(shù)學(xué)和搜索任務(wù)上,「聽(tīng)完一段 Agent-RRM 的批評(píng)再答一次」,確實(shí)能穩(wěn)定把正確率拉上去。

再把過(guò)程分?jǐn)?shù)加進(jìn)訓(xùn)練里之后,Agent 不是只會(huì)去迎合最后那一個(gè)對(duì)錯(cuò)信號(hào),而是更愿意走那些「雖然這次沒(méi)完全做成,但整體思路是對(duì)的」的方向。

最后,當(dāng)文本批評(píng)和獎(jiǎng)勵(lì)分?jǐn)?shù)在 Reagent-U 里統(tǒng)一起來(lái)時(shí),提升就更直觀了:

在 GAIA 這個(gè)通用 Agent 基準(zhǔn)的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績(jī)拉到43.7%,基本追上甚至部分超過(guò)了一些更大參數(shù)量的開(kāi)源 Agent。在 WebWalkerQA、HLE、xbench 等其他復(fù)雜任務(wù)上,也普遍比「只看終局獎(jiǎng)勵(lì)」的版本更穩(wěn),更不容易被「瞎蒙對(duì)」或者「瞎忙活」帶偏。

作者還測(cè)試了模型在 GAIA 全集上的表現(xiàn),面對(duì)多模態(tài)的通用 agent 任務(wù),Reagent-U 也依然能打。



港中文聯(lián)合美團(tuán)這套 Reagent 框架,把「老師給過(guò)程打分」這件事,真正搬進(jìn)了 Agent 訓(xùn)練里。結(jié)果證明,只要能看懂、能評(píng)價(jià)思考過(guò)程,8B 級(jí)別的 Agent 也有機(jī)會(huì)在很多復(fù)雜任務(wù)上打出和大模型一樣好看的成績(jī)單。

更多細(xì)節(jié)請(qǐng)參考論文原文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王石不戴假發(fā)樣子曝光!光頭更年輕,到香港聚餐,只喝茶不敢喝酒

王石不戴假發(fā)樣子曝光!光頭更年輕,到香港聚餐,只喝茶不敢喝酒

老頭的傳奇色彩
2026-02-28 19:57:17
爆冷!2026 金球獎(jiǎng)熱門(mén)大洗牌:C 羅 40 歲仍沖冠,梅西逆襲歸來(lái)

爆冷!2026 金球獎(jiǎng)熱門(mén)大洗牌:C 羅 40 歲仍沖冠,梅西逆襲歸來(lái)

瀾歸序
2026-02-28 03:12:50
太尷尬!美高官公開(kāi)承認(rèn):打伊朗可以,打完就沒(méi)彈藥對(duì)付東大了!

太尷尬!美高官公開(kāi)承認(rèn):打伊朗可以,打完就沒(méi)彈藥對(duì)付東大了!

似水流年忘我
2026-02-28 06:12:42
又一個(gè)“扶弟魔”!訂婚宴上彩禮臨時(shí)漲價(jià)38萬(wàn),男方被逼直接退婚

又一個(gè)“扶弟魔”!訂婚宴上彩禮臨時(shí)漲價(jià)38萬(wàn),男方被逼直接退婚

丫頭舫
2026-02-28 11:22:55
一夜官宣3簽1裁:馬刺簽約21籃板9助攻妖塔,25+10控衛(wèi)簽約步行者

一夜官宣3簽1裁:馬刺簽約21籃板9助攻妖塔,25+10控衛(wèi)簽約步行者

球盲姐
2026-02-28 09:03:46
女主播深入報(bào)道黑道交易過(guò)程!

女主播深入報(bào)道黑道交易過(guò)程!

貴圈真亂
2026-02-28 11:10:58
前中央政治局常委64歲主動(dòng)請(qǐng)辭,臨終坦然:我死而無(wú)憾

前中央政治局常委64歲主動(dòng)請(qǐng)辭,臨終坦然:我死而無(wú)憾

阿諢體育
2026-02-13 04:28:34
丑聞曝光!前中國(guó)奧運(yùn)冠軍爆料,恩師是披著人皮的狼,逼學(xué)員吃藥

丑聞曝光!前中國(guó)奧運(yùn)冠軍爆料,恩師是披著人皮的狼,逼學(xué)員吃藥

北緯的咖啡豆
2026-02-27 00:06:22
買(mǎi)提江:感恩俱樂(lè)部的認(rèn)可與托付,續(xù)約是承諾更是責(zé)任

買(mǎi)提江:感恩俱樂(lè)部的認(rèn)可與托付,續(xù)約是承諾更是責(zé)任

懂球帝
2026-02-28 16:36:41
伊朗:哈梅內(nèi)伊目前不在德黑蘭,已被轉(zhuǎn)移至安全地點(diǎn)

伊朗:哈梅內(nèi)伊目前不在德黑蘭,已被轉(zhuǎn)移至安全地點(diǎn)

瀟湘晨報(bào)
2026-02-28 15:13:14
張?zhí)m不忍了,直播回應(yīng)罵前兒媳事件,真相大白,原來(lái)我們都被騙了

張?zhí)m不忍了,直播回應(yīng)罵前兒媳事件,真相大白,原來(lái)我們都被騙了

攬星河的筆記
2026-02-27 17:25:16
騎士官方:埃利斯左手食指近端指間關(guān)節(jié)掌側(cè)板撕脫性骨折

騎士官方:埃利斯左手食指近端指間關(guān)節(jié)掌側(cè)板撕脫性骨折

北青網(wǎng)-北京青年報(bào)
2026-02-28 19:13:14
當(dāng)33歲郭曉婷遇上33歲王天辰,我才終于明白,為何說(shuō)CP感是門(mén)玄學(xué)

當(dāng)33歲郭曉婷遇上33歲王天辰,我才終于明白,為何說(shuō)CP感是門(mén)玄學(xué)

八卦南風(fēng)
2026-02-28 13:38:44
“毀滅性報(bào)復(fù)打擊!”剛剛,伊朗發(fā)射導(dǎo)彈!以色列大片地區(qū)響起警報(bào)

“毀滅性報(bào)復(fù)打擊!”剛剛,伊朗發(fā)射導(dǎo)彈!以色列大片地區(qū)響起警報(bào)

數(shù)據(jù)寶
2026-02-28 18:06:01
中國(guó)駐符拉迪沃斯托克總領(lǐng)館:18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

中國(guó)駐符拉迪沃斯托克總領(lǐng)館:18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:56:09
為什么不生孩子?康輝正面回應(yīng):養(yǎng)貓已經(jīng)讓我體會(huì)到做爸爸的心情

為什么不生孩子?康輝正面回應(yīng):養(yǎng)貓已經(jīng)讓我體會(huì)到做爸爸的心情

杜櫚手工制作
2026-02-28 15:17:52
國(guó)際籃聯(lián)道歉,裁判名單公布,兩人吹過(guò)CBA,中國(guó)籃協(xié)心血白費(fèi)了

國(guó)際籃聯(lián)道歉,裁判名單公布,兩人吹過(guò)CBA,中國(guó)籃協(xié)心血白費(fèi)了

萌蘭聊個(gè)球
2026-02-28 13:47:02
新加坡大滿貫產(chǎn)生4個(gè)意想不到!國(guó)乒雙打0冠收官 林詩(shī)棟1日輸2場(chǎng)

新加坡大滿貫產(chǎn)生4個(gè)意想不到!國(guó)乒雙打0冠收官 林詩(shī)棟1日輸2場(chǎng)

侃球熊弟
2026-02-28 22:55:05
萬(wàn)萬(wàn)沒(méi)想到,6年前反中亂港分子的幕后金主,竟是個(gè)“愛(ài)國(guó)”商人

萬(wàn)萬(wàn)沒(méi)想到,6年前反中亂港分子的幕后金主,竟是個(gè)“愛(ài)國(guó)”商人

百態(tài)人間
2026-01-17 16:16:00
已經(jīng)開(kāi)始打了,是時(shí)候看看伊朗是如何毀滅敵人的!

已經(jīng)開(kāi)始打了,是時(shí)候看看伊朗是如何毀滅敵人的!

林中木白
2026-02-28 15:01:43
2026-02-28 23:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒(méi)想到來(lái)得這么快

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒(méi)想到來(lái)得這么快

體育要聞

球隊(duì)主力全報(bào)銷(xiāo)?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

健康
教育
旅游
時(shí)尚
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

教育要聞

“比預(yù)估高了20多分,激動(dòng)得有點(diǎn)想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經(jīng)歷了什么?

旅游要聞

忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長(zhǎng)年味!

這6款發(fā)色居然這么火?50張圖可以直接給tony

軍事要聞

美國(guó)以色列聯(lián)合襲擊伊朗 實(shí)時(shí)戰(zhàn)況

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版