国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊混元 x MBZUAI 港中文新研究:將糾錯納入策略空間,Search-R2 重構(gòu)搜索增強推理學(xué)習(xí)方式

0
分享至


智能體性能優(yōu)勢并非來自更多嘗試,而來自對失敗路徑的精確處理。

作者丨鄭佳美

編輯丨岑 峰

過去幾年,大語言模型的能力提升主要依賴參數(shù)和數(shù)據(jù)規(guī)模的擴張。但當(dāng)模型逐步被用于研究助理、網(wǎng)頁搜索和復(fù)雜決策支持等真實任務(wù)時,這條路徑開始顯露邊界。

這類場景往往要求模型在開放環(huán)境中進行多輪搜索與推理,使搜索增強推理成為主流范式,同時也暴露出一個核心問題:模型在長鏈搜索推理中的失敗,往往不是因為推理能力不足,而是無法有效處理錯誤在推理過程中的出現(xiàn)與傳播。

在現(xiàn)實任務(wù)中,搜索結(jié)果不可避免地包含噪聲,一旦早期某次檢索或信息采信出現(xiàn)偏差,后續(xù)推理就可能在錯誤語義空間中不斷自洽,最終生成看似合理卻偏離問題的答案。然而,現(xiàn)有訓(xùn)練方法通常只依據(jù)最終答案是否正確進行優(yōu)化,使“偶然成功”的軌跡與“搜索路徑可靠”的軌跡獲得相同反饋,長期來看反而削弱了模型對中途錯誤和搜索質(zhì)量的約束。這也是多輪搜索、多跳推理任務(wù)中性能崩潰呈現(xiàn)系統(tǒng)性特征的重要原因。

在這一背景下,MBZUAI 、港中文和騰訊混元組成的聯(lián)合團隊提出了《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》

這項工作直指搜索增強推理中的長鏈推理信用分配與中途糾錯缺失,通過將推理生成、軌跡判斷和錯誤定位納入統(tǒng)一的強化學(xué)習(xí)框架,使訓(xùn)練信號能夠回傳至錯誤首次發(fā)生的位置,從而抑制錯誤傳播。

在智能體系統(tǒng)逐漸從“展示能力”走向“承擔(dān)任務(wù)”的當(dāng)下,這項研究的意義不在于提出一種更復(fù)雜的工程技巧,而在于為搜索型智能體提供了一種更接近真實失敗模式的學(xué)習(xí)范式:不是假設(shè)推理過程天然可靠,而是承認(rèn)錯誤不可避免,并讓模型在訓(xùn)練中學(xué)會與錯誤共處、定位并修正它們。


論文地址:https://arxiv.org/pdf/2602.03647

01


完整閉環(huán),而不是單一技巧

在實驗結(jié)果方面,研究團隊發(fā)現(xiàn)該方法的優(yōu)勢并不僅體現(xiàn)在整體平均性能的提升上,而是在任務(wù)難度最高、錯誤最容易累積的場景中表現(xiàn)得尤為突出。

實驗評測覆蓋了普通事實型問答任務(wù)和多跳推理問答任務(wù)兩大類,其中前者通常只需要一到兩次檢索即可完成,而后者必須經(jīng)歷多輪“搜索—推理—再搜索”,中間任何一步出現(xiàn)偏差都會在后續(xù)推理中被不斷放大。

實驗結(jié)果表明,該方法在兩類任務(wù)上均取得穩(wěn)定提升,但在多跳推理任務(wù)上的提升幅度明顯更大,尤其是在 HotpotQA、2WikiMultiHopQA 和 Bamboogle 等需要多輪檢索協(xié)同推理的數(shù)據(jù)集上,相較基線方法帶來了數(shù)個百分點到十余個百分點不等的準(zhǔn)確率提升,其中在 Bamboogle 數(shù)據(jù)集上的相對提升幅度超過二十個百分點。

這一現(xiàn)象表明,其優(yōu)勢并非來源于更強的參數(shù)記憶能力,而是源于對長鏈推理過程中錯誤傳播的有效抑制。研究人員指出,多跳推理任務(wù)的失敗往往并不是由于模型無法生成最終答案,而是由于中途某一次搜索引入了錯誤或無關(guān)信息,使推理方向發(fā)生偏移,之后即便繼續(xù)搜索和推理,也只能在錯誤語義空間中反復(fù)迭代,這個方法正是針對這一失敗模式進行設(shè)計,因此在此類任務(wù)中的優(yōu)勢被顯著放大。


在與拒絕采樣策略的對比實驗中,研究團隊進一步提高了基線方法的采樣預(yù)算,將每個問題的采樣次數(shù)提升至原來的兩倍甚至更多,但實驗結(jié)果顯示,即便在這種條件下,基線方法的整體性能仍然低于該方法在較小采樣預(yù)算下所取得的結(jié)果。

這一對比表明,該方法的性能提升并非來自“多試幾次總能蒙對”的概率收益,其關(guān)鍵不在于整體軌跡質(zhì)量分布的上限,而在于是否能夠準(zhǔn)確識別錯誤首次出現(xiàn)的位置并進行針對性處理。拒絕采樣在生成失敗后會直接丟棄整條推理軌跡并重新生成,而該方法則認(rèn)為失敗軌跡的前半部分往往仍然是正確且有價值的,真正導(dǎo)致失敗的通常是某一次具體的搜索步驟,這次搜索所引入的噪聲會在后續(xù)推理中持續(xù)放大,從而使兩種策略在長鏈推理任務(wù)中的樣本效率產(chǎn)生數(shù)量級差異。


為進一步分析性能提升的來源,研究團隊通過消融實驗系統(tǒng)性地評估了各個組成模塊的作用。實驗結(jié)果顯示,在僅引入中途糾錯機制而不加入過程獎勵的情況下,模型在多個數(shù)據(jù)集上的性能已經(jīng)出現(xiàn)顯著提升,表明對推理過程中關(guān)鍵錯誤進行定位和修復(fù)本身就能解決搜索增強推理中的核心瓶頸。

在此基礎(chǔ)上,加入用于衡量搜索結(jié)果信息密度的過程獎勵后,模型性能進一步提升,說明顯式區(qū)分高質(zhì)量搜索與低質(zhì)量搜索能夠為訓(xùn)練過程提供更加穩(wěn)定的優(yōu)化方向。

最終,在對推理生成模塊與糾錯模塊進行聯(lián)合優(yōu)化的完整設(shè)置下,模型在所有評測數(shù)據(jù)集上均取得最優(yōu)結(jié)果,這表明糾錯能力并非靜態(tài)規(guī)則,而是一種需要在訓(xùn)練過程中被逐步學(xué)習(xí)和內(nèi)化的行為策略。

整體來看,該方法的性能提升并非來源于單一技巧或額外計算量的堆疊,而是由中途糾錯、搜索質(zhì)量建模和聯(lián)合優(yōu)化共同構(gòu)成的完整機制所帶來的結(jié)果。


02


把糾錯本身納入策略空間

在實驗方法設(shè)計方面,研究團隊首先指出,僅依賴最終答案是否正確作為強化學(xué)習(xí)的獎勵信號,在搜索增強推理任務(wù)中會系統(tǒng)性失效。

研究人員分析認(rèn)為,在此類任務(wù)中,模型實際上需要連續(xù)做出多尺度決策,包括是否發(fā)起搜索、搜索的具體內(nèi)容、搜索發(fā)生的時機,以及在獲得檢索結(jié)果后是否應(yīng)當(dāng)信任并使用這些信息。

然而傳統(tǒng)強化學(xué)習(xí)只提供“最終答對或答錯”的單一反饋信號,無法區(qū)分這些中間決策的質(zhì)量差異,從而導(dǎo)致依靠運氣在最后階段拼湊出正確答案的推理軌跡,與邏輯結(jié)構(gòu)嚴(yán)密、搜索路徑合理的軌跡獲得完全相同的獎勵。

長期訓(xùn)練后,模型會逐漸學(xué)到搜索行為可以隨意展開、早期錯誤不會受到實質(zhì)性懲罰,只要最終答案能夠生成即可,這正是現(xiàn)有搜索增強方法在長鏈推理任務(wù)中容易發(fā)生性能崩潰的根本原因。

基于這一問題,研究團隊在方法中對不同功能進行了明確分工。其中,推理生成模塊負責(zé)像常規(guī)搜索增強方法一樣,完整生成一條包含推理與搜索行為的軌跡,該模塊被允許在生成過程中犯錯甚至進行探索,不承擔(dān)中途自檢或修復(fù)的職責(zé)。

隨后,引入的糾錯模塊首先對整條推理軌跡進行判斷,其關(guān)注重點并非最終答案是否正確,而是推理過程是否仍然圍繞原始問題展開,是否出現(xiàn)明顯的實體偏移、主題漂移或證據(jù)錯位等現(xiàn)象。這一判斷決定了軌跡是否值得繼續(xù)修復(fù),若標(biāo)準(zhǔn)過于寬松,錯誤軌跡會被放過,若過于嚴(yán)格,則高質(zhì)量軌跡會被反復(fù)打斷,因此這一接受與拒絕之間的平衡并非人工設(shè)定,而是通過強化學(xué)習(xí)過程自動習(xí)得。


當(dāng)軌跡被判定為需要修復(fù)時,系統(tǒng)進一步定位推理過程中第一次發(fā)生實質(zhì)性偏離的位置,即具體是哪一次搜索或推理操作將系統(tǒng)帶離了正確的推理空間。


一旦該位置被識別,系統(tǒng)會完整保留此前已經(jīng)生成的推理前綴,丟棄其后的內(nèi)容,并從該點重新生成后續(xù)推理,從而避免浪費已有的正確推理信息,同時使獎勵信號能夠精確回傳至錯誤發(fā)生的位置,促使模型逐漸學(xué)會哪些搜索錯誤最具破壞性并應(yīng)當(dāng)被避免。研究人員在理論分析中將這一錯誤定位能力形式化為修剪能力,并證明其是整體性能提升的必要條件。


為防止模型出現(xiàn)“只修正結(jié)果而忽視錯誤根源”的投機行為,研究團隊在訓(xùn)練過程中進一步引入了過程層面的獎勵信號,用于衡量檢索到的證據(jù)中有多少是真正支持最終答案的信息而非噪聲內(nèi)容,并明確規(guī)定該過程獎勵僅在最終答案正確的前提下才會生效,從而保證搜索質(zhì)量成為達成正確答案的必要條件,但不足以單獨驅(qū)動優(yōu)化目標(biāo)。

最后,推理生成模塊、軌跡判斷模塊和錯誤定位模塊并非相互獨立,而是共享同一套參數(shù),并在同一強化學(xué)習(xí)目標(biāo)下進行聯(lián)合優(yōu)化,將是否觸發(fā)糾錯以及在何處糾錯都視為策略決策的一部分,使模型在訓(xùn)練完成后,即便不顯式觸發(fā)多次修復(fù),其初始生成的推理軌跡質(zhì)量本身也能夠得到顯著提升。


03


一種更貼近失敗模式的學(xué)習(xí)思路

從強化學(xué)習(xí)的角度來看,這項研究解決的并不是單一模塊或訓(xùn)練技巧的問題,而是搜索推理中長期存在的信用分配難題。在長鏈搜索推理過程中,模型需要在多個時間尺度上連續(xù)做出決策,而傳統(tǒng)方法只能依據(jù)最終答案是否正確進行回報分配,導(dǎo)致無法區(qū)分高質(zhì)量推理軌跡與依賴偶然性的成功軌跡。

研究團隊通過引入軌跡篩選、錯誤定位和受控糾錯三種機制,將原本難以處理的信用分配問題拆解為可操作的學(xué)習(xí)目標(biāo),并在理論分析中證明,只有當(dāng)模型能夠區(qū)分哪些軌跡值得保留、能夠定位導(dǎo)致推理偏離的關(guān)鍵錯誤位置,并在訓(xùn)練過程中觸發(fā)數(shù)量適當(dāng)?shù)募m錯操作時,整體性能才會穩(wěn)定提升。

這一結(jié)論并非經(jīng)驗歸納,而是通過形式化分析給出的必要條件。在方法層面,該研究進一步改變了以往反思與修正僅依賴人工提示的做法,將是否進行反思以及在何處進行修正納入策略空間,使其成為可以通過強化學(xué)習(xí)直接優(yōu)化的決策行為,從而避免了人工提示不可學(xué)習(xí)、效果不穩(wěn)定的問題。

與此同時,這個方法的設(shè)計直接針對真實智能體任務(wù)中常見的失敗模式,即搜索結(jié)果本身存在噪聲、推理過程依賴較長的決策鏈條,以及早期一次錯誤可能對后續(xù)推理產(chǎn)生不可逆影響。

通過在推理過程中顯式建模錯誤傳播并提供中途干預(yù)機制,該研究為搜索型智能體在復(fù)雜任務(wù)中的穩(wěn)定運行提供了一種更具針對性的解決思路。

04


Search-R2 的研究者們

這篇論文的一作是 Bowei He,目前在 MBZUAI 的機器學(xué)習(xí)系擔(dān)任博士后研究員,合作導(dǎo)師為劉學(xué)教授。在此之前,他是香港城市大學(xué)計算機科學(xué)系的博士研究生,師從馬辰教授,研究方向包括 Data Mining,Language Model,AI for Science(和清華/香港城市大學(xué)馬維英教授團隊合作),和 Agentic AI。

他最近主要關(guān)注圍繞 AI Agent 的一系列前沿探索性課題,包括智能體強化學(xué)習(xí),智能體記憶,長時程智能體,智能體終身演化,智能體世界模型,和智能體數(shù)據(jù) Scaling Laws 等。



https://scholar.google.com/citations?user=1cH0A9cAAAAJ

這篇文章的共同一作為 Minda Hu,目前是香港中文大學(xué)計算機科學(xué)與工程系的博士研究生,并在 MISC Lab 從事研究工作,導(dǎo)師為金國慶教授。

他的研究興趣主要包括數(shù)據(jù)挖掘、機器學(xué)習(xí)和自然語言處理,并關(guān)注機器學(xué)習(xí)、社會計算與自然語言處理等方向的交叉問題,當(dāng)前的研究重點在于探索如何更高效、有效地利用大語言模型,以提升模型在實際應(yīng)用場景中的推理能力與整體效能。


參考鏈接:https://misc-lab.cse.cuhk.edu.hk/sciencex_teams/minda-hu/

除此之外,該項工作得到了麥吉爾大學(xué),香港城市大學(xué),和愛丁堡大學(xué)等多位研究者的參與和貢獻。而該 paper 標(biāo)題 Search-R2 還得到了來自 UIUC 和 Google 的 Search-R1 作者團隊的官方授權(quán)。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

瀟湘晨報
2026-03-10 19:14:12
伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

念洲
2026-03-10 19:45:58
新款奧迪A6L預(yù)售價公布:32.3萬元起

新款奧迪A6L預(yù)售價公布:32.3萬元起

界面新聞
2026-03-10 15:38:51
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當(dāng)耳旁風(fēng)

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當(dāng)耳旁風(fēng)

老特有話說
2026-03-08 15:30:41
曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

風(fēng)過鄉(xiāng)
2026-03-10 21:14:19
江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

科學(xué)發(fā)掘
2026-03-10 11:12:41
1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

史之銘
2026-03-10 17:55:32
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

風(fēng)過鄉(xiāng)
2026-03-10 21:00:08
打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

史政先鋒
2026-03-09 19:30:53
第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

裝甲鏟史官
2026-03-10 14:12:51
毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

優(yōu)趣紀(jì)史記
2026-03-10 11:15:34
陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

江江食研社
2026-03-10 14:13:03
李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

上官晚安
2026-03-10 06:04:00
隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

側(cè)身凌空斬
2026-03-10 19:01:07
行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

科普100克克
2026-03-10 16:14:17
「俠客島」美國打伊朗,歐洲為啥“不跟”?

「俠客島」美國打伊朗,歐洲為啥“不跟”?

海外網(wǎng)
2026-03-10 19:32:05
別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

鈦媒體APP
2026-03-10 17:22:25
伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

上游新聞
2026-03-10 13:40:14
中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

奧拜爾
2026-03-10 19:03:04
2026-03-10 23:12:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

親子
本地
時尚
藝術(shù)
公開課

親子要聞

程曉玥自曝喜歡懷孕:我愛我的工作,然后我愛懷孕懷著孕工作

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版