網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

騰訊混元 x MBZUAI 港中文新研究：將糾錯納入策略空間，Search-R2 重構(gòu)搜索增強推理學(xué)習(xí)方式

2026-02-12 14:32:51　來源: AI科技評論

廣東舉報

分享至

智能體性能優(yōu)勢并非來自更多嘗試，而來自對失敗路徑的精確處理。

作者丨鄭佳美

編輯丨岑峰

過去幾年，大語言模型的能力提升主要依賴參數(shù)和數(shù)據(jù)規(guī)模的擴張。但當(dāng)模型逐步被用于研究助理、網(wǎng)頁搜索和復(fù)雜決策支持等真實任務(wù)時，這條路徑開始顯露邊界。

這類場景往往要求模型在開放環(huán)境中進行多輪搜索與推理，使搜索增強推理成為主流范式，同時也暴露出一個核心問題：模型在長鏈搜索推理中的失敗，往往不是因為推理能力不足，而是無法有效處理錯誤在推理過程中的出現(xiàn)與傳播。

在現(xiàn)實任務(wù)中，搜索結(jié)果不可避免地包含噪聲，一旦早期某次檢索或信息采信出現(xiàn)偏差，后續(xù)推理就可能在錯誤語義空間中不斷自洽，最終生成看似合理卻偏離問題的答案。然而，現(xiàn)有訓(xùn)練方法通常只依據(jù)最終答案是否正確進行優(yōu)化，使“偶然成功”的軌跡與“搜索路徑可靠”的軌跡獲得相同反饋，長期來看反而削弱了模型對中途錯誤和搜索質(zhì)量的約束。這也是多輪搜索、多跳推理任務(wù)中性能崩潰呈現(xiàn)系統(tǒng)性特征的重要原因。

在這一背景下，MBZUAI 、港中文和騰訊混元組成的聯(lián)合團隊提出了《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。

這項工作直指搜索增強推理中的長鏈推理信用分配與中途糾錯缺失，通過將推理生成、軌跡判斷和錯誤定位納入統(tǒng)一的強化學(xué)習(xí)框架，使訓(xùn)練信號能夠回傳至錯誤首次發(fā)生的位置，從而抑制錯誤傳播。

在智能體系統(tǒng)逐漸從“展示能力”走向“承擔(dān)任務(wù)”的當(dāng)下，這項研究的意義不在于提出一種更復(fù)雜的工程技巧，而在于為搜索型智能體提供了一種更接近真實失敗模式的學(xué)習(xí)范式：不是假設(shè)推理過程天然可靠，而是承認(rèn)錯誤不可避免，并讓模型在訓(xùn)練中學(xué)會與錯誤共處、定位并修正它們。

論文地址：https://arxiv.org/pdf/2602.03647

完整閉環(huán)，而不是單一技巧

在實驗結(jié)果方面，研究團隊發(fā)現(xiàn)該方法的優(yōu)勢并不僅體現(xiàn)在整體平均性能的提升上，而是在任務(wù)難度最高、錯誤最容易累積的場景中表現(xiàn)得尤為突出。

實驗評測覆蓋了普通事實型問答任務(wù)和多跳推理問答任務(wù)兩大類，其中前者通常只需要一到兩次檢索即可完成，而后者必須經(jīng)歷多輪“搜索—推理—再搜索”，中間任何一步出現(xiàn)偏差都會在后續(xù)推理中被不斷放大。

實驗結(jié)果表明，該方法在兩類任務(wù)上均取得穩(wěn)定提升，但在多跳推理任務(wù)上的提升幅度明顯更大，尤其是在 HotpotQA、2WikiMultiHopQA 和 Bamboogle 等需要多輪檢索協(xié)同推理的數(shù)據(jù)集上，相較基線方法帶來了數(shù)個百分點到十余個百分點不等的準(zhǔn)確率提升，其中在 Bamboogle 數(shù)據(jù)集上的相對提升幅度超過二十個百分點。

這一現(xiàn)象表明，其優(yōu)勢并非來源于更強的參數(shù)記憶能力，而是源于對長鏈推理過程中錯誤傳播的有效抑制。研究人員指出，多跳推理任務(wù)的失敗往往并不是由于模型無法生成最終答案，而是由于中途某一次搜索引入了錯誤或無關(guān)信息，使推理方向發(fā)生偏移，之后即便繼續(xù)搜索和推理，也只能在錯誤語義空間中反復(fù)迭代，這個方法正是針對這一失敗模式進行設(shè)計，因此在此類任務(wù)中的優(yōu)勢被顯著放大。

在與拒絕采樣策略的對比實驗中，研究團隊進一步提高了基線方法的采樣預(yù)算，將每個問題的采樣次數(shù)提升至原來的兩倍甚至更多，但實驗結(jié)果顯示，即便在這種條件下，基線方法的整體性能仍然低于該方法在較小采樣預(yù)算下所取得的結(jié)果。

這一對比表明，該方法的性能提升并非來自“多試幾次總能蒙對”的概率收益，其關(guān)鍵不在于整體軌跡質(zhì)量分布的上限，而在于是否能夠準(zhǔn)確識別錯誤首次出現(xiàn)的位置并進行針對性處理。拒絕采樣在生成失敗后會直接丟棄整條推理軌跡并重新生成，而該方法則認(rèn)為失敗軌跡的前半部分往往仍然是正確且有價值的，真正導(dǎo)致失敗的通常是某一次具體的搜索步驟，這次搜索所引入的噪聲會在后續(xù)推理中持續(xù)放大，從而使兩種策略在長鏈推理任務(wù)中的樣本效率產(chǎn)生數(shù)量級差異。

為進一步分析性能提升的來源，研究團隊通過消融實驗系統(tǒng)性地評估了各個組成模塊的作用。實驗結(jié)果顯示，在僅引入中途糾錯機制而不加入過程獎勵的情況下，模型在多個數(shù)據(jù)集上的性能已經(jīng)出現(xiàn)顯著提升，表明對推理過程中關(guān)鍵錯誤進行定位和修復(fù)本身就能解決搜索增強推理中的核心瓶頸。

在此基礎(chǔ)上，加入用于衡量搜索結(jié)果信息密度的過程獎勵后，模型性能進一步提升，說明顯式區(qū)分高質(zhì)量搜索與低質(zhì)量搜索能夠為訓(xùn)練過程提供更加穩(wěn)定的優(yōu)化方向。

最終，在對推理生成模塊與糾錯模塊進行聯(lián)合優(yōu)化的完整設(shè)置下，模型在所有評測數(shù)據(jù)集上均取得最優(yōu)結(jié)果，這表明糾錯能力并非靜態(tài)規(guī)則，而是一種需要在訓(xùn)練過程中被逐步學(xué)習(xí)和內(nèi)化的行為策略。

整體來看，該方法的性能提升并非來源于單一技巧或額外計算量的堆疊，而是由中途糾錯、搜索質(zhì)量建模和聯(lián)合優(yōu)化共同構(gòu)成的完整機制所帶來的結(jié)果。

把糾錯本身納入策略空間

在實驗方法設(shè)計方面，研究團隊首先指出，僅依賴最終答案是否正確作為強化學(xué)習(xí)的獎勵信號，在搜索增強推理任務(wù)中會系統(tǒng)性失效。

研究人員分析認(rèn)為，在此類任務(wù)中，模型實際上需要連續(xù)做出多尺度決策，包括是否發(fā)起搜索、搜索的具體內(nèi)容、搜索發(fā)生的時機，以及在獲得檢索結(jié)果后是否應(yīng)當(dāng)信任并使用這些信息。

然而傳統(tǒng)強化學(xué)習(xí)只提供“最終答對或答錯”的單一反饋信號，無法區(qū)分這些中間決策的質(zhì)量差異，從而導(dǎo)致依靠運氣在最后階段拼湊出正確答案的推理軌跡，與邏輯結(jié)構(gòu)嚴(yán)密、搜索路徑合理的軌跡獲得完全相同的獎勵。

長期訓(xùn)練后，模型會逐漸學(xué)到搜索行為可以隨意展開、早期錯誤不會受到實質(zhì)性懲罰，只要最終答案能夠生成即可，這正是現(xiàn)有搜索增強方法在長鏈推理任務(wù)中容易發(fā)生性能崩潰的根本原因。

基于這一問題，研究團隊在方法中對不同功能進行了明確分工。其中，推理生成模塊負責(zé)像常規(guī)搜索增強方法一樣，完整生成一條包含推理與搜索行為的軌跡，該模塊被允許在生成過程中犯錯甚至進行探索，不承擔(dān)中途自檢或修復(fù)的職責(zé)。

隨后，引入的糾錯模塊首先對整條推理軌跡進行判斷，其關(guān)注重點并非最終答案是否正確，而是推理過程是否仍然圍繞原始問題展開，是否出現(xiàn)明顯的實體偏移、主題漂移或證據(jù)錯位等現(xiàn)象。這一判斷決定了軌跡是否值得繼續(xù)修復(fù)，若標(biāo)準(zhǔn)過于寬松，錯誤軌跡會被放過，若過于嚴(yán)格，則高質(zhì)量軌跡會被反復(fù)打斷，因此這一接受與拒絕之間的平衡并非人工設(shè)定，而是通過強化學(xué)習(xí)過程自動習(xí)得。

當(dāng)軌跡被判定為需要修復(fù)時，系統(tǒng)進一步定位推理過程中第一次發(fā)生實質(zhì)性偏離的位置，即具體是哪一次搜索或推理操作將系統(tǒng)帶離了正確的推理空間。

一旦該位置被識別，系統(tǒng)會完整保留此前已經(jīng)生成的推理前綴，丟棄其后的內(nèi)容，并從該點重新生成后續(xù)推理，從而避免浪費已有的正確推理信息，同時使獎勵信號能夠精確回傳至錯誤發(fā)生的位置，促使模型逐漸學(xué)會哪些搜索錯誤最具破壞性并應(yīng)當(dāng)被避免。研究人員在理論分析中將這一錯誤定位能力形式化為修剪能力，并證明其是整體性能提升的必要條件。

為防止模型出現(xiàn)“只修正結(jié)果而忽視錯誤根源”的投機行為，研究團隊在訓(xùn)練過程中進一步引入了過程層面的獎勵信號，用于衡量檢索到的證據(jù)中有多少是真正支持最終答案的信息而非噪聲內(nèi)容，并明確規(guī)定該過程獎勵僅在最終答案正確的前提下才會生效，從而保證搜索質(zhì)量成為達成正確答案的必要條件，但不足以單獨驅(qū)動優(yōu)化目標(biāo)。

最后，推理生成模塊、軌跡判斷模塊和錯誤定位模塊并非相互獨立，而是共享同一套參數(shù)，并在同一強化學(xué)習(xí)目標(biāo)下進行聯(lián)合優(yōu)化，將是否觸發(fā)糾錯以及在何處糾錯都視為策略決策的一部分，使模型在訓(xùn)練完成后，即便不顯式觸發(fā)多次修復(fù)，其初始生成的推理軌跡質(zhì)量本身也能夠得到顯著提升。

一種更貼近失敗模式的學(xué)習(xí)思路

從強化學(xué)習(xí)的角度來看，這項研究解決的并不是單一模塊或訓(xùn)練技巧的問題，而是搜索推理中長期存在的信用分配難題。在長鏈搜索推理過程中，模型需要在多個時間尺度上連續(xù)做出決策，而傳統(tǒng)方法只能依據(jù)最終答案是否正確進行回報分配，導(dǎo)致無法區(qū)分高質(zhì)量推理軌跡與依賴偶然性的成功軌跡。

研究團隊通過引入軌跡篩選、錯誤定位和受控糾錯三種機制，將原本難以處理的信用分配問題拆解為可操作的學(xué)習(xí)目標(biāo)，并在理論分析中證明，只有當(dāng)模型能夠區(qū)分哪些軌跡值得保留、能夠定位導(dǎo)致推理偏離的關(guān)鍵錯誤位置，并在訓(xùn)練過程中觸發(fā)數(shù)量適當(dāng)?shù)募m錯操作時，整體性能才會穩(wěn)定提升。

這一結(jié)論并非經(jīng)驗歸納，而是通過形式化分析給出的必要條件。在方法層面，該研究進一步改變了以往反思與修正僅依賴人工提示的做法，將是否進行反思以及在何處進行修正納入策略空間，使其成為可以通過強化學(xué)習(xí)直接優(yōu)化的決策行為，從而避免了人工提示不可學(xué)習(xí)、效果不穩(wěn)定的問題。

與此同時，這個方法的設(shè)計直接針對真實智能體任務(wù)中常見的失敗模式，即搜索結(jié)果本身存在噪聲、推理過程依賴較長的決策鏈條，以及早期一次錯誤可能對后續(xù)推理產(chǎn)生不可逆影響。

通過在推理過程中顯式建模錯誤傳播并提供中途干預(yù)機制，該研究為搜索型智能體在復(fù)雜任務(wù)中的穩(wěn)定運行提供了一種更具針對性的解決思路。

Search-R2 的研究者們

這篇論文的一作是 Bowei He，目前在 MBZUAI 的機器學(xué)習(xí)系擔(dān)任博士后研究員，合作導(dǎo)師為劉學(xué)教授。在此之前，他是香港城市大學(xué)計算機科學(xué)系的博士研究生，師從馬辰教授，研究方向包括 Data Mining，Language Model，AI for Science（和清華/香港城市大學(xué)馬維英教授團隊合作），和 Agentic AI。

他最近主要關(guān)注圍繞 AI Agent 的一系列前沿探索性課題，包括智能體強化學(xué)習(xí)，智能體記憶，長時程智能體，智能體終身演化，智能體世界模型，和智能體數(shù)據(jù) Scaling Laws 等。

https://scholar.google.com/citations?user=1cH0A9cAAAAJ

這篇文章的共同一作為 Minda Hu，目前是香港中文大學(xué)計算機科學(xué)與工程系的博士研究生，并在 MISC Lab 從事研究工作，導(dǎo)師為金國慶教授。

他的研究興趣主要包括數(shù)據(jù)挖掘、機器學(xué)習(xí)和自然語言處理，并關(guān)注機器學(xué)習(xí)、社會計算與自然語言處理等方向的交叉問題，當(dāng)前的研究重點在于探索如何更高效、有效地利用大語言模型，以提升模型在實際應(yīng)用場景中的推理能力與整體效能。

參考鏈接：https://misc-lab.cse.cuhk.edu.hk/sciencex_teams/minda-hu/

除此之外，該項工作得到了麥吉爾大學(xué)，香港城市大學(xué)，和愛丁堡大學(xué)等多位研究者的參與和貢獻。而該 paper 標(biāo)題 Search-R2 還得到了來自 UIUC 和 Google 的 Search-R1 作者團隊的官方授權(quán)。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.