騰訊混元 x MBZUAI 港中文新研究：將糾錯納入策略空間，Search-R2 重構搜索增強推理學習方式

2026-02-12 15:59:41　來源: 雷峰網(wǎng)

北京舉報

分享至

過去幾年，大語言模型的能力提升主要依賴參數(shù)和數(shù)據(jù)規(guī)模的擴張。但當模型逐步被用于研究助理、網(wǎng)頁搜索和復雜決策支持等真實任務時，這條路徑開始顯露邊界。

這類場景往往要求模型在開放環(huán)境中進行多輪搜索與推理，使搜索增強推理成為主流范式，同時也暴露出一個核心問題：模型在長鏈搜索推理中的失敗，往往不是因為推理能力不足，而是無法有效處理錯誤在推理過程中的出現(xiàn)與傳播。

在現(xiàn)實任務中，搜索結果不可避免地包含噪聲，一旦早期某次檢索或信息采信出現(xiàn)偏差，后續(xù)推理就可能在錯誤語義空間中不斷自洽，最終生成看似合理卻偏離問題的答案。然而，現(xiàn)有訓練方法通常只依據(jù)最終答案是否正確進行優(yōu)化，使“偶然成功”的軌跡與“搜索路徑可靠”的軌跡獲得相同反饋，長期來看反而削弱了模型對中途錯誤和搜索質量的約束。這也是多輪搜索、多跳推理任務中性能崩潰呈現(xiàn)系統(tǒng)性特征的重要原因。

在這一背景下，MBZUAI 、港中文和騰訊混元組成的聯(lián)合團隊提出了《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。

這項工作直指搜索增強推理中的長鏈推理信用分配與中途糾錯缺失，通過將推理生成、軌跡判斷和錯誤定位納入統(tǒng)一的強化學習框架，使訓練信號能夠回傳至錯誤首次發(fā)生的位置，從而抑制錯誤傳播。

在智能體系統(tǒng)逐漸從“展示能力”走向“承擔任務”的當下，這項研究的意義不在于提出一種更復雜的工程技巧，而在于為搜索型智能體提供了一種更接近真實失敗模式的學習范式：不是假設推理過程天然可靠，而是承認錯誤不可避免，并讓模型在訓練中學會與錯誤共處、定位并修正它們。

論文地址：https://arxiv.org/pdf/2602.03647

完整閉環(huán)，而不是單一技巧

在實驗結果方面，研究團隊發(fā)現(xiàn)該方法的優(yōu)勢并不僅體現(xiàn)在整體平均性能的提升上，而是在任務難度最高、錯誤最容易累積的場景中表現(xiàn)得尤為突出。

實驗評測覆蓋了普通事實型問答任務和多跳推理問答任務兩大類，其中前者通常只需要一到兩次檢索即可完成，而后者必須經(jīng)歷多輪“搜索—推理—再搜索”，中間任何一步出現(xiàn)偏差都會在后續(xù)推理中被不斷放大。

實驗結果表明，該方法在兩類任務上均取得穩(wěn)定提升，但在多跳推理任務上的提升幅度明顯更大，尤其是在 HotpotQA、2WikiMultiHopQA 和 Bamboogle 等需要多輪檢索協(xié)同推理的數(shù)據(jù)集上，相較基線方法帶來了數(shù)個百分點到十余個百分點不等的準確率提升，其中在 Bamboogle 數(shù)據(jù)集上的相對提升幅度超過二十個百分點。

這一現(xiàn)象表明，其優(yōu)勢并非來源于更強的參數(shù)記憶能力，而是源于對長鏈推理過程中錯誤傳播的有效抑制。研究人員指出，多跳推理任務的失敗往往并不是由于模型無法生成最終答案，而是由于中途某一次搜索引入了錯誤或無關信息，使推理方向發(fā)生偏移，之后即便繼續(xù)搜索和推理，也只能在錯誤語義空間中反復迭代，這個方法正是針對這一失敗模式進行設計，因此在此類任務中的優(yōu)勢被顯著放大。

在與拒絕采樣策略的對比實驗中，研究團隊進一步提高了基線方法的采樣預算，將每個問題的采樣次數(shù)提升至原來的兩倍甚至更多，但實驗結果顯示，即便在這種條件下，基線方法的整體性能仍然低于該方法在較小采樣預算下所取得的結果。

這一對比表明，該方法的性能提升并非來自“多試幾次總能蒙對”的概率收益，其關鍵不在于整體軌跡質量分布的上限，而在于是否能夠準確識別錯誤首次出現(xiàn)的位置并進行針對性處理。拒絕采樣在生成失敗后會直接丟棄整條推理軌跡并重新生成，而該方法則認為失敗軌跡的前半部分往往仍然是正確且有價值的，真正導致失敗的通常是某一次具體的搜索步驟，這次搜索所引入的噪聲會在后續(xù)推理中持續(xù)放大，從而使兩種策略在長鏈推理任務中的樣本效率產(chǎn)生數(shù)量級差異。

為進一步分析性能提升的來源，研究團隊通過消融實驗系統(tǒng)性地評估了各個組成模塊的作用。實驗結果顯示，在僅引入中途糾錯機制而不加入過程獎勵的情況下，模型在多個數(shù)據(jù)集上的性能已經(jīng)出現(xiàn)顯著提升，表明對推理過程中關鍵錯誤進行定位和修復本身就能解決搜索增強推理中的核心瓶頸。雷峰網(wǎng)

在此基礎上，加入用于衡量搜索結果信息密度的過程獎勵后，模型性能進一步提升，說明顯式區(qū)分高質量搜索與低質量搜索能夠為訓練過程提供更加穩(wěn)定的優(yōu)化方向。

最終，在對推理生成模塊與糾錯模塊進行聯(lián)合優(yōu)化的完整設置下，模型在所有評測數(shù)據(jù)集上均取得最優(yōu)結果，這表明糾錯能力并非靜態(tài)規(guī)則，而是一種需要在訓練過程中被逐步學習和內化的行為策略。

整體來看，該方法的性能提升并非來源于單一技巧或額外計算量的堆疊，而是由中途糾錯、搜索質量建模和聯(lián)合優(yōu)化共同構成的完整機制所帶來的結果。

把糾錯本身納入策略空間

在實驗方法設計方面，研究團隊首先指出，僅依賴最終答案是否正確作為強化學習的獎勵信號，在搜索增強推理任務中會系統(tǒng)性失效。

研究人員分析認為，在此類任務中，模型實際上需要連續(xù)做出多尺度決策，包括是否發(fā)起搜索、搜索的具體內容、搜索發(fā)生的時機，以及在獲得檢索結果后是否應當信任并使用這些信息。

然而傳統(tǒng)強化學習只提供“最終答對或答錯”的單一反饋信號，無法區(qū)分這些中間決策的質量差異，從而導致依靠運氣在最后階段拼湊出正確答案的推理軌跡，與邏輯結構嚴密、搜索路徑合理的軌跡獲得完全相同的獎勵。

長期訓練后，模型會逐漸學到搜索行為可以隨意展開、早期錯誤不會受到實質性懲罰，只要最終答案能夠生成即可，這正是現(xiàn)有搜索增強方法在長鏈推理任務中容易發(fā)生性能崩潰的根本原因。

基于這一問題，研究團隊在方法中對不同功能進行了明確分工。其中，推理生成模塊負責像常規(guī)搜索增強方法一樣，完整生成一條包含推理與搜索行為的軌跡，該模塊被允許在生成過程中犯錯甚至進行探索，不承擔中途自檢或修復的職責。

隨后，引入的糾錯模塊首先對整條推理軌跡進行判斷，其關注重點并非最終答案是否正確，而是推理過程是否仍然圍繞原始問題展開，是否出現(xiàn)明顯的實體偏移、主題漂移或證據(jù)錯位等現(xiàn)象。這一判斷決定了軌跡是否值得繼續(xù)修復，若標準過于寬松，錯誤軌跡會被放過，若過于嚴格，則高質量軌跡會被反復打斷，因此這一接受與拒絕之間的平衡并非人工設定，而是通過強化學習過程自動習得。

當軌跡被判定為需要修復時，系統(tǒng)進一步定位推理過程中第一次發(fā)生實質性偏離的位置，即具體是哪一次搜索或推理操作將系統(tǒng)帶離了正確的推理空間。雷峰網(wǎng)

一旦該位置被識別，系統(tǒng)會完整保留此前已經(jīng)生成的推理前綴，丟棄其后的內容，并從該點重新生成后續(xù)推理，從而避免浪費已有的正確推理信息，同時使獎勵信號能夠精確回傳至錯誤發(fā)生的位置，促使模型逐漸學會哪些搜索錯誤最具破壞性并應當被避免。研究人員在理論分析中將這一錯誤定位能力形式化為修剪能力，并證明其是整體性能提升的必要條件。

為防止模型出現(xiàn)“只修正結果而忽視錯誤根源”的投機行為，研究團隊在訓練過程中進一步引入了過程層面的獎勵信號，用于衡量檢索到的證據(jù)中有多少是真正支持最終答案的信息而非噪聲內容，并明確規(guī)定該過程獎勵僅在最終答案正確的前提下才會生效，從而保證搜索質量成為達成正確答案的必要條件，但不足以單獨驅動優(yōu)化目標。

最后，推理生成模塊、軌跡判斷模塊和錯誤定位模塊并非相互獨立，而是共享同一套參數(shù)，并在同一強化學習目標下進行聯(lián)合優(yōu)化，將是否觸發(fā)糾錯以及在何處糾錯都視為策略決策的一部分，使模型在訓練完成后，即便不顯式觸發(fā)多次修復，其初始生成的推理軌跡質量本身也能夠得到顯著提升。

一種更貼近失敗模式的學習思路

從強化學習的角度來看，這項研究解決的并不是單一模塊或訓練技巧的問題，而是搜索推理中長期存在的信用分配難題。在長鏈搜索推理過程中，模型需要在多個時間尺度上連續(xù)做出決策，而傳統(tǒng)方法只能依據(jù)最終答案是否正確進行回報分配，導致無法區(qū)分高質量推理軌跡與依賴偶然性的成功軌跡。

研究團隊通過引入軌跡篩選、錯誤定位和受控糾錯三種機制，將原本難以處理的信用分配問題拆解為可操作的學習目標，并在理論分析中證明，只有當模型能夠區(qū)分哪些軌跡值得保留、能夠定位導致推理偏離的關鍵錯誤位置，并在訓練過程中觸發(fā)數(shù)量適當?shù)募m錯操作時，整體性能才會穩(wěn)定提升。

這一結論并非經(jīng)驗歸納，而是通過形式化分析給出的必要條件。在方法層面，該研究進一步改變了以往反思與修正僅依賴人工提示的做法，將是否進行反思以及在何處進行修正納入策略空間，使其成為可以通過強化學習直接優(yōu)化的決策行為，從而避免了人工提示不可學習、效果不穩(wěn)定的問題。

與此同時，這個方法的設計直接針對真實智能體任務中常見的失敗模式，即搜索結果本身存在噪聲、推理過程依賴較長的決策鏈條，以及早期一次錯誤可能對后續(xù)推理產(chǎn)生不可逆影響。

通過在推理過程中顯式建模錯誤傳播并提供中途干預機制，該研究為搜索型智能體在復雜任務中的穩(wěn)定運行提供了一種更具針對性的解決思路。

Search-R2 的研究者們

這篇論文的一作是何博威，目前在 MBZUAI 的機器學習系擔任博士后研究員，合作導師為劉學教授。在此之前，他是香港城市大學計算機科學系的博士研究生，師從馬辰教授，研究方向包括 Data Mining，Language Model，AI for Science（和清華/香港城市大學馬維英教授團隊合作），和 Agentic AI。

他最近主要關注圍繞 AI Agent 的一系列前沿探索性課題，包括智能體強化學習，智能體記憶，長時程智能體，智能體終身演化，智能體世界模型，和智能體數(shù)據(jù) Scaling Laws 等。

參考鏈接：https://scholar.google.com/citations?user=1cH0A9cAAAAJ&hl=en&oi=ao

這篇文章的共同一作為 Minda Hu，目前是香港中文大學計算機科學與工程系的博士研究生，并在 MISC Lab 從事研究工作，導師為金國慶教授。

他的研究興趣主要包括數(shù)據(jù)挖掘、機器學習和自然語言處理，并關注機器學習、社會計算與自然語言處理等方向的交叉問題，當前的研究重點在于探索如何更高效、有效地利用大語言模型，以提升模型在實際應用場景中的推理能力與整體效能。

參考鏈接：https://misc-lab.cse.cuhk.edu.hk/sciencex_teams/minda-hu/

除此之外，該項工作得到了麥吉爾大學，香港城市大學，和愛丁堡大學等多位研究者的參與和貢獻。而該 paper 標題 Search-R2 還得到了來自 UIUC 和 Google 的 Search-R1 作者團隊的官方授權

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.