網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

系統(tǒng)學(xué)習(xí)Deep Research，這一篇綜述就夠了

2026-01-05 17:09:28　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

近年來，大模型的應(yīng)用正從對(duì)話與創(chuàng)意寫作，走向更加開放、復(fù)雜的研究型問題。盡管以檢索增強(qiáng)生成（RAG）為代表的方法緩解了知識(shí)獲取瓶頸，但其靜態(tài)的 “一次檢索 + 一次生成” 范式，難以支撐多步推理與長期研究流程，由此催生了 Deep Research（DR）這一新方向。

然而，隨著相關(guān)工作的快速涌現(xiàn)，DR的概念也在迅速膨脹并趨于碎片化：不同工作在系統(tǒng)實(shí)現(xiàn)、任務(wù)假設(shè)與評(píng)價(jià)上差異顯著；相似術(shù)語的使用進(jìn)一步模糊了其能力邊界。

正是在這一背景下，來自山東大學(xué)、清華大學(xué)、CMU、UIUC、騰訊、萊頓大學(xué)等機(jī)構(gòu)共同撰寫并發(fā)布了目前最全面的深度研究智能體綜述《Deep Research: A Systematic Survey》。文章首先提出一條由淺入深的三階段能力發(fā)展路徑，隨后從系統(tǒng)視角系統(tǒng)化梳理關(guān)鍵組件，并進(jìn)一步總結(jié)了對(duì)應(yīng)的訓(xùn)練與優(yōu)化方法。

GitHub：https://github.com/mangopy/Deep-Research-Survey
Website：https://deep-research-survey.github.io/
論文地址：https://deep-research-survey.github.io/static/doc/Deep-Research-Survey.pdf

什么是 Deep Research

DR 并非某一具體模型或技術(shù)，而是一條逐步演進(jìn)的能力路徑。綜述刻畫了研究型智能體從信息獲取到完整科研流程的能力提升過程?；趯?duì)現(xiàn)有工作的梳理，可將這一演進(jìn)劃分為三個(gè)階段。

階段 1：「Agentic Search」。模型開始具備主動(dòng)搜索與多步信息獲取能力，能夠根據(jù)中間結(jié)果動(dòng)態(tài)調(diào)整查詢策略，其核心目標(biāo)在于持續(xù)地找對(duì)關(guān)鍵信息。這一階段關(guān)注的是如何高效獲取外界信息。

階段 2：「Integrated Research」。模型不再只是信息的收集者，而是能夠?qū)Χ嘣醋C據(jù)進(jìn)行理解、篩選和整合，最終生成邏輯連貫的報(bào)告。

階段 3：「Full-stack AI Scientist」。模型進(jìn)一步擴(kuò)展到完整的科研閉環(huán)，具備提出研究假設(shè)、設(shè)計(jì)并執(zhí)行實(shí)驗(yàn)，以及基于結(jié)果進(jìn)行反思與修正的能力。這一階段強(qiáng)調(diào)的不僅是推理深度，更是自主性與長期目標(biāo)驅(qū)動(dòng)的科研能力。

Deep Research 的四大核心組件

1. 查詢規(guī)劃

查詢規(guī)劃主要負(fù)責(zé)在當(dāng)前狀態(tài)下，決定下一步應(yīng)該查詢什么信息。具體分為三類規(guī)劃策略：

順序規(guī)劃，將復(fù)雜問題拆解為線性的子問題序列，模型根據(jù)前一步的檢索結(jié)果逐步推進(jìn)，適用于依賴關(guān)系明確的研究任務(wù)。
并行規(guī)劃，同時(shí)生成多個(gè)相對(duì)獨(dú)立的子查詢，用于加速搜索或降低單一搜索路徑帶來的信息缺失。
樹狀規(guī)劃，顯式建模子問題之間的層級(jí)與分支關(guān)系，允許模型在研究過程中進(jìn)行探索與回溯。

相比傳統(tǒng) RAG 中一次性生成查詢的做法，DR 將 “如何提問” 本身納入推理過程，使模型能夠在多輪研究中動(dòng)態(tài)調(diào)整推理路徑。

2. 信息獲取

論文從三個(gè)維度對(duì)現(xiàn)有的信息獲取方法進(jìn)行歸納。

（1）何時(shí)檢索：不同于固定步數(shù)或每輪必檢索的策略，DR 智能體需要根據(jù)當(dāng)前不確定性與信息缺口，動(dòng)態(tài)判斷是否觸發(fā)檢索，以避免冗余查詢或過早依賴外部信息。

（2）檢索什么：在確定檢索時(shí)機(jī)后，從 Web 或外界知識(shí)庫中做檢索，包括多模態(tài)和純文本信息。

（3）如何過濾檢索信息：面對(duì)噪聲較高的檢索結(jié)果，系統(tǒng)通常引入相關(guān)性判斷、一致性校驗(yàn)或證據(jù)聚合機(jī)制，對(duì)外部信息進(jìn)行篩選與整合。

3. 記憶管理

在開放任務(wù)中，智能體往往需要跨越多輪交互、多個(gè)子問題與不同信息源。記憶模塊是支撐 DR 系統(tǒng)長期運(yùn)行與持續(xù)推理的核心基礎(chǔ)設(shè)施，為系統(tǒng)提供狀態(tài)延續(xù)和經(jīng)驗(yàn)累積，使模型能夠使用長期長線推理任務(wù)?，F(xiàn)有工作通常將記憶管理過程拆解為四個(gè)相互關(guān)聯(lián)的階段：記憶鞏固、記憶索引、記憶更新與記憶遺忘。

4. 答案生成

與傳統(tǒng)生成任務(wù)不同，DR 場(chǎng)景的問答更強(qiáng)調(diào)結(jié)論與證據(jù)之間的對(duì)應(yīng)關(guān)系，以及整體論證過程的邏輯一致性。因此，通常需要智能體顯式整合多源證據(jù)與中間推理結(jié)果，使輸出不僅在語言層面連貫，還能夠支持事實(shí)核驗(yàn)與過程回溯。

如何訓(xùn)練與優(yōu)化 Deep Research 系統(tǒng)？

文中總結(jié)了三類具有代表性的方法：

提示工程：通過精心設(shè)計(jì)的多步提示構(gòu)建研究流程，引導(dǎo)模型執(zhí)行規(guī)劃、檢索與生成等步驟，適合快速構(gòu)建原型。其效果高度依賴提示設(shè)計(jì)，泛化能力有限。

監(jiān)督微調(diào)：利用高質(zhì)量推理軌跡，對(duì)智能體進(jìn)行監(jiān)督微調(diào)。該方法直觀有效，但獲取覆蓋復(fù)雜研究行為的標(biāo)注數(shù)據(jù)成本較高。

智能體強(qiáng)化學(xué)習(xí)：通過強(qiáng)化學(xué)習(xí)信號(hào)直接優(yōu)化 DR 智能體在多步?jīng)Q策過程中的行為策略，無需復(fù)雜人工標(biāo)注。主要細(xì)分為兩種做法：

端到端優(yōu)化：輸入到輸出的完整決策過程，聯(lián)合優(yōu)化查詢規(guī)劃、檢索、信息整合與報(bào)告生成等多個(gè)環(huán)節(jié)。這種方式有助于智能體學(xué)會(huì)協(xié)調(diào)各個(gè)模塊，但是面臨獎(jiǎng)勵(lì)稀疏、訓(xùn)練不穩(wěn)定以及采樣成本高等問題。
優(yōu)化特定模塊：僅對(duì)查詢規(guī)劃或調(diào)度等關(guān)鍵模塊施加強(qiáng)化學(xué)習(xí)信號(hào)。在保持系統(tǒng)其他模塊穩(wěn)定性的同時(shí)，學(xué)習(xí)何時(shí)檢索、如何推理等單一策略。這種模塊化訓(xùn)練顯著降低了訓(xùn)練難度，更易于在現(xiàn)有系統(tǒng)中落地。

Deep Research 真正難在哪里？

Deep Research 的核心挑戰(zhàn)并不在于單一能力的提升，而在于如何在長期、開放且不確定的研究流程中，實(shí)現(xiàn)穩(wěn)定、可控且可評(píng)估的系統(tǒng)級(jí)行為。現(xiàn)有工作主要面臨以下幾方面的關(guān)鍵難題。

（1）內(nèi)部知識(shí)與外部知識(shí)的協(xié)同：研究型智能體需要在自身參數(shù)化知識(shí)與外部檢索信息之間做出動(dòng)態(tài)權(quán)衡，即在何時(shí)依賴內(nèi)部推理、何時(shí)調(diào)用搜索工具。

（2）訓(xùn)練算法的穩(wěn)定性：面向長線任務(wù)的訓(xùn)練往往依賴強(qiáng)化學(xué)習(xí)等方法，但優(yōu)化過程中容易出現(xiàn)策略退化或熵坍縮等問題，使智能體過早收斂到次優(yōu)行為模式，限制其探索多樣化的推理路徑。

（3）評(píng)估方法的構(gòu)建：如何合理評(píng)估研究型智能體仍是開放問題。綜述系統(tǒng)梳理了現(xiàn)有 benchmark。

盡管相關(guān)數(shù)據(jù)集不斷涌現(xiàn)，構(gòu)建可靠且高效的評(píng)估方法仍有待深入探索，尤其是在開放式任務(wù)中如何對(duì) report-level 的模型輸出進(jìn)行全面評(píng)估。當(dāng)前廣泛采用的 LLM-as-a-judge 范式在實(shí)踐中展現(xiàn)出便利性，但仍不可避免地受到順序偏差，偏好 hacking 等問題的影響，限制了其作為測(cè)評(píng)方法的可靠性。

（4）記憶模塊的構(gòu)建：記憶模塊的構(gòu)建是 DR 系統(tǒng)中最具挑戰(zhàn)性的部分之一。如何在記憶容量、檢索效率與信息可靠性之間取得平衡，并將記憶機(jī)制穩(wěn)定地融入端到端訓(xùn)練流程，仍是當(dāng)前研究中的關(guān)鍵難題。

結(jié)語 Deep Research

Deep Research 并非對(duì)現(xiàn)有 RAG 的簡單擴(kuò)展，而是智能體在能力、動(dòng)作空間以及應(yīng)用邊界上的一次轉(zhuǎn)變：從單輪的答案生成，走向面向開放問題的深度研究。目前，該方向仍處于早期階段，如何在開放環(huán)境中構(gòu)建既具自主性、又具可信性的 Deep Research 智能體，仍是未來值得持續(xù)探索的重要問題。本文的 survey 也會(huì)持續(xù)更新，總結(jié)最新的進(jìn)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.