国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

系統(tǒng)學(xué)習(xí)Deep Research,這一篇綜述就夠了

0
分享至



近年來,大模型的應(yīng)用正從對(duì)話與創(chuàng)意寫作,走向更加開放、復(fù)雜的研究型問題。盡管以檢索增強(qiáng)生成(RAG)為代表的方法緩解了知識(shí)獲取瓶頸,但其靜態(tài)的 “一次檢索 + 一次生成” 范式,難以支撐多步推理與長期研究流程,由此催生了 Deep Research(DR)這一新方向。

然而,隨著相關(guān)工作的快速涌現(xiàn),DR的概念也在迅速膨脹并趨于碎片化:不同工作在系統(tǒng)實(shí)現(xiàn)、任務(wù)假設(shè)與評(píng)價(jià)上差異顯著;相似術(shù)語的使用進(jìn)一步模糊了其能力邊界。

正是在這一背景下,來自山東大學(xué)、清華大學(xué)、CMU、UIUC、騰訊、萊頓大學(xué)等機(jī)構(gòu)共同撰寫并發(fā)布了目前最全面的深度研究智能體綜述《Deep Research: A Systematic Survey》。文章首先提出一條由淺入深的三階段能力發(fā)展路徑,隨后從系統(tǒng)視角系統(tǒng)化梳理關(guān)鍵組件,并進(jìn)一步總結(jié)了對(duì)應(yīng)的訓(xùn)練與優(yōu)化方法。



  • GitHub:https://github.com/mangopy/Deep-Research-Survey
  • Website:https://deep-research-survey.github.io/
  • 論文地址:https://deep-research-survey.github.io/static/doc/Deep-Research-Survey.pdf

什么是 Deep Research

DR 并非某一具體模型或技術(shù),而是一條逐步演進(jìn)的能力路徑。綜述刻畫了研究型智能體從信息獲取到完整科研流程的能力提升過程?;趯?duì)現(xiàn)有工作的梳理,可將這一演進(jìn)劃分為三個(gè)階段。

階段 1:「Agentic Search」。模型開始具備主動(dòng)搜索與多步信息獲取能力,能夠根據(jù)中間結(jié)果動(dòng)態(tài)調(diào)整查詢策略,其核心目標(biāo)在于持續(xù)地找對(duì)關(guān)鍵信息。這一階段關(guān)注的是如何高效獲取外界信息。

階段 2:「Integrated Research」。模型不再只是信息的收集者,而是能夠?qū)Χ嘣醋C據(jù)進(jìn)行理解、篩選和整合,最終生成邏輯連貫的報(bào)告。

階段 3:「Full-stack AI Scientist」。模型進(jìn)一步擴(kuò)展到完整的科研閉環(huán),具備提出研究假設(shè)、設(shè)計(jì)并執(zhí)行實(shí)驗(yàn),以及基于結(jié)果進(jìn)行反思與修正的能力。這一階段強(qiáng)調(diào)的不僅是推理深度,更是自主性與長期目標(biāo)驅(qū)動(dòng)的科研能力。



Deep Research 的四大核心組件



1. 查詢規(guī)劃

查詢規(guī)劃主要負(fù)責(zé)在當(dāng)前狀態(tài)下,決定下一步應(yīng)該查詢什么信息。具體分為三類規(guī)劃策略:

  • 順序規(guī)劃,將復(fù)雜問題拆解為線性的子問題序列,模型根據(jù)前一步的檢索結(jié)果逐步推進(jìn),適用于依賴關(guān)系明確的研究任務(wù)。
  • 并行規(guī)劃,同時(shí)生成多個(gè)相對(duì)獨(dú)立的子查詢,用于加速搜索或降低單一搜索路徑帶來的信息缺失。
  • 樹狀規(guī)劃,顯式建模子問題之間的層級(jí)與分支關(guān)系,允許模型在研究過程中進(jìn)行探索與回溯。

相比傳統(tǒng) RAG 中一次性生成查詢的做法,DR 將 “如何提問” 本身納入推理過程,使模型能夠在多輪研究中動(dòng)態(tài)調(diào)整推理路徑。



2. 信息獲取

論文從三個(gè)維度對(duì)現(xiàn)有的信息獲取方法進(jìn)行歸納。

(1)何時(shí)檢索:不同于固定步數(shù)或每輪必檢索的策略,DR 智能體需要根據(jù)當(dāng)前不確定性與信息缺口,動(dòng)態(tài)判斷是否觸發(fā)檢索,以避免冗余查詢或過早依賴外部信息。

(2)檢索什么: 在確定檢索時(shí)機(jī)后,從 Web 或外界知識(shí)庫中做檢索,包括多模態(tài)和純文本信息。

(3)如何過濾檢索信息:面對(duì)噪聲較高的檢索結(jié)果,系統(tǒng)通常引入相關(guān)性判斷、一致性校驗(yàn)或證據(jù)聚合機(jī)制,對(duì)外部信息進(jìn)行篩選與整合。

3. 記憶管理

在開放任務(wù)中,智能體往往需要跨越多輪交互、多個(gè)子問題與不同信息源。記憶模塊是支撐 DR 系統(tǒng)長期運(yùn)行與持續(xù)推理的核心基礎(chǔ)設(shè)施,為系統(tǒng)提供狀態(tài)延續(xù)和經(jīng)驗(yàn)累積,使模型能夠使用長期長線推理任務(wù)?,F(xiàn)有工作通常將記憶管理過程拆解為四個(gè)相互關(guān)聯(lián)的階段:記憶鞏固、記憶索引、記憶更新與記憶遺忘。



4. 答案生成

與傳統(tǒng)生成任務(wù)不同,DR 場(chǎng)景的問答更強(qiáng)調(diào)結(jié)論與證據(jù)之間的對(duì)應(yīng)關(guān)系,以及整體論證過程的邏輯一致性。因此,通常需要智能體顯式整合多源證據(jù)與中間推理結(jié)果,使輸出不僅在語言層面連貫,還能夠支持事實(shí)核驗(yàn)與過程回溯。



如何訓(xùn)練與優(yōu)化 Deep Research 系統(tǒng)?

文中總結(jié)了三類具有代表性的方法:

提示工程:通過精心設(shè)計(jì)的多步提示構(gòu)建研究流程,引導(dǎo)模型執(zhí)行規(guī)劃、檢索與生成等步驟,適合快速構(gòu)建原型。其效果高度依賴提示設(shè)計(jì),泛化能力有限。

監(jiān)督微調(diào):利用高質(zhì)量推理軌跡,對(duì)智能體進(jìn)行監(jiān)督微調(diào)。該方法直觀有效,但獲取覆蓋復(fù)雜研究行為的標(biāo)注數(shù)據(jù)成本較高。

智能體強(qiáng)化學(xué)習(xí): 通過強(qiáng)化學(xué)習(xí)信號(hào)直接優(yōu)化 DR 智能體在多步?jīng)Q策過程中的行為策略,無需復(fù)雜人工標(biāo)注。主要細(xì)分為兩種做法:

  • 端到端優(yōu)化:輸入到輸出的完整決策過程,聯(lián)合優(yōu)化查詢規(guī)劃、檢索、信息整合與報(bào)告生成等多個(gè)環(huán)節(jié)。這種方式有助于智能體學(xué)會(huì)協(xié)調(diào)各個(gè)模塊,但是面臨獎(jiǎng)勵(lì)稀疏、訓(xùn)練不穩(wěn)定以及采樣成本高等問題。
  • 優(yōu)化特定模塊:僅對(duì)查詢規(guī)劃或調(diào)度等關(guān)鍵模塊施加強(qiáng)化學(xué)習(xí)信號(hào)。在保持系統(tǒng)其他模塊穩(wěn)定性的同時(shí),學(xué)習(xí)何時(shí)檢索、如何推理等單一策略。這種模塊化訓(xùn)練顯著降低了訓(xùn)練難度,更易于在現(xiàn)有系統(tǒng)中落地。

Deep Research 真正難在哪里?

Deep Research 的核心挑戰(zhàn)并不在于單一能力的提升,而在于如何在長期、開放且不確定的研究流程中,實(shí)現(xiàn)穩(wěn)定、可控且可評(píng)估的系統(tǒng)級(jí)行為。現(xiàn)有工作主要面臨以下幾方面的關(guān)鍵難題。

(1)內(nèi)部知識(shí)與外部知識(shí)的協(xié)同: 研究型智能體需要在自身參數(shù)化知識(shí)與外部檢索信息之間做出動(dòng)態(tài)權(quán)衡,即在何時(shí)依賴內(nèi)部推理、何時(shí)調(diào)用搜索工具。

(2)訓(xùn)練算法的穩(wěn)定性:面向長線任務(wù)的訓(xùn)練往往依賴強(qiáng)化學(xué)習(xí)等方法,但優(yōu)化過程中容易出現(xiàn)策略退化或熵坍縮等問題,使智能體過早收斂到次優(yōu)行為模式,限制其探索多樣化的推理路徑。

(3)評(píng)估方法的構(gòu)建: 如何合理評(píng)估研究型智能體仍是開放問題。綜述系統(tǒng)梳理了現(xiàn)有 benchmark。



盡管相關(guān)數(shù)據(jù)集不斷涌現(xiàn),構(gòu)建可靠且高效的評(píng)估方法仍有待深入探索,尤其是在開放式任務(wù)中如何對(duì) report-level 的模型輸出進(jìn)行全面評(píng)估。當(dāng)前廣泛采用的 LLM-as-a-judge 范式在實(shí)踐中展現(xiàn)出便利性,但仍不可避免地受到順序偏差,偏好 hacking 等問題的影響,限制了其作為測(cè)評(píng)方法的可靠性。

(4)記憶模塊的構(gòu)建:記憶模塊的構(gòu)建是 DR 系統(tǒng)中最具挑戰(zhàn)性的部分之一。如何在記憶容量、檢索效率與信息可靠性之間取得平衡,并將記憶機(jī)制穩(wěn)定地融入端到端訓(xùn)練流程,仍是當(dāng)前研究中的關(guān)鍵難題。

結(jié)語 Deep Research

Deep Research 并非對(duì)現(xiàn)有 RAG 的簡單擴(kuò)展,而是智能體在能力、動(dòng)作空間以及應(yīng)用邊界上的一次轉(zhuǎn)變:從單輪的答案生成,走向面向開放問題的深度研究。目前,該方向仍處于早期階段,如何在開放環(huán)境中構(gòu)建既具自主性、又具可信性的 Deep Research 智能體,仍是未來值得持續(xù)探索的重要問題。本文的 survey 也會(huì)持續(xù)更新,總結(jié)最新的進(jìn)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海這項(xiàng)老年人補(bǔ)貼,取消了?回應(yīng):各區(qū)有所不同!你家那里是啥情況?

上海這項(xiàng)老年人補(bǔ)貼,取消了?回應(yīng):各區(qū)有所不同!你家那里是啥情況?

新民晚報(bào)
2026-01-08 15:29:53
哪怕淚成江河,也要為河北農(nóng)民取暖發(fā)聲

哪怕淚成江河,也要為河北農(nóng)民取暖發(fā)聲

灰白筆記
2026-01-08 12:44:06
分手8年,自曝私密事的Coco,沒給謝賢留體面,原來謝霆鋒沒說謊

分手8年,自曝私密事的Coco,沒給謝賢留體面,原來謝霆鋒沒說謊

娛說瑜悅
2026-01-06 17:28:42
閆學(xué)晶哭窮風(fēng)波再升級(jí),馮鞏撕掉其最后體面

閆學(xué)晶哭窮風(fēng)波再升級(jí),馮鞏撕掉其最后體面

梁蜱愛玩車
2026-01-07 06:07:40
太頂了!明明什么都沒露,卻性感得要命!

太頂了!明明什么都沒露,卻性感得要命!

貴圈真亂
2025-12-20 12:02:06
上海保姆15年死拿紫金礦業(yè):79萬變960萬,還賺了83萬分紅

上海保姆15年死拿紫金礦業(yè):79萬變960萬,還賺了83萬分紅

真實(shí)人物采訪
2026-01-03 13:00:03
從2-5到2-1!皇馬復(fù)仇馬競:羅德里戈3場(chǎng)造6球!2億前鋒淪為水貨

從2-5到2-1!皇馬復(fù)仇馬競:羅德里戈3場(chǎng)造6球!2億前鋒淪為水貨

球場(chǎng)沒跑道
2026-01-09 11:24:09
多地上調(diào)最低工資標(biāo)準(zhǔn)

多地上調(diào)最低工資標(biāo)準(zhǔn)

第一財(cái)經(jīng)資訊
2026-01-08 18:42:13
已確認(rèn),是75歲的王石!

已確認(rèn),是75歲的王石!

財(cái)經(jīng)要參
2026-01-08 21:33:30
他是任期最長的江蘇省長,1967年被奪權(quán),1980年又擔(dān)任江蘇省長

他是任期最長的江蘇省長,1967年被奪權(quán),1980年又擔(dān)任江蘇省長

嘆為觀止易
2026-01-08 15:59:17
雷軍再回應(yīng)"1300公里只充一次電" 水軍想給我貼"虛假營銷"的標(biāo)簽

雷軍再回應(yīng)"1300公里只充一次電" 水軍想給我貼"虛假營銷"的標(biāo)簽

每日經(jīng)濟(jì)新聞
2026-01-09 10:29:49
伊拉克U23球員:對(duì)陣中國隊(duì)的比賽很艱難,我們很難取得進(jìn)球

伊拉克U23球員:對(duì)陣中國隊(duì)的比賽很艱難,我們很難取得進(jìn)球

懂球帝
2026-01-09 09:43:23
最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

阿胡
2025-12-23 17:56:32
特雷-楊為啥只賣白菜價(jià)?NBA專家:他身處團(tuán)隊(duì)運(yùn)動(dòng)卻習(xí)慣單打獨(dú)斗

特雷-楊為啥只賣白菜價(jià)?NBA專家:他身處團(tuán)隊(duì)運(yùn)動(dòng)卻習(xí)慣單打獨(dú)斗

羅說NBA
2026-01-08 22:25:17
感謝邵佳一!李昊最后時(shí)刻3次世界級(jí)撲救:中國足球真不缺門將

感謝邵佳一!李昊最后時(shí)刻3次世界級(jí)撲救:中國足球真不缺門將

邱澤云
2026-01-09 01:07:50
俄專家終于說出大實(shí)話,一旦爆發(fā)海戰(zhàn),全世界僅有一國能擊敗美軍

俄專家終于說出大實(shí)話,一旦爆發(fā)海戰(zhàn),全世界僅有一國能擊敗美軍

壹知眠羊
2026-01-08 11:34:42
女人染上“性癮”是一種怎樣的體驗(yàn)?可能和你想象得不同

女人染上“性癮”是一種怎樣的體驗(yàn)?可能和你想象得不同

紙上的心語
2025-11-23 11:36:00
CBA官方:北京男籃注冊(cè)新外援貝利 今日對(duì)陣山東有望首秀

CBA官方:北京男籃注冊(cè)新外援貝利 今日對(duì)陣山東有望首秀

醉臥浮生
2026-01-09 10:46:19
連鎖反應(yīng)!火箭4人2K能力值遭下調(diào),三巨頭數(shù)值不變,海王被低估

連鎖反應(yīng)!火箭4人2K能力值遭下調(diào),三巨頭數(shù)值不變,海王被低估

熊哥愛籃球
2026-01-09 12:09:19
李在明也沒想到,訪華僅3天,59歲妻子竟憑一個(gè)舉動(dòng)給他長臉了

李在明也沒想到,訪華僅3天,59歲妻子竟憑一個(gè)舉動(dòng)給他長臉了

丁丁鯉史紀(jì)
2026-01-07 11:35:05
2026-01-09 12:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12082文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

17.68萬起售!何小鵬一口氣發(fā)了4款車

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

體育要聞

世乒賽銀牌得主,說自己夢(mèng)里都是孫穎莎

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

上汽大眾首款“9系旗艦” ID. ERA 9X實(shí)車曝光

態(tài)度原創(chuàng)

手機(jī)
游戲
數(shù)碼
教育
公開課

手機(jī)要聞

魅族2026魅友新春會(huì)明天舉行:將推出魅族22系列神秘產(chǎn)品

國產(chǎn)《仙劍世界》新角色引爭議!抄襲鳴潮?這也太像了

數(shù)碼要聞

普通眼鏡秒變AI眼鏡:歌爾CES 2026展示外掛配件Rox-Vision

教育要聞

同一App差評(píng)好評(píng)吵翻!學(xué)生喊下架,家長卻瘋狂囤攻略

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版