網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓AI研究助手無(wú)處遁形的嚴(yán)苛測(cè)試場(chǎng)

2026-04-26 19:05:13　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由南京大學(xué)、M-A-P、九天研究、新加坡國(guó)立大學(xué)及南京理工大學(xué)聯(lián)合開展的研究，于2026年4月以預(yù)印本形式發(fā)布（arXiv編號(hào)：2604.14683），提出了一套名為DR3-Eval的評(píng)測(cè)基準(zhǔn)，專門針對(duì)當(dāng)前飛速發(fā)展的深度研究智能體（Deep Research Agent，簡(jiǎn)稱DRA）展開系統(tǒng)性評(píng)估。對(duì)于這項(xiàng)工作的代碼和數(shù)據(jù)，團(tuán)隊(duì)已通過(guò)GitHub開放共享，感興趣的讀者可檢索NJU-LINK/DR3-Eval獲取完整資料。

當(dāng)你把一堆PDF報(bào)告、圖片甚至視頻丟給一個(gè)AI助手，讓它幫你做綜合分析并寫出一份有理有據(jù)的研究報(bào)告時(shí)，你怎么知道它說(shuō)的是不是真話？它有沒(méi)有偷懶？有沒(méi)有編造數(shù)據(jù)？有沒(méi)有被無(wú)關(guān)信息帶偏？這恰恰是DR3-Eval這套評(píng)測(cè)體系要解決的核心問(wèn)題。在AI研究助手技術(shù)突飛猛進(jìn)的今天，如何公正、可復(fù)現(xiàn)地檢驗(yàn)它們的真實(shí)能力，成了一個(gè)遠(yuǎn)比"做出好用的AI"更棘手的挑戰(zhàn)。

一、深度研究助手：一種全新的AI選手

不同于以往那種"你問(wèn)我答"的普通AI問(wèn)答系統(tǒng)，深度研究助手（DRA）的定位更像是一位真正的研究員助理。它不只是回答"XXX是什么"，而是能主動(dòng)拆解任務(wù)、設(shè)計(jì)搜索路徑、從海量噪音信息中找到關(guān)鍵證據(jù)、綜合來(lái)自不同來(lái)源的材料，最后寫出一份帶有參考文獻(xiàn)和深度分析的正式報(bào)告。

這類系統(tǒng)近年來(lái)發(fā)展極為迅猛。從商業(yè)巨頭推出的閉源產(chǎn)品（如OpenAI的Deep Research、Google的Gemini Deep Research），到各大學(xué)術(shù)團(tuán)隊(duì)開發(fā)的開源框架（如ByteDance的DeerFlow、通義實(shí)驗(yàn)室的Qwen-DeepResearch），它們的能力邊界正在快速擴(kuò)張。然而，能力越強(qiáng)，評(píng)估就越難。

評(píng)估一個(gè)只會(huì)做選擇題的AI，用標(biāo)準(zhǔn)答案對(duì)比即可。但評(píng)估一個(gè)能寫出上萬(wàn)字綜合報(bào)告的AI，問(wèn)題就復(fù)雜得多。報(bào)告的內(nèi)容對(duì)不對(duì)？來(lái)源引用得準(zhǔn)不準(zhǔn)？有沒(méi)有憑空捏造數(shù)據(jù)？有沒(méi)有漏掉關(guān)鍵信息？這些問(wèn)題都需要一套精心設(shè)計(jì)的評(píng)測(cè)體系才能回答，而現(xiàn)有的工具恰恰在這方面存在嚴(yán)重不足。

二、現(xiàn)有評(píng)測(cè)工具的三大硬傷

在DR3-Eval之前，學(xué)界已有一些嘗試。DeepResearch Bench讓AI直接上網(wǎng)搜索然后寫報(bào)告，雖然貼近真實(shí)使用場(chǎng)景，但它的致命弱點(diǎn)是無(wú)法復(fù)現(xiàn)：今天搜到的信息和明天搜到的可能完全不同，兩次測(cè)試結(jié)果之間缺乏可比性，就像讓兩個(gè)廚師做同一道菜卻用不同食材，怎么評(píng)分都說(shuō)不清楚。DRBench走的是企業(yè)場(chǎng)景路線，會(huì)提供一些文本文檔作為輸入素材，但它依然需要聯(lián)網(wǎng)搜索，且文件格式單一，完全沒(méi)有圖片、視頻這類多媒體內(nèi)容。DeepResearchGym采用了固定本地?cái)?shù)據(jù)庫(kù)的方式，復(fù)現(xiàn)性大幅改善，但數(shù)據(jù)庫(kù)是統(tǒng)一的、固定的，所有任務(wù)共享同一個(gè)知識(shí)池，缺乏針對(duì)每個(gè)具體任務(wù)量身定制的信息環(huán)境，且同樣沒(méi)有多媒體文件的支持。

歸納起來(lái)，現(xiàn)有工具的缺陷集中在三個(gè)方面：其一，真實(shí)多媒體材料的缺失——現(xiàn)實(shí)中的用戶往往會(huì)提供圖片、視頻、音頻或表格文件，而非只有文字，評(píng)測(cè)工具卻普遍忽視這一點(diǎn)；其二，可復(fù)現(xiàn)性與真實(shí)性難以兼得——要么貼近真實(shí)但無(wú)法復(fù)現(xiàn)，要么可復(fù)現(xiàn)卻脫離真實(shí)；其三，對(duì)"噪音"和"干擾信息"的處理缺失——真實(shí)的網(wǎng)絡(luò)上充滿了過(guò)時(shí)的、片面的、甚至刻意誤導(dǎo)的信息，而大多數(shù)評(píng)測(cè)環(huán)境中的信息都是干凈的，無(wú)法檢驗(yàn)AI在"信息戰(zhàn)場(chǎng)"中的實(shí)際表現(xiàn)。

三、DR3-Eval的解題思路：搭一個(gè)仿真演練場(chǎng)

DR3-Eval的核心設(shè)計(jì)哲學(xué)可以用一句話概括：用真實(shí)材料出題，在受控沙箱里考試，用多維度指標(biāo)打分。

研究團(tuán)隊(duì)首先招募了一批付費(fèi)志愿者，主要是來(lái)自不同學(xué)科的本科生和研究生，請(qǐng)他們提供自己在日常學(xué)習(xí)或工作中真實(shí)接觸過(guò)的文件材料，例如行業(yè)報(bào)告、研究圖表、講解視頻或數(shù)據(jù)表格。這些材料涵蓋技術(shù)、經(jīng)濟(jì)、人文三大領(lǐng)域，細(xì)分為13個(gè)子領(lǐng)域，包括計(jì)算機(jī)科學(xué)、醫(yī)療健康、金融、教育、農(nóng)業(yè)、政策等。最終收集到100套材料，英文和中文各50套。所有材料在納入評(píng)測(cè)集之前，都經(jīng)過(guò)了嚴(yán)格的兩階段脫敏處理：先由自動(dòng)化腳本識(shí)別并刪除個(gè)人隱私信息，再由獨(dú)立標(biāo)注人員進(jìn)行人工復(fù)核，確保沒(méi)有任何個(gè)人、商業(yè)或?qū)Ｓ行畔埩簟?/p>

在材料構(gòu)成上，文檔類文件占45.98%，圖片類占27.68%，視頻類占13.84%，此外還有音頻、數(shù)據(jù)表格和HTML網(wǎng)頁(yè)等格式。其中68%的任務(wù)涉及多種模態(tài)混合輸入，PDF文件平均長(zhǎng)度達(dá)11.21頁(yè)，Excel表格平均包含215行數(shù)據(jù)，視頻平均時(shí)長(zhǎng)3分27秒。每個(gè)任務(wù)平均包含2.24個(gè)用戶文件，最多的任務(wù)涉及6個(gè)文件，充分模擬了真實(shí)研究場(chǎng)景中材料紛繁的狀態(tài)。

四、從真實(shí)材料到考題：逆向出題法

出題方式是DR3-Eval的一個(gè)關(guān)鍵創(chuàng)新點(diǎn)，研究團(tuán)隊(duì)稱之為"逆向構(gòu)建法"。通常的做法是先想好問(wèn)題，再去找答案；而DR3-Eval反過(guò)來(lái)，先確定哪些證據(jù)文檔能支撐一個(gè)完整的答案，再反推出這個(gè)問(wèn)題應(yīng)該是什么樣的，從而保證每道題都有明確的、可驗(yàn)證的正確路徑，不會(huì)出現(xiàn)"問(wèn)題太開放導(dǎo)致無(wú)法判斷答案是否正確"的困境。

具體來(lái)說(shuō)，出題過(guò)程分為五個(gè)環(huán)節(jié)。第一步是梳理真實(shí)需求，也就是前面提到的從志愿者那里收集真實(shí)材料。第二步是提煉搜索路徑，利用Gemini 2.5 Pro對(duì)每套材料進(jìn)行分析，通過(guò)"發(fā)散-收斂"兩階段生成搜索關(guān)鍵詞：先進(jìn)行頭腦風(fēng)暴，產(chǎn)出10個(gè)覆蓋不同角度的候選關(guān)鍵詞，再將這些詞分為"信號(hào)詞"（指向正確答案路徑的關(guān)鍵詞）和"噪音詞"（主題相關(guān)但會(huì)引向錯(cuò)誤信息的干擾詞）。這個(gè)設(shè)計(jì)靈感來(lái)自設(shè)計(jì)學(xué)中的"雙鉆石模型"，目的是將評(píng)測(cè)難度從"能不能找到信息"提升到"能不能制定正確的搜索策略"。第三步是構(gòu)建沙箱語(yǔ)料庫(kù)，用前一步產(chǎn)出的關(guān)鍵詞分別檢索網(wǎng)絡(luò)，每個(gè)關(guān)鍵詞最多抓取100個(gè)網(wǎng)頁(yè)，去重后統(tǒng)一進(jìn)行清洗，剔除錯(cuò)誤頁(yè)面和廣告導(dǎo)航等模板內(nèi)容。這些網(wǎng)頁(yè)被分為三類：支持文檔（來(lái)自信號(hào)詞搜索結(jié)果、內(nèi)容經(jīng)過(guò)人工核實(shí)確認(rèn)能為任務(wù)提供充分證據(jù)）、干擾文檔（同樣來(lái)自信號(hào)詞，但內(nèi)容過(guò)時(shí)、片面或不準(zhǔn)確）以及噪音文檔（來(lái)自噪音詞，主題相關(guān)但對(duì)回答問(wèn)題毫無(wú)幫助）。每個(gè)任務(wù)都擁有一個(gè)獨(dú)立的、專屬的沙箱，不與其他任務(wù)共享，徹底避免信息干擾。第四步是生成問(wèn)題，在已知證據(jù)材料的前提下，反向合成出一個(gè)自然的用戶提問(wèn)，這個(gè)提問(wèn)必須同時(shí)需要用戶文件和特定網(wǎng)絡(luò)證據(jù)才能回答，不能單靠公開搜索或只靠文件自身解決。第五步是質(zhì)量控制，每道候選題目必須通過(guò)四個(gè)維度的驗(yàn)證：?jiǎn)栴}不能直接泄露搜索關(guān)鍵詞；答案必須嚴(yán)格依賴用戶文件與網(wǎng)絡(luò)證據(jù)的結(jié)合，不能單獨(dú)靠其中一個(gè)；答案的核心事實(shí)不能直接在公開搜索引擎中一步找到；問(wèn)題的解讀必須唯一，不能存在歧義。從最初征集到的280道候選題目中，105道因答案路徑不唯一或無(wú)法在沙箱內(nèi)找到完整解答而被淘汰，另有75道因難度不足被篩除，最終保留100道，通過(guò)率僅35.7%，體現(xiàn)了極高的質(zhì)量門檻。

五、信息沙箱的難度旋鈕：從32k到512k

為了模擬不同難度的信息檢索環(huán)境，研究團(tuán)隊(duì)為同一組任務(wù)設(shè)計(jì)了五種規(guī)模的沙箱語(yǔ)料庫(kù)，以文本Token數(shù)量衡量，分別為32k、64k、128k、256k和512k。無(wú)論哪種規(guī)模，支持文檔的數(shù)量始終保持完整，確保正確答案可以被找到；隨著規(guī)模擴(kuò)大，干擾文檔和噪音文檔的數(shù)量按比例增加，模擬信息密度越來(lái)越高的真實(shí)網(wǎng)絡(luò)環(huán)境。在512k規(guī)模的配置下，每個(gè)任務(wù)的沙箱平均包含465.5個(gè)網(wǎng)頁(yè)，相當(dāng)于一個(gè)微型"專項(xiàng)百科全書"，但絕大多數(shù)內(nèi)容都是與任務(wù)無(wú)直接關(guān)聯(lián)的雜音。這個(gè)設(shè)計(jì)就像在一個(gè)越來(lái)越大的圖書館里找一本特定的書——書一直在那里，但隨著書架越來(lái)越多，找到它的難度也越來(lái)越高。

六、五維打分卡：從找信息到寫報(bào)告的全程追蹤

DR3-Eval的評(píng)測(cè)框架由五個(gè)互補(bǔ)的維度構(gòu)成，分為兩大類別。

第一類是信息搜集能力，包含兩個(gè)指標(biāo)。信息召回率（IR）衡量生成報(bào)告對(duì)關(guān)鍵信息的覆蓋程度，分為兩個(gè)子指標(biāo)：對(duì)用戶文件中關(guān)鍵信息的覆蓋（IRUF）和對(duì)沙箱網(wǎng)絡(luò)證據(jù)中關(guān)鍵信息的覆蓋（IRSC）。評(píng)測(cè)方式是先用Gemini 2.5 Flash從用戶文件和沙箱文檔中提取出"黃金洞見"清單，再由評(píng)判模型逐條檢查報(bào)告是否涵蓋了這些洞見，每條洞見的覆蓋情況被評(píng)為完全覆蓋（得1分）、部分覆蓋（得0.5分）或未覆蓋（得0分），最終IR取完全覆蓋條目的比例。引用覆蓋率（CC）檢驗(yàn)報(bào)告是否實(shí)際引用了完成任務(wù)所必須依賴的文件，包括用戶提供的文件和沙箱中的支持文檔。這個(gè)指標(biāo)的邏輯是：如果AI沒(méi)有引用某份關(guān)鍵文件，很可能它根本沒(méi)有"讀到"這份材料，而是憑借自身知識(shí)瞎猜的。

第二類是報(bào)告生成質(zhì)量，包含三個(gè)指標(biāo)。事實(shí)準(zhǔn)確率（FA）檢驗(yàn)報(bào)告中所有具體主張的正確性，評(píng)測(cè)方式是從報(bào)告中提取所有"主張-來(lái)源"配對(duì)，逐一核查主張是否真的能從對(duì)應(yīng)來(lái)源中得到支撐，對(duì)于涉及視頻或音頻內(nèi)容的主張，使用Gemini 2.5 Pro進(jìn)行驗(yàn)證。指令遵循度（IF）檢驗(yàn)報(bào)告是否滿足了用戶問(wèn)題中的所有要求，評(píng)判模型會(huì)根據(jù)用戶問(wèn)題生成一份詳細(xì)的檢查清單，再逐條核查報(bào)告是否達(dá)標(biāo)。深度質(zhì)量（DQ）則由評(píng)判模型扮演專家評(píng)審的角色，綜合判斷報(bào)告的分析深度和邏輯嚴(yán)謹(jǐn)性，滿分為10分。上述四個(gè)需要語(yǔ)義理解的指標(biāo)均使用GPT-5.1作為評(píng)判模型，評(píng)判模型溫度設(shè)為0以確保穩(wěn)定性。

七、DR3-Agent：與評(píng)測(cè)配套的多智能體研究系統(tǒng)

為了演示這套評(píng)測(cè)體系的使用方式，研究團(tuán)隊(duì)同步開發(fā)了一個(gè)配套的多智能體研究系統(tǒng)，命名為DR3-Agent。這套系統(tǒng)基于MiroFlow框架構(gòu)建，專門適配DR3-Eval的封閉沙箱環(huán)境和多媒體文件處理需求。

DR3-Agent的架構(gòu)分為主智能體和子智能體兩層。主智能體負(fù)責(zé)全局推理，采用"計(jì)劃-行動(dòng)-觀察"循環(huán)持續(xù)推進(jìn)任務(wù)，并直接集成了圖像、視頻和音頻的感知能力，使得處理多媒體文件成為系統(tǒng)內(nèi)置功能而非外掛插件，這樣AI就能將視頻內(nèi)容真正納入全局思考，而不僅僅是提取出幾段文字再扔給主模型。子智能體分為兩類：一是RAG搜索子智能體，負(fù)責(zé)與沙箱語(yǔ)料庫(kù)交互，采用基于text-embedding-3-small的密集向量檢索，并以ReAct范式進(jìn)行多輪迭代查詢——與傳統(tǒng)的單次Top-K檢索不同，這個(gè)子智能體會(huì)根據(jù)每輪檢索結(jié)果不斷調(diào)整查詢策略，整個(gè)過(guò)程類似于人類研究員在搜索時(shí)不斷根據(jù)已有線索調(diào)整關(guān)鍵詞的行為；二是文件閱讀子智能體，專門處理長(zhǎng)文檔的逐頁(yè)精讀任務(wù)，支持關(guān)鍵詞定位和頁(yè)碼檢索。兩類子智能體都不共享主智能體的全局上下文，只向主智能體返回高度壓縮的摘要，以避免信息爆炸導(dǎo)致主智能體迷失在細(xì)節(jié)中。

八、誰(shuí)表現(xiàn)最好？實(shí)驗(yàn)結(jié)果的深層解讀

研究團(tuán)隊(duì)用DR3-Agent框架驅(qū)動(dòng)了八款主流大模型，分別是GPT-4.1、Claude Sonnet 4、Gemini 2.5 Pro、Qwen3-235B-A22B、Qwen3-30B-A3B、Qwen3-32B、GLM-4.6和GLM-4.7，在64k、128k、512k三種沙箱規(guī)模下進(jìn)行了全面測(cè)評(píng)。

Claude Sonnet 4在綜合表現(xiàn)上拿到了最高分，在512k沙箱下的總分仍維持在65.6分（滿分100分）。GLM-4.7緊隨其后，在64k設(shè)置下達(dá)到69.8分。這些數(shù)字看起來(lái)并不算高，事實(shí)上這正是研究團(tuán)隊(duì)希望傳達(dá)的信號(hào)：DR3-Eval的確非常難，即便是當(dāng)今最強(qiáng)的大模型也遠(yuǎn)未能穩(wěn)定地完成這類綜合研究任務(wù)。

規(guī)模擴(kuò)大帶來(lái)的性能下滑是最普遍的規(guī)律。從64k到512k，幾乎所有模型的總分都出現(xiàn)了明顯下降。以Claude Sonnet 4為例，總分從70.7降至65.6，IRSC（沙箱信息召回率）從55.3降至41.8，引用覆蓋率從64.7降至48.5。這說(shuō)明當(dāng)噪音信息越來(lái)越多時(shí)，模型不僅更難找到關(guān)鍵證據(jù)，也更難辨別哪些文檔是真正需要引用的。

一個(gè)特別值得關(guān)注的發(fā)現(xiàn)是：指令遵循能力強(qiáng)的模型，不一定事實(shí)準(zhǔn)確率高。Qwen3-235B-A22B和GPT-4.1在IF（指令遵循）上表現(xiàn)不錯(cuò)，但FA（事實(shí)準(zhǔn)確率）卻相當(dāng)?shù)?。用更直白的話說(shuō)，這些模型很擅長(zhǎng)寫出"看起來(lái)完整、結(jié)構(gòu)漂亮"的報(bào)告，但報(bào)告里填的內(nèi)容卻可能是編出來(lái)的。這種"表面功夫做得好、內(nèi)里漏洞大"的現(xiàn)象，正是當(dāng)前大模型在長(zhǎng)文本研究任務(wù)中最值得警惕的失效模式。

在領(lǐng)域表現(xiàn)上，農(nóng)業(yè)（Agriculture）子領(lǐng)域普遍分?jǐn)?shù)較高，多個(gè)模型在這個(gè)領(lǐng)域拿到了80分以上，而工業(yè)（Industry）、金融（Finance）等領(lǐng)域的分?jǐn)?shù)則偏低。不同模型在不同領(lǐng)域各有強(qiáng)項(xiàng)，例如GLM-4.7在工業(yè)類任務(wù)上表現(xiàn)最好，而Claude Sonnet 4在物理類任務(wù)上領(lǐng)先，說(shuō)明不同模型的知識(shí)側(cè)重點(diǎn)和推理能力存在結(jié)構(gòu)性差異。

九、沙箱是否能代替真實(shí)網(wǎng)絡(luò)？交叉驗(yàn)證給出答案

為了驗(yàn)證沙箱語(yǔ)料庫(kù)能否真實(shí)反映在線搜索的信息獲取難度，研究團(tuán)隊(duì)專門用Qwen3-235B-A22B和Gemini 2.5 Pro在英文子集上進(jìn)行了"真實(shí)聯(lián)網(wǎng)搜索"對(duì)比實(shí)驗(yàn)。結(jié)果顯示，兩種條件下的綜合得分非常接近：Qwen3-235B-A22B在沙箱下得48.3分，真實(shí)聯(lián)網(wǎng)下得48.0分；Gemini 2.5 Pro在沙箱下得57.1分，聯(lián)網(wǎng)下得57.8分。引用覆蓋率（CC）在兩種條件下的一致性尤為突出，表明模型在真實(shí)聯(lián)網(wǎng)搜索中最終依賴的核心證據(jù)，與沙箱中預(yù)設(shè)的支持文檔高度重合。這組數(shù)據(jù)有力地證明了沙箱能夠作為真實(shí)網(wǎng)絡(luò)搜索的可靠替代品，而不是一個(gè)被人為簡(jiǎn)化的"假場(chǎng)景"。

十、打分機(jī)器靠不靠譜？與人類評(píng)審的對(duì)齊驗(yàn)證

由于DR3-Eval的多個(gè)核心指標(biāo)需要由大模型擔(dān)任評(píng)判角色，其可靠性自然會(huì)受到質(zhì)疑。為此，研究團(tuán)隊(duì)隨機(jī)抽取了50份報(bào)告，邀請(qǐng)四位領(lǐng)域?qū)＜疫M(jìn)行獨(dú)立人工評(píng)分，然后與自動(dòng)化評(píng)分進(jìn)行比對(duì)。結(jié)果顯示，自動(dòng)評(píng)分與人工評(píng)分的皮爾遜相關(guān)系數(shù)（r）為0.78，斯皮爾曼相關(guān)系數(shù)（ρ）為0.73，逐對(duì)一致率達(dá)到0.89，而四位人類專家之間的互相一致率分別是r=0.83、ρ=0.76、一致率0.91——機(jī)器的表現(xiàn)與人類專家之間的分歧程度相當(dāng)，說(shuō)明自動(dòng)評(píng)分并非不靠譜的替代品，而是一個(gè)與人類判斷高度一致的工具。

此外，研究團(tuán)隊(duì)還驗(yàn)證了自動(dòng)提取事實(shí)聲明的準(zhǔn)確性，發(fā)現(xiàn)與人工標(biāo)注相比，精確率達(dá)到0.924，召回率達(dá)到0.960，進(jìn)一步佐證了評(píng)測(cè)流程的可靠性。在評(píng)判模型的選擇上，研究團(tuán)隊(duì)將Claude Sonnet 4、Gemini 2.5 Pro和Qwen-Max作為GPT-5.1的替代者重新對(duì)六個(gè)模型進(jìn)行排名，發(fā)現(xiàn)排名結(jié)果幾乎一致，平均斯皮爾曼相關(guān)系數(shù)達(dá)到0.924，說(shuō)明評(píng)測(cè)結(jié)論的穩(wěn)定性不依賴于特定評(píng)判模型的選擇。

十一、干擾文檔真的有用嗎？沙箱成分實(shí)驗(yàn)

為了確認(rèn)三類沙箱文檔（支持文檔、干擾文檔、噪音文檔）各自的設(shè)計(jì)有其必要性，研究團(tuán)隊(duì)在20個(gè)任務(wù)子集上進(jìn)行了消融實(shí)驗(yàn)。

移除干擾文檔后，所有模型的得分都顯著提升。這證明干擾文檔確實(shí)有效地增加了任務(wù)難度，而不是擺設(shè)。更有趣的是，當(dāng)沙箱中只保留噪音文檔而去掉支持文檔時(shí)，模型的表現(xiàn)與完全沒(méi)有沙箱的情況幾乎一樣差。這個(gè)發(fā)現(xiàn)證明了沙箱的設(shè)計(jì)干凈純粹——除了被精心標(biāo)注的支持文檔，沙箱中沒(méi)有其他任何"意外有用"的信息可以被模型僥幸利用，評(píng)測(cè)結(jié)果完全取決于模型能否找到那些正確的支持文檔。當(dāng)只保留支持文檔、去掉一切干擾時(shí)，模型表現(xiàn)大幅提升，這也為各模型在"理想信息環(huán)境"下能達(dá)到的上限提供了參考基準(zhǔn)。

十二、多迭代檢索：次數(shù)越多越好，但過(guò)猶不及

研究團(tuán)隊(duì)對(duì)DR3-Agent中RAG子智能體的最大迭代輪數(shù)進(jìn)行了系統(tǒng)性測(cè)試，分別在1輪、3輪、5輪和7輪四種設(shè)置下觀察性能變化。結(jié)果顯示，隨著允許的迭代輪數(shù)增加，信息召回率和引用覆蓋率總體呈上升趨勢(shì)，但并不是越多越好——在某個(gè)臨界點(diǎn)之后，繼續(xù)增加輪數(shù)反而會(huì)導(dǎo)致輕微的性能下降。這與人類做研究時(shí)的經(jīng)驗(yàn)頗為相似：適當(dāng)?shù)胤磸?fù)搜索和精化查詢能找到更好的答案，但如果陷入無(wú)休止的搜索循環(huán)，反而容易迷失方向。

十三、誰(shuí)是最佳"記憶搜索引擎"？檢索器對(duì)比實(shí)驗(yàn)

研究團(tuán)隊(duì)對(duì)三種檢索方式進(jìn)行了對(duì)比：OpenAI的text-embedding-3-small、阿里的Qwen-text-embedding-v2，以及傳統(tǒng)的關(guān)鍵詞匹配方法BM25。在128k規(guī)模的沙箱上測(cè)試引用覆蓋率（CC），text-embedding-3-small表現(xiàn)最佳（GLM-4.7搭配時(shí)CC=56.58），Qwen-text-embedding-v2略低（GLM-4.7搭配時(shí)CC=53.61），而傳統(tǒng)BM25方法則差距明顯（GLM-4.7搭配時(shí)CC=50.71）。這個(gè)結(jié)果表明，在復(fù)雜的多文檔檢索場(chǎng)景中，基于語(yǔ)義理解的向量檢索方法顯著優(yōu)于僅依賴字面關(guān)鍵詞匹配的傳統(tǒng)方式。

十四、失敗在哪里？錯(cuò)誤歸因分析

研究團(tuán)隊(duì)對(duì)五款模型各100份報(bào)告進(jìn)行了逐一錯(cuò)誤歸因分析，將錯(cuò)誤來(lái)源劃分為三類：檢索失敗（關(guān)鍵信息根本沒(méi)找到）、推理失敗（信息找到了但在整合和邏輯推斷時(shí)出錯(cuò)）以及幻覺(jué)（內(nèi)容不來(lái)自任何提供的材料，而是模型"憑空想象"出來(lái)的）。

幻覺(jué)是所有模型最普遍的失敗原因，占比從48%到77%不等，說(shuō)明即便是當(dāng)前最強(qiáng)大的模型，在長(zhǎng)篇研究報(bào)告任務(wù)中仍然難以穩(wěn)定地"只說(shuō)材料里有的內(nèi)容"。檢索失敗和推理失敗的比例因模型而異，有些模型傾向于在信息搜集階段就掉鏈子，另一些則能找到信息卻在整合時(shí)犯錯(cuò)。這一分析揭示了當(dāng)前模型的核心瓶頸：并非不會(huì)找證據(jù)，而是在寫報(bào)告時(shí)難以始終"忠于證據(jù)"。

說(shuō)到底，DR3-Eval做的事情，就是給今天這些越來(lái)越能干的AI研究助手設(shè)置了一個(gè)真正嚴(yán)格的考場(chǎng)。這個(gè)考場(chǎng)的題目來(lái)自真實(shí)用戶的真實(shí)材料，檢索環(huán)境模擬真實(shí)網(wǎng)絡(luò)的混亂與噪音，打分標(biāo)準(zhǔn)覆蓋從找證據(jù)到寫報(bào)告的全流程，每一環(huán)都力求公平、可復(fù)現(xiàn)、可量化。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)不容樂(lè)觀但頗具價(jià)值的現(xiàn)實(shí)：當(dāng)前最強(qiáng)的大模型在這套評(píng)測(cè)下的綜合得分普遍在50到70分之間，遠(yuǎn)未達(dá)到可以放心托付真實(shí)研究任務(wù)的水準(zhǔn)。幻覺(jué)問(wèn)題依然頑固，在噪音信息面前的檢索穩(wěn)健性仍有較大改進(jìn)空間，而"報(bào)告寫得漂亮"與"內(nèi)容是否準(zhǔn)確可靠"之間的落差，更是提醒了所有使用AI研究助手的人：千萬(wàn)不能只看表面光鮮。

這項(xiàng)工作的意義不僅在于指出問(wèn)題，更在于提供了一套可以被整個(gè)領(lǐng)域復(fù)用的評(píng)測(cè)工具。隨著代碼和數(shù)據(jù)的公開，任何研究團(tuán)隊(duì)都可以在相同的標(biāo)準(zhǔn)下檢驗(yàn)自己的系統(tǒng)，比較結(jié)果不再是"各說(shuō)各話"，而是有了一把共同的尺子。對(duì)于普通用戶而言，這套研究也提供了一個(gè)實(shí)用的警示：當(dāng)AI給你生成一份看起來(lái)?xiàng)l理清晰、有理有據(jù)的研究報(bào)告時(shí)，它很可能已經(jīng)在某些地方偷偷"補(bǔ)充"了一些它自己編的內(nèi)容，而你完全無(wú)從察覺(jué)——至少在今天還是如此。

Q&A

Q1：DR3-Eval評(píng)測(cè)基準(zhǔn)和以往的深度研究評(píng)測(cè)工具有什么區(qū)別？

A：DR3-Eval最核心的不同點(diǎn)在于三個(gè)方面：它采用真實(shí)用戶提供的多媒體材料（圖片、視頻、音頻、文檔）作為輸入，而非純文字；它為每個(gè)任務(wù)單獨(dú)構(gòu)建一個(gè)靜態(tài)沙箱語(yǔ)料庫(kù)，既保證可復(fù)現(xiàn)性又模擬真實(shí)網(wǎng)絡(luò)的復(fù)雜噪音；它采用逆向出題法，從已知證據(jù)反推問(wèn)題，確保每道題都有明確可驗(yàn)證的答案路徑。這三點(diǎn)組合在一起，是此前評(píng)測(cè)工具都沒(méi)有同時(shí)做到的。

Q2：DR3-Eval發(fā)現(xiàn)當(dāng)前AI研究助手最主要的缺陷是什么？

A：實(shí)驗(yàn)發(fā)現(xiàn)，幻覺(jué)（即AI憑空捏造不來(lái)自任何提供材料的內(nèi)容）是當(dāng)前幾乎所有模型的最主要失敗原因，占所有錯(cuò)誤的比例從48%到77%不等。此外，當(dāng)沙箱語(yǔ)料庫(kù)規(guī)模增大、噪音文檔增多時(shí)，模型的信息檢索準(zhǔn)確性和引用覆蓋率都會(huì)顯著下降，說(shuō)明在復(fù)雜信息環(huán)境中保持檢索穩(wěn)健性是另一大薄弱環(huán)節(jié)。

Q3：DR3-Eval的沙箱環(huán)境中的文檔分成哪幾類，為什么要這樣劃分？

A：沙箱中的文檔分為三類：支持文檔（內(nèi)容經(jīng)人工核實(shí)可以為任務(wù)提供充分且必要證據(jù)）、干擾文檔（來(lái)自正確搜索關(guān)鍵詞但內(nèi)容過(guò)時(shí)、片面或不準(zhǔn)確）和噪音文檔（主題相關(guān)但對(duì)回答問(wèn)題無(wú)實(shí)質(zhì)幫助）。這種劃分是為了區(qū)分兩種不同來(lái)源的檢索難度——真正的挑戰(zhàn)不只是濾掉完全無(wú)關(guān)的噪音，更在于辨別表面相關(guān)卻實(shí)際有誤的干擾信息，這也是現(xiàn)實(shí)中研究工作面臨的主要困難。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.