国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓AI研究助手無(wú)處遁形的嚴(yán)苛測(cè)試場(chǎng)

0
分享至


這項(xiàng)由南京大學(xué)、M-A-P、九天研究、新加坡國(guó)立大學(xué)及南京理工大學(xué)聯(lián)合開展的研究,于2026年4月以預(yù)印本形式發(fā)布(arXiv編號(hào):2604.14683),提出了一套名為DR3-Eval的評(píng)測(cè)基準(zhǔn),專門針對(duì)當(dāng)前飛速發(fā)展的深度研究智能體(Deep Research Agent,簡(jiǎn)稱DRA)展開系統(tǒng)性評(píng)估。對(duì)于這項(xiàng)工作的代碼和數(shù)據(jù),團(tuán)隊(duì)已通過(guò)GitHub開放共享,感興趣的讀者可檢索NJU-LINK/DR3-Eval獲取完整資料。

當(dāng)你把一堆PDF報(bào)告、圖片甚至視頻丟給一個(gè)AI助手,讓它幫你做綜合分析并寫出一份有理有據(jù)的研究報(bào)告時(shí),你怎么知道它說(shuō)的是不是真話?它有沒(méi)有偷懶?有沒(méi)有編造數(shù)據(jù)?有沒(méi)有被無(wú)關(guān)信息帶偏?這恰恰是DR3-Eval這套評(píng)測(cè)體系要解決的核心問(wèn)題。在AI研究助手技術(shù)突飛猛進(jìn)的今天,如何公正、可復(fù)現(xiàn)地檢驗(yàn)它們的真實(shí)能力,成了一個(gè)遠(yuǎn)比"做出好用的AI"更棘手的挑戰(zhàn)。

一、深度研究助手:一種全新的AI選手

不同于以往那種"你問(wèn)我答"的普通AI問(wèn)答系統(tǒng),深度研究助手(DRA)的定位更像是一位真正的研究員助理。它不只是回答"XXX是什么",而是能主動(dòng)拆解任務(wù)、設(shè)計(jì)搜索路徑、從海量噪音信息中找到關(guān)鍵證據(jù)、綜合來(lái)自不同來(lái)源的材料,最后寫出一份帶有參考文獻(xiàn)和深度分析的正式報(bào)告。

這類系統(tǒng)近年來(lái)發(fā)展極為迅猛。從商業(yè)巨頭推出的閉源產(chǎn)品(如OpenAI的Deep Research、Google的Gemini Deep Research),到各大學(xué)術(shù)團(tuán)隊(duì)開發(fā)的開源框架(如ByteDance的DeerFlow、通義實(shí)驗(yàn)室的Qwen-DeepResearch),它們的能力邊界正在快速擴(kuò)張。然而,能力越強(qiáng),評(píng)估就越難。

評(píng)估一個(gè)只會(huì)做選擇題的AI,用標(biāo)準(zhǔn)答案對(duì)比即可。但評(píng)估一個(gè)能寫出上萬(wàn)字綜合報(bào)告的AI,問(wèn)題就復(fù)雜得多。報(bào)告的內(nèi)容對(duì)不對(duì)?來(lái)源引用得準(zhǔn)不準(zhǔn)?有沒(méi)有憑空捏造數(shù)據(jù)?有沒(méi)有漏掉關(guān)鍵信息?這些問(wèn)題都需要一套精心設(shè)計(jì)的評(píng)測(cè)體系才能回答,而現(xiàn)有的工具恰恰在這方面存在嚴(yán)重不足。

二、現(xiàn)有評(píng)測(cè)工具的三大硬傷

在DR3-Eval之前,學(xué)界已有一些嘗試。DeepResearch Bench讓AI直接上網(wǎng)搜索然后寫報(bào)告,雖然貼近真實(shí)使用場(chǎng)景,但它的致命弱點(diǎn)是無(wú)法復(fù)現(xiàn):今天搜到的信息和明天搜到的可能完全不同,兩次測(cè)試結(jié)果之間缺乏可比性,就像讓兩個(gè)廚師做同一道菜卻用不同食材,怎么評(píng)分都說(shuō)不清楚。DRBench走的是企業(yè)場(chǎng)景路線,會(huì)提供一些文本文檔作為輸入素材,但它依然需要聯(lián)網(wǎng)搜索,且文件格式單一,完全沒(méi)有圖片、視頻這類多媒體內(nèi)容。DeepResearchGym采用了固定本地?cái)?shù)據(jù)庫(kù)的方式,復(fù)現(xiàn)性大幅改善,但數(shù)據(jù)庫(kù)是統(tǒng)一的、固定的,所有任務(wù)共享同一個(gè)知識(shí)池,缺乏針對(duì)每個(gè)具體任務(wù)量身定制的信息環(huán)境,且同樣沒(méi)有多媒體文件的支持。

歸納起來(lái),現(xiàn)有工具的缺陷集中在三個(gè)方面:其一,真實(shí)多媒體材料的缺失——現(xiàn)實(shí)中的用戶往往會(huì)提供圖片、視頻、音頻或表格文件,而非只有文字,評(píng)測(cè)工具卻普遍忽視這一點(diǎn);其二,可復(fù)現(xiàn)性與真實(shí)性難以兼得——要么貼近真實(shí)但無(wú)法復(fù)現(xiàn),要么可復(fù)現(xiàn)卻脫離真實(shí);其三,對(duì)"噪音"和"干擾信息"的處理缺失——真實(shí)的網(wǎng)絡(luò)上充滿了過(guò)時(shí)的、片面的、甚至刻意誤導(dǎo)的信息,而大多數(shù)評(píng)測(cè)環(huán)境中的信息都是干凈的,無(wú)法檢驗(yàn)AI在"信息戰(zhàn)場(chǎng)"中的實(shí)際表現(xiàn)。

三、DR3-Eval的解題思路:搭一個(gè)仿真演練場(chǎng)

DR3-Eval的核心設(shè)計(jì)哲學(xué)可以用一句話概括:用真實(shí)材料出題,在受控沙箱里考試,用多維度指標(biāo)打分。

研究團(tuán)隊(duì)首先招募了一批付費(fèi)志愿者,主要是來(lái)自不同學(xué)科的本科生和研究生,請(qǐng)他們提供自己在日常學(xué)習(xí)或工作中真實(shí)接觸過(guò)的文件材料,例如行業(yè)報(bào)告、研究圖表、講解視頻或數(shù)據(jù)表格。這些材料涵蓋技術(shù)、經(jīng)濟(jì)、人文三大領(lǐng)域,細(xì)分為13個(gè)子領(lǐng)域,包括計(jì)算機(jī)科學(xué)、醫(yī)療健康、金融、教育、農(nóng)業(yè)、政策等。最終收集到100套材料,英文和中文各50套。所有材料在納入評(píng)測(cè)集之前,都經(jīng)過(guò)了嚴(yán)格的兩階段脫敏處理:先由自動(dòng)化腳本識(shí)別并刪除個(gè)人隱私信息,再由獨(dú)立標(biāo)注人員進(jìn)行人工復(fù)核,確保沒(méi)有任何個(gè)人、商業(yè)或?qū)S行畔埩簟?/p>

在材料構(gòu)成上,文檔類文件占45.98%,圖片類占27.68%,視頻類占13.84%,此外還有音頻、數(shù)據(jù)表格和HTML網(wǎng)頁(yè)等格式。其中68%的任務(wù)涉及多種模態(tài)混合輸入,PDF文件平均長(zhǎng)度達(dá)11.21頁(yè),Excel表格平均包含215行數(shù)據(jù),視頻平均時(shí)長(zhǎng)3分27秒。每個(gè)任務(wù)平均包含2.24個(gè)用戶文件,最多的任務(wù)涉及6個(gè)文件,充分模擬了真實(shí)研究場(chǎng)景中材料紛繁的狀態(tài)。

四、從真實(shí)材料到考題:逆向出題法

出題方式是DR3-Eval的一個(gè)關(guān)鍵創(chuàng)新點(diǎn),研究團(tuán)隊(duì)稱之為"逆向構(gòu)建法"。通常的做法是先想好問(wèn)題,再去找答案;而DR3-Eval反過(guò)來(lái),先確定哪些證據(jù)文檔能支撐一個(gè)完整的答案,再反推出這個(gè)問(wèn)題應(yīng)該是什么樣的,從而保證每道題都有明確的、可驗(yàn)證的正確路徑,不會(huì)出現(xiàn)"問(wèn)題太開放導(dǎo)致無(wú)法判斷答案是否正確"的困境。

具體來(lái)說(shuō),出題過(guò)程分為五個(gè)環(huán)節(jié)。第一步是梳理真實(shí)需求,也就是前面提到的從志愿者那里收集真實(shí)材料。第二步是提煉搜索路徑,利用Gemini 2.5 Pro對(duì)每套材料進(jìn)行分析,通過(guò)"發(fā)散-收斂"兩階段生成搜索關(guān)鍵詞:先進(jìn)行頭腦風(fēng)暴,產(chǎn)出10個(gè)覆蓋不同角度的候選關(guān)鍵詞,再將這些詞分為"信號(hào)詞"(指向正確答案路徑的關(guān)鍵詞)和"噪音詞"(主題相關(guān)但會(huì)引向錯(cuò)誤信息的干擾詞)。這個(gè)設(shè)計(jì)靈感來(lái)自設(shè)計(jì)學(xué)中的"雙鉆石模型",目的是將評(píng)測(cè)難度從"能不能找到信息"提升到"能不能制定正確的搜索策略"。第三步是構(gòu)建沙箱語(yǔ)料庫(kù),用前一步產(chǎn)出的關(guān)鍵詞分別檢索網(wǎng)絡(luò),每個(gè)關(guān)鍵詞最多抓取100個(gè)網(wǎng)頁(yè),去重后統(tǒng)一進(jìn)行清洗,剔除錯(cuò)誤頁(yè)面和廣告導(dǎo)航等模板內(nèi)容。這些網(wǎng)頁(yè)被分為三類:支持文檔(來(lái)自信號(hào)詞搜索結(jié)果、內(nèi)容經(jīng)過(guò)人工核實(shí)確認(rèn)能為任務(wù)提供充分證據(jù))、干擾文檔(同樣來(lái)自信號(hào)詞,但內(nèi)容過(guò)時(shí)、片面或不準(zhǔn)確)以及噪音文檔(來(lái)自噪音詞,主題相關(guān)但對(duì)回答問(wèn)題毫無(wú)幫助)。每個(gè)任務(wù)都擁有一個(gè)獨(dú)立的、專屬的沙箱,不與其他任務(wù)共享,徹底避免信息干擾。第四步是生成問(wèn)題,在已知證據(jù)材料的前提下,反向合成出一個(gè)自然的用戶提問(wèn),這個(gè)提問(wèn)必須同時(shí)需要用戶文件和特定網(wǎng)絡(luò)證據(jù)才能回答,不能單靠公開搜索或只靠文件自身解決。第五步是質(zhì)量控制,每道候選題目必須通過(guò)四個(gè)維度的驗(yàn)證:?jiǎn)栴}不能直接泄露搜索關(guān)鍵詞;答案必須嚴(yán)格依賴用戶文件與網(wǎng)絡(luò)證據(jù)的結(jié)合,不能單獨(dú)靠其中一個(gè);答案的核心事實(shí)不能直接在公開搜索引擎中一步找到;問(wèn)題的解讀必須唯一,不能存在歧義。從最初征集到的280道候選題目中,105道因答案路徑不唯一或無(wú)法在沙箱內(nèi)找到完整解答而被淘汰,另有75道因難度不足被篩除,最終保留100道,通過(guò)率僅35.7%,體現(xiàn)了極高的質(zhì)量門檻。

五、信息沙箱的難度旋鈕:從32k到512k

為了模擬不同難度的信息檢索環(huán)境,研究團(tuán)隊(duì)為同一組任務(wù)設(shè)計(jì)了五種規(guī)模的沙箱語(yǔ)料庫(kù),以文本Token數(shù)量衡量,分別為32k、64k、128k、256k和512k。無(wú)論哪種規(guī)模,支持文檔的數(shù)量始終保持完整,確保正確答案可以被找到;隨著規(guī)模擴(kuò)大,干擾文檔和噪音文檔的數(shù)量按比例增加,模擬信息密度越來(lái)越高的真實(shí)網(wǎng)絡(luò)環(huán)境。在512k規(guī)模的配置下,每個(gè)任務(wù)的沙箱平均包含465.5個(gè)網(wǎng)頁(yè),相當(dāng)于一個(gè)微型"專項(xiàng)百科全書",但絕大多數(shù)內(nèi)容都是與任務(wù)無(wú)直接關(guān)聯(lián)的雜音。這個(gè)設(shè)計(jì)就像在一個(gè)越來(lái)越大的圖書館里找一本特定的書——書一直在那里,但隨著書架越來(lái)越多,找到它的難度也越來(lái)越高。

六、五維打分卡:從找信息到寫報(bào)告的全程追蹤

DR3-Eval的評(píng)測(cè)框架由五個(gè)互補(bǔ)的維度構(gòu)成,分為兩大類別。

第一類是信息搜集能力,包含兩個(gè)指標(biāo)。信息召回率(IR)衡量生成報(bào)告對(duì)關(guān)鍵信息的覆蓋程度,分為兩個(gè)子指標(biāo):對(duì)用戶文件中關(guān)鍵信息的覆蓋(IRUF)和對(duì)沙箱網(wǎng)絡(luò)證據(jù)中關(guān)鍵信息的覆蓋(IRSC)。評(píng)測(cè)方式是先用Gemini 2.5 Flash從用戶文件和沙箱文檔中提取出"黃金洞見"清單,再由評(píng)判模型逐條檢查報(bào)告是否涵蓋了這些洞見,每條洞見的覆蓋情況被評(píng)為完全覆蓋(得1分)、部分覆蓋(得0.5分)或未覆蓋(得0分),最終IR取完全覆蓋條目的比例。引用覆蓋率(CC)檢驗(yàn)報(bào)告是否實(shí)際引用了完成任務(wù)所必須依賴的文件,包括用戶提供的文件和沙箱中的支持文檔。這個(gè)指標(biāo)的邏輯是:如果AI沒(méi)有引用某份關(guān)鍵文件,很可能它根本沒(méi)有"讀到"這份材料,而是憑借自身知識(shí)瞎猜的。

第二類是報(bào)告生成質(zhì)量,包含三個(gè)指標(biāo)。事實(shí)準(zhǔn)確率(FA)檢驗(yàn)報(bào)告中所有具體主張的正確性,評(píng)測(cè)方式是從報(bào)告中提取所有"主張-來(lái)源"配對(duì),逐一核查主張是否真的能從對(duì)應(yīng)來(lái)源中得到支撐,對(duì)于涉及視頻或音頻內(nèi)容的主張,使用Gemini 2.5 Pro進(jìn)行驗(yàn)證。指令遵循度(IF)檢驗(yàn)報(bào)告是否滿足了用戶問(wèn)題中的所有要求,評(píng)判模型會(huì)根據(jù)用戶問(wèn)題生成一份詳細(xì)的檢查清單,再逐條核查報(bào)告是否達(dá)標(biāo)。深度質(zhì)量(DQ)則由評(píng)判模型扮演專家評(píng)審的角色,綜合判斷報(bào)告的分析深度和邏輯嚴(yán)謹(jǐn)性,滿分為10分。上述四個(gè)需要語(yǔ)義理解的指標(biāo)均使用GPT-5.1作為評(píng)判模型,評(píng)判模型溫度設(shè)為0以確保穩(wěn)定性。

七、DR3-Agent:與評(píng)測(cè)配套的多智能體研究系統(tǒng)

為了演示這套評(píng)測(cè)體系的使用方式,研究團(tuán)隊(duì)同步開發(fā)了一個(gè)配套的多智能體研究系統(tǒng),命名為DR3-Agent。這套系統(tǒng)基于MiroFlow框架構(gòu)建,專門適配DR3-Eval的封閉沙箱環(huán)境和多媒體文件處理需求。

DR3-Agent的架構(gòu)分為主智能體和子智能體兩層。主智能體負(fù)責(zé)全局推理,采用"計(jì)劃-行動(dòng)-觀察"循環(huán)持續(xù)推進(jìn)任務(wù),并直接集成了圖像、視頻和音頻的感知能力,使得處理多媒體文件成為系統(tǒng)內(nèi)置功能而非外掛插件,這樣AI就能將視頻內(nèi)容真正納入全局思考,而不僅僅是提取出幾段文字再扔給主模型。子智能體分為兩類:一是RAG搜索子智能體,負(fù)責(zé)與沙箱語(yǔ)料庫(kù)交互,采用基于text-embedding-3-small的密集向量檢索,并以ReAct范式進(jìn)行多輪迭代查詢——與傳統(tǒng)的單次Top-K檢索不同,這個(gè)子智能體會(huì)根據(jù)每輪檢索結(jié)果不斷調(diào)整查詢策略,整個(gè)過(guò)程類似于人類研究員在搜索時(shí)不斷根據(jù)已有線索調(diào)整關(guān)鍵詞的行為;二是文件閱讀子智能體,專門處理長(zhǎng)文檔的逐頁(yè)精讀任務(wù),支持關(guān)鍵詞定位和頁(yè)碼檢索。兩類子智能體都不共享主智能體的全局上下文,只向主智能體返回高度壓縮的摘要,以避免信息爆炸導(dǎo)致主智能體迷失在細(xì)節(jié)中。

八、誰(shuí)表現(xiàn)最好?實(shí)驗(yàn)結(jié)果的深層解讀

研究團(tuán)隊(duì)用DR3-Agent框架驅(qū)動(dòng)了八款主流大模型,分別是GPT-4.1、Claude Sonnet 4、Gemini 2.5 Pro、Qwen3-235B-A22B、Qwen3-30B-A3B、Qwen3-32B、GLM-4.6和GLM-4.7,在64k、128k、512k三種沙箱規(guī)模下進(jìn)行了全面測(cè)評(píng)。

Claude Sonnet 4在綜合表現(xiàn)上拿到了最高分,在512k沙箱下的總分仍維持在65.6分(滿分100分)。GLM-4.7緊隨其后,在64k設(shè)置下達(dá)到69.8分。這些數(shù)字看起來(lái)并不算高,事實(shí)上這正是研究團(tuán)隊(duì)希望傳達(dá)的信號(hào):DR3-Eval的確非常難,即便是當(dāng)今最強(qiáng)的大模型也遠(yuǎn)未能穩(wěn)定地完成這類綜合研究任務(wù)。

規(guī)模擴(kuò)大帶來(lái)的性能下滑是最普遍的規(guī)律。從64k到512k,幾乎所有模型的總分都出現(xiàn)了明顯下降。以Claude Sonnet 4為例,總分從70.7降至65.6,IRSC(沙箱信息召回率)從55.3降至41.8,引用覆蓋率從64.7降至48.5。這說(shuō)明當(dāng)噪音信息越來(lái)越多時(shí),模型不僅更難找到關(guān)鍵證據(jù),也更難辨別哪些文檔是真正需要引用的。

一個(gè)特別值得關(guān)注的發(fā)現(xiàn)是:指令遵循能力強(qiáng)的模型,不一定事實(shí)準(zhǔn)確率高。Qwen3-235B-A22B和GPT-4.1在IF(指令遵循)上表現(xiàn)不錯(cuò),但FA(事實(shí)準(zhǔn)確率)卻相當(dāng)?shù)?。用更直白的話說(shuō),這些模型很擅長(zhǎng)寫出"看起來(lái)完整、結(jié)構(gòu)漂亮"的報(bào)告,但報(bào)告里填的內(nèi)容卻可能是編出來(lái)的。這種"表面功夫做得好、內(nèi)里漏洞大"的現(xiàn)象,正是當(dāng)前大模型在長(zhǎng)文本研究任務(wù)中最值得警惕的失效模式。

在領(lǐng)域表現(xiàn)上,農(nóng)業(yè)(Agriculture)子領(lǐng)域普遍分?jǐn)?shù)較高,多個(gè)模型在這個(gè)領(lǐng)域拿到了80分以上,而工業(yè)(Industry)、金融(Finance)等領(lǐng)域的分?jǐn)?shù)則偏低。不同模型在不同領(lǐng)域各有強(qiáng)項(xiàng),例如GLM-4.7在工業(yè)類任務(wù)上表現(xiàn)最好,而Claude Sonnet 4在物理類任務(wù)上領(lǐng)先,說(shuō)明不同模型的知識(shí)側(cè)重點(diǎn)和推理能力存在結(jié)構(gòu)性差異。

九、沙箱是否能代替真實(shí)網(wǎng)絡(luò)?交叉驗(yàn)證給出答案

為了驗(yàn)證沙箱語(yǔ)料庫(kù)能否真實(shí)反映在線搜索的信息獲取難度,研究團(tuán)隊(duì)專門用Qwen3-235B-A22B和Gemini 2.5 Pro在英文子集上進(jìn)行了"真實(shí)聯(lián)網(wǎng)搜索"對(duì)比實(shí)驗(yàn)。結(jié)果顯示,兩種條件下的綜合得分非常接近:Qwen3-235B-A22B在沙箱下得48.3分,真實(shí)聯(lián)網(wǎng)下得48.0分;Gemini 2.5 Pro在沙箱下得57.1分,聯(lián)網(wǎng)下得57.8分。引用覆蓋率(CC)在兩種條件下的一致性尤為突出,表明模型在真實(shí)聯(lián)網(wǎng)搜索中最終依賴的核心證據(jù),與沙箱中預(yù)設(shè)的支持文檔高度重合。這組數(shù)據(jù)有力地證明了沙箱能夠作為真實(shí)網(wǎng)絡(luò)搜索的可靠替代品,而不是一個(gè)被人為簡(jiǎn)化的"假場(chǎng)景"。

十、打分機(jī)器靠不靠譜?與人類評(píng)審的對(duì)齊驗(yàn)證

由于DR3-Eval的多個(gè)核心指標(biāo)需要由大模型擔(dān)任評(píng)判角色,其可靠性自然會(huì)受到質(zhì)疑。為此,研究團(tuán)隊(duì)隨機(jī)抽取了50份報(bào)告,邀請(qǐng)四位領(lǐng)域?qū)<疫M(jìn)行獨(dú)立人工評(píng)分,然后與自動(dòng)化評(píng)分進(jìn)行比對(duì)。結(jié)果顯示,自動(dòng)評(píng)分與人工評(píng)分的皮爾遜相關(guān)系數(shù)(r)為0.78,斯皮爾曼相關(guān)系數(shù)(ρ)為0.73,逐對(duì)一致率達(dá)到0.89,而四位人類專家之間的互相一致率分別是r=0.83、ρ=0.76、一致率0.91——機(jī)器的表現(xiàn)與人類專家之間的分歧程度相當(dāng),說(shuō)明自動(dòng)評(píng)分并非不靠譜的替代品,而是一個(gè)與人類判斷高度一致的工具。

此外,研究團(tuán)隊(duì)還驗(yàn)證了自動(dòng)提取事實(shí)聲明的準(zhǔn)確性,發(fā)現(xiàn)與人工標(biāo)注相比,精確率達(dá)到0.924,召回率達(dá)到0.960,進(jìn)一步佐證了評(píng)測(cè)流程的可靠性。在評(píng)判模型的選擇上,研究團(tuán)隊(duì)將Claude Sonnet 4、Gemini 2.5 Pro和Qwen-Max作為GPT-5.1的替代者重新對(duì)六個(gè)模型進(jìn)行排名,發(fā)現(xiàn)排名結(jié)果幾乎一致,平均斯皮爾曼相關(guān)系數(shù)達(dá)到0.924,說(shuō)明評(píng)測(cè)結(jié)論的穩(wěn)定性不依賴于特定評(píng)判模型的選擇。

十一、干擾文檔真的有用嗎?沙箱成分實(shí)驗(yàn)

為了確認(rèn)三類沙箱文檔(支持文檔、干擾文檔、噪音文檔)各自的設(shè)計(jì)有其必要性,研究團(tuán)隊(duì)在20個(gè)任務(wù)子集上進(jìn)行了消融實(shí)驗(yàn)。

移除干擾文檔后,所有模型的得分都顯著提升。這證明干擾文檔確實(shí)有效地增加了任務(wù)難度,而不是擺設(shè)。更有趣的是,當(dāng)沙箱中只保留噪音文檔而去掉支持文檔時(shí),模型的表現(xiàn)與完全沒(méi)有沙箱的情況幾乎一樣差。這個(gè)發(fā)現(xiàn)證明了沙箱的設(shè)計(jì)干凈純粹——除了被精心標(biāo)注的支持文檔,沙箱中沒(méi)有其他任何"意外有用"的信息可以被模型僥幸利用,評(píng)測(cè)結(jié)果完全取決于模型能否找到那些正確的支持文檔。當(dāng)只保留支持文檔、去掉一切干擾時(shí),模型表現(xiàn)大幅提升,這也為各模型在"理想信息環(huán)境"下能達(dá)到的上限提供了參考基準(zhǔn)。

十二、多迭代檢索:次數(shù)越多越好,但過(guò)猶不及

研究團(tuán)隊(duì)對(duì)DR3-Agent中RAG子智能體的最大迭代輪數(shù)進(jìn)行了系統(tǒng)性測(cè)試,分別在1輪、3輪、5輪和7輪四種設(shè)置下觀察性能變化。結(jié)果顯示,隨著允許的迭代輪數(shù)增加,信息召回率和引用覆蓋率總體呈上升趨勢(shì),但并不是越多越好——在某個(gè)臨界點(diǎn)之后,繼續(xù)增加輪數(shù)反而會(huì)導(dǎo)致輕微的性能下降。這與人類做研究時(shí)的經(jīng)驗(yàn)頗為相似:適當(dāng)?shù)胤磸?fù)搜索和精化查詢能找到更好的答案,但如果陷入無(wú)休止的搜索循環(huán),反而容易迷失方向。

十三、誰(shuí)是最佳"記憶搜索引擎"?檢索器對(duì)比實(shí)驗(yàn)

研究團(tuán)隊(duì)對(duì)三種檢索方式進(jìn)行了對(duì)比:OpenAI的text-embedding-3-small、阿里的Qwen-text-embedding-v2,以及傳統(tǒng)的關(guān)鍵詞匹配方法BM25。在128k規(guī)模的沙箱上測(cè)試引用覆蓋率(CC),text-embedding-3-small表現(xiàn)最佳(GLM-4.7搭配時(shí)CC=56.58),Qwen-text-embedding-v2略低(GLM-4.7搭配時(shí)CC=53.61),而傳統(tǒng)BM25方法則差距明顯(GLM-4.7搭配時(shí)CC=50.71)。這個(gè)結(jié)果表明,在復(fù)雜的多文檔檢索場(chǎng)景中,基于語(yǔ)義理解的向量檢索方法顯著優(yōu)于僅依賴字面關(guān)鍵詞匹配的傳統(tǒng)方式。

十四、失敗在哪里?錯(cuò)誤歸因分析

研究團(tuán)隊(duì)對(duì)五款模型各100份報(bào)告進(jìn)行了逐一錯(cuò)誤歸因分析,將錯(cuò)誤來(lái)源劃分為三類:檢索失敗(關(guān)鍵信息根本沒(méi)找到)、推理失敗(信息找到了但在整合和邏輯推斷時(shí)出錯(cuò))以及幻覺(jué)(內(nèi)容不來(lái)自任何提供的材料,而是模型"憑空想象"出來(lái)的)。

幻覺(jué)是所有模型最普遍的失敗原因,占比從48%到77%不等,說(shuō)明即便是當(dāng)前最強(qiáng)大的模型,在長(zhǎng)篇研究報(bào)告任務(wù)中仍然難以穩(wěn)定地"只說(shuō)材料里有的內(nèi)容"。檢索失敗和推理失敗的比例因模型而異,有些模型傾向于在信息搜集階段就掉鏈子,另一些則能找到信息卻在整合時(shí)犯錯(cuò)。這一分析揭示了當(dāng)前模型的核心瓶頸:并非不會(huì)找證據(jù),而是在寫報(bào)告時(shí)難以始終"忠于證據(jù)"。

說(shuō)到底,DR3-Eval做的事情,就是給今天這些越來(lái)越能干的AI研究助手設(shè)置了一個(gè)真正嚴(yán)格的考場(chǎng)。這個(gè)考場(chǎng)的題目來(lái)自真實(shí)用戶的真實(shí)材料,檢索環(huán)境模擬真實(shí)網(wǎng)絡(luò)的混亂與噪音,打分標(biāo)準(zhǔn)覆蓋從找證據(jù)到寫報(bào)告的全流程,每一環(huán)都力求公平、可復(fù)現(xiàn)、可量化。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)不容樂(lè)觀但頗具價(jià)值的現(xiàn)實(shí):當(dāng)前最強(qiáng)的大模型在這套評(píng)測(cè)下的綜合得分普遍在50到70分之間,遠(yuǎn)未達(dá)到可以放心托付真實(shí)研究任務(wù)的水準(zhǔn)。幻覺(jué)問(wèn)題依然頑固,在噪音信息面前的檢索穩(wěn)健性仍有較大改進(jìn)空間,而"報(bào)告寫得漂亮"與"內(nèi)容是否準(zhǔn)確可靠"之間的落差,更是提醒了所有使用AI研究助手的人:千萬(wàn)不能只看表面光鮮。

這項(xiàng)工作的意義不僅在于指出問(wèn)題,更在于提供了一套可以被整個(gè)領(lǐng)域復(fù)用的評(píng)測(cè)工具。隨著代碼和數(shù)據(jù)的公開,任何研究團(tuán)隊(duì)都可以在相同的標(biāo)準(zhǔn)下檢驗(yàn)自己的系統(tǒng),比較結(jié)果不再是"各說(shuō)各話",而是有了一把共同的尺子。對(duì)于普通用戶而言,這套研究也提供了一個(gè)實(shí)用的警示:當(dāng)AI給你生成一份看起來(lái)?xiàng)l理清晰、有理有據(jù)的研究報(bào)告時(shí),它很可能已經(jīng)在某些地方偷偷"補(bǔ)充"了一些它自己編的內(nèi)容,而你完全無(wú)從察覺(jué)——至少在今天還是如此。

Q&A

Q1:DR3-Eval評(píng)測(cè)基準(zhǔn)和以往的深度研究評(píng)測(cè)工具有什么區(qū)別?

A:DR3-Eval最核心的不同點(diǎn)在于三個(gè)方面:它采用真實(shí)用戶提供的多媒體材料(圖片、視頻、音頻、文檔)作為輸入,而非純文字;它為每個(gè)任務(wù)單獨(dú)構(gòu)建一個(gè)靜態(tài)沙箱語(yǔ)料庫(kù),既保證可復(fù)現(xiàn)性又模擬真實(shí)網(wǎng)絡(luò)的復(fù)雜噪音;它采用逆向出題法,從已知證據(jù)反推問(wèn)題,確保每道題都有明確可驗(yàn)證的答案路徑。這三點(diǎn)組合在一起,是此前評(píng)測(cè)工具都沒(méi)有同時(shí)做到的。

Q2:DR3-Eval發(fā)現(xiàn)當(dāng)前AI研究助手最主要的缺陷是什么?

A:實(shí)驗(yàn)發(fā)現(xiàn),幻覺(jué)(即AI憑空捏造不來(lái)自任何提供材料的內(nèi)容)是當(dāng)前幾乎所有模型的最主要失敗原因,占所有錯(cuò)誤的比例從48%到77%不等。此外,當(dāng)沙箱語(yǔ)料庫(kù)規(guī)模增大、噪音文檔增多時(shí),模型的信息檢索準(zhǔn)確性和引用覆蓋率都會(huì)顯著下降,說(shuō)明在復(fù)雜信息環(huán)境中保持檢索穩(wěn)健性是另一大薄弱環(huán)節(jié)。

Q3:DR3-Eval的沙箱環(huán)境中的文檔分成哪幾類,為什么要這樣劃分?

A:沙箱中的文檔分為三類:支持文檔(內(nèi)容經(jīng)人工核實(shí)可以為任務(wù)提供充分且必要證據(jù))、干擾文檔(來(lái)自正確搜索關(guān)鍵詞但內(nèi)容過(guò)時(shí)、片面或不準(zhǔn)確)和噪音文檔(主題相關(guān)但對(duì)回答問(wèn)題無(wú)實(shí)質(zhì)幫助)。這種劃分是為了區(qū)分兩種不同來(lái)源的檢索難度——真正的挑戰(zhàn)不只是濾掉完全無(wú)關(guān)的噪音,更在于辨別表面相關(guān)卻實(shí)際有誤的干擾信息,這也是現(xiàn)實(shí)中研究工作面臨的主要困難。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬(wàn):比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬(wàn):比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

藍(lán)色海邊
2026-04-28 14:24:53
刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國(guó)全面出手!

刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國(guó)全面出手!

互聯(lián)網(wǎng)思想
2026-04-28 23:24:38
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
夏洛特公主長(zhǎng)相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

夏洛特公主長(zhǎng)相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

小魚愛(ài)魚樂(lè)
2026-04-28 09:28:11
斯諾克賽程:趙心童2次出場(chǎng)對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

斯諾克賽程:趙心童2次出場(chǎng)對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

劉姚堯的文字城堡
2026-04-28 09:37:20
美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

財(cái)聯(lián)社
2026-04-29 05:39:18
陳思誠(chéng)找小21歲阮巨不是瞎了眼:他比誰(shuí)都精,要的是情緒穩(wěn)定

陳思誠(chéng)找小21歲阮巨不是瞎了眼:他比誰(shuí)都精,要的是情緒穩(wěn)定

小貓娛樂(lè)叭叭
2026-04-27 20:42:52
溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

達(dá)摩財(cái)經(jīng)
2026-04-26 09:32:45
美聯(lián)合10國(guó)對(duì)中國(guó)發(fā)起猛攻,中方不隔夜強(qiáng)力反制

美聯(lián)合10國(guó)對(duì)中國(guó)發(fā)起猛攻,中方不隔夜強(qiáng)力反制

至今
2026-04-29 03:03:01
砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經(jīng)緯所
2026-04-27 23:35:08
5月1日正式開刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開刀!3萬(wàn)就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

兵鑒史
2026-04-29 03:01:16
下課!曝張慶鵬無(wú)緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

下課!曝張慶鵬無(wú)緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

醉臥浮生
2026-04-28 21:15:10
驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒(méi)認(rèn)出來(lái)

驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒(méi)認(rèn)出來(lái)

橙星文娛
2026-04-28 09:29:00
南京二級(jí)高級(jí)警長(zhǎng)李才玉案2026年5月9日開庭

南京二級(jí)高級(jí)警長(zhǎng)李才玉案2026年5月9日開庭

安志軍律師
2026-04-28 19:00:40
泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

大象新聞
2026-04-26 13:01:02
云南“14歲男生奸殺同班女生”被判無(wú)期,受害人家屬將申請(qǐng)抗訴

云南“14歲男生奸殺同班女生”被判無(wú)期,受害人家屬將申請(qǐng)抗訴

新京報(bào)
2026-04-28 19:36:18
阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛(ài)意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛(ài)意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

極目新聞
2026-04-28 13:14:42
放話了,太陽(yáng)隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

放話了,太陽(yáng)隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

好火子
2026-04-29 00:26:37
比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
2026-04-29 06:27:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

美國(guó):對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

頭條要聞

美國(guó):對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

時(shí)尚
親子
本地
教育
健康

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

親子要聞

拍這期視頻時(shí)眼淚止不住地流

本地新聞

用青花瓷的方式,打開西溪濕地

教育要聞

2026本科專業(yè)目錄發(fā)布,新增38個(gè)新專業(yè),交叉學(xué)科再添新成員

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版