国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)Deep Research,終于有了「可核驗」的評測標(biāo)準(zhǔn)

0
分享至



Deep Research Agent 火了,但評測還停在「看起來很強(qiáng) 」。

寫得像論文,不等于真的做了研究。

尤其當(dāng)證據(jù)來自圖表、截圖、論文圖、示意圖時:模型到底是「看懂了」,還是 「編得像懂了」?

俄亥俄州立大學(xué)與 Amazon Science 聯(lián)合牽頭,聯(lián)合多家高校與機(jī)構(gòu)研究者發(fā)布MMDeepResearch-Bench(MMDR-Bench),試圖把多模態(tài) Deep Research 的評估從「讀起來不錯」,拉回到一個更硬的標(biāo)準(zhǔn):過程可核驗、證據(jù)可追溯、斷言可對齊。

MMDR-Bench 與評測框架相關(guān)資源已公開:



  • 論文標(biāo)題:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
  • 論文主頁:https://mmdeepresearch-bench.github.io/
  • 論文鏈接: https://arxiv.org/abs/2601.12346
  • github 鏈接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
  • Huggingface 鏈接:https://huggingface.co/papers/2601.12346

當(dāng) Deep Research Agent 變得越來越常見,一個更現(xiàn)實的問題擺到了臺面上:我們到底該怎么評價它的價值?很多時候,你很難用「答案對不對」去判一份研究型報告 —— 因為問題本身可能沒有唯一標(biāo)準(zhǔn)答案。

真正決定可信度的,是過程紀(jì)律:有沒有檢索到可靠證據(jù)?關(guān)鍵斷言有沒有被引用支撐?引用是否真的對應(yīng)這句話?以及最容易被忽略的一點:當(dāng)證據(jù)來自圖像時,它有沒有「看對并用對」。

現(xiàn)有評測往往缺一塊關(guān)鍵拼圖:要么偏短問答(圖表問答、文檔問答),要么偏純文本深研(長文 + 網(wǎng)頁引用),很難覆蓋端到端的「多模態(tài)深度研究」鏈路:既要寫研究式長報告,又要把圖像證據(jù)與文本斷言逐句對齊,并且能審計、能追責(zé)。

01 為什么需要 MMDR-Bench:Deep Research 的「幻覺」不止發(fā)生在文本

在真實研究場景里,圖像證據(jù)常常是不可替代的:曲線走勢、軸標(biāo)簽與單位、表格關(guān)鍵單元格、截圖里的開關(guān)狀態(tài)、論文圖中的對比結(jié)果……

這些信息一旦讀錯,就會把后續(xù)檢索與合成帶偏,最后變成一份「寫得很像、引用很多,但根上錯了」的報告。

問題在于,傳統(tǒng)「引用評測」往往只看有沒有 URL,卻不追問 Claim–URL 是否真的支撐;傳統(tǒng)「多模態(tài)評測」多是短問答,又覆蓋不了 agent 的長鏈路檢索與報告合成。MMDR-Bench 想做的,是把這兩件事接起來:讓多模態(tài) deep research 的輸出能被逐句核驗。

02 MMDR-Bench 是什么:140 個專家任務(wù),覆蓋 19 個領(lǐng)域

MMDR-Bench 包含 140 個由領(lǐng)域?qū)<掖蚰サ娜蝿?wù),覆蓋 19 個領(lǐng)域。每個任務(wù)都提供「圖像 — 文本 bundle」:你不僅要檢索網(wǎng)頁、匯總證據(jù),還必須解釋并使用給定圖像中的關(guān)鍵事實來支撐報告結(jié)論。

作者將任務(wù)劃分為兩種使用情境:

  • Daily:偏日常使用場景,輸入多為截圖、界面、噪聲較高的圖片,考察系統(tǒng)在不完整信息下的穩(wěn)健理解與可核驗寫作。
  • Research:偏研究分析場景,輸入多為圖表、表格、示意圖等信息密集視覺證據(jù),強(qiáng)調(diào)細(xì)粒度讀圖與跨來源綜合。





03 怎么評:不押「唯一答案」,押「證據(jù)鏈 + 過程對齊」

為了解決「開放式問題沒有標(biāo)準(zhǔn)答案」的評測困境,MMDR-Bench 把評估拆成 3 段管線、12 個可定位指標(biāo),重點不在「結(jié)論是不是唯一正確」,而在「證據(jù)鏈?zhǔn)欠裾镜米 埂?/p>



(1)FLAE:可解釋的長文質(zhì)量評估(可審計)

長報告的要求隨任務(wù)而變。FLAE 用可復(fù)現(xiàn)的文本特征公式(結(jié)構(gòu)、可讀性、覆蓋度等)疊加任務(wù)自適應(yīng)評審信號,避免「一把尺子量所有報告」,同時保證評分可回放、可解釋。

(2)TRACE:Claim–URL 支撐核驗,讓引用不再是裝飾

TRACE 將報告拆成原子斷言,并對齊到引用 URL,檢查是否支持、是否矛盾、是否過度推斷,給出一致性、覆蓋率與證據(jù)忠實度等指標(biāo)。

更關(guān)鍵的是,它加入 Visual Evidence Fidelity(Vef.)作為硬約束:報告必須嚴(yán)格遵守題目給出的圖文prompt,不得在分析題目時通過幻覺作答;一旦出現(xiàn)實體誤識別、圖中不存在卻編造、數(shù)字、標(biāo)簽、映射關(guān)系讀錯,會被嚴(yán)格懲罰。

(3)MOSAIC:把「用到圖像的句子」逐條對齊回圖像本身

很多錯誤并不體現(xiàn)在 URL 上,而體現(xiàn)在「引用圖像的句子」與圖像內(nèi)容不一致。MOSAIC 專門抽取這些多模態(tài)條目,按圖表、照片、示意圖等類型走不同核驗規(guī)則,定位「看錯圖、用錯圖、引用圖但沒真正 grounded」的失敗。

科研從來沒有銀彈。Deep Research 也是 —— 尤其當(dāng)信息不完整、證據(jù)不確定時。與其賭一次性的「正確結(jié)果」,不如把尺子釘在過程:每一步檢索、取證、引用與推理,都能被回放、被核對、被追責(zé)。

04 觀察到的現(xiàn)象:強(qiáng)寫作 ≠ 強(qiáng)證據(jù);會看圖 ≠ 會引用




在多個代表性系統(tǒng) / 模型的實驗中,可以看到非常清晰的分化:

  • 有的模型寫作與結(jié)構(gòu)很強(qiáng),但 Claim–URL 對齊松散,容易出現(xiàn)「引用很多、支撐很弱」;
  • 有的模型能讀圖抓到信息,但長鏈路合成中發(fā)生實體漂移,把證據(jù)綁到錯誤對象上;
  • 有的系統(tǒng)檢索覆蓋率高,卻在圖像細(xì)節(jié)(小數(shù)字、軸標(biāo)簽、單位、映射關(guān)系)上翻車,導(dǎo)致視覺忠實度顯著掉分。

也正因如此,能力并不會隨著版本號線性上揚(yáng):有些模型讀起來更「像一個會寫的研究者」,但在證據(jù)對齊與多模態(tài)忠實度上仍會失分 —— 榜單上甚至不需要細(xì)看,一眼就能讀出來。deep research 的關(guān)鍵瓶頸,正在從「能寫」轉(zhuǎn)向「能被查」。

05 更現(xiàn)實的意義:給 agent 對齊一個可訓(xùn)練的信號

Deep Research 的下一階段,不是誰寫得更像論文,而是誰的過程經(jīng)得起核驗。

MMDR-Bench 做的,就是把「經(jīng)得起核驗」這件事定成硬標(biāo)準(zhǔn):每條關(guān)鍵斷言都要能被證據(jù)接住,每個引用都要能被追溯到支撐點,每次用圖都要能對齊到可觀察事實。

這會直接改變系統(tǒng)迭代方式 —— 你不再憑感覺調(diào) prompt,也不再被「看起來很強(qiáng)」的報告迷惑,而是用可定位的失敗模式去驅(qū)動模型與工具鏈升級。

當(dāng)評測開始追責(zé)過程,deep research 才真正進(jìn)入可工程化的時代。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報銷

傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報銷

浮光驚掠影
2026-02-28 01:44:58
小米回應(yīng)汽車火災(zāi)事故調(diào)查過程:沒有許可,原則上不能自行披露

小米回應(yīng)汽車火災(zāi)事故調(diào)查過程:沒有許可,原則上不能自行披露

IT之家
2026-02-27 20:21:20
清華大學(xué)副校長:要求大一至大三學(xué)生每學(xué)期至少完成24次課外鍛煉 不會游泳不能畢業(yè)

清華大學(xué)副校長:要求大一至大三學(xué)生每學(xué)期至少完成24次課外鍛煉 不會游泳不能畢業(yè)

紅星新聞
2026-02-27 16:40:25
贏日本并不完美!下個窗口期男籃這四人可以退貨了,空位都不敢投

贏日本并不完美!下個窗口期男籃這四人可以退貨了,空位都不敢投

南海浪花
2026-02-27 11:39:37
雷軍稱高度重視安全體系建設(shè)!小米專家:目標(biāo)做同檔最安全車

雷軍稱高度重視安全體系建設(shè)!小米專家:目標(biāo)做同檔最安全車

快科技
2026-02-27 20:22:07
一家三口看《飛馳人生》, 老婆約小三坐旁邊偷情, 被老公炸裂抓奸

一家三口看《飛馳人生》, 老婆約小三坐旁邊偷情, 被老公炸裂抓奸

扮貓騎老虎
2026-02-26 17:21:01
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護(hù)欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護(hù)欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

大象新聞
2026-02-27 09:57:17
56歲潘蔚現(xiàn)狀:做家庭主婦,離開北京和孫楠住農(nóng)村大院,生活愜意

56歲潘蔚現(xiàn)狀:做家庭主婦,離開北京和孫楠住農(nóng)村大院,生活愜意

查爾菲的筆記
2026-02-27 15:15:32
榮耀、OPPO、vivo中端線下機(jī)最新銷量分析

榮耀、OPPO、vivo中端線下機(jī)最新銷量分析

科技鋒說
2026-02-27 06:34:12
是時候重新認(rèn)識——西門子!

是時候重新認(rèn)識——西門子!

科學(xué)火箭叔
2025-12-09 20:38:29
國乒混雙輝煌被徹底終結(jié),背后離不開王勵勤的戰(zhàn)略調(diào)整:拔苗助長

國乒混雙輝煌被徹底終結(jié),背后離不開王勵勤的戰(zhàn)略調(diào)整:拔苗助長

楊哥乒乓
2026-02-25 23:17:41
在上海的外地人快醒醒吧,逃離上海,外地人養(yǎng)活了上海三代人

在上海的外地人快醒醒吧,逃離上海,外地人養(yǎng)活了上海三代人

上海云河
2026-02-26 20:21:22
海南一對母子放牛時不慎墜入水坑身亡,官方通報

海南一對母子放牛時不慎墜入水坑身亡,官方通報

界面新聞
2026-02-27 19:55:54
蘋果激光雷達(dá)為啥很多人不會用?不是沒用,是你沒開對

蘋果激光雷達(dá)為啥很多人不會用?不是沒用,是你沒開對

小柱解說游戲
2026-02-28 03:30:40
美國大兵是真能忍,福特號上個廁所要等 45 分鐘,到處屎尿橫行…

美國大兵是真能忍,福特號上個廁所要等 45 分鐘,到處屎尿橫行…

我心縱橫天地間
2026-02-25 23:28:03
突發(fā) | 知名品牌宣布:關(guān)閉中國所有門店!

突發(fā) | 知名品牌宣布:關(guān)閉中國所有門店!

天津廣播
2026-02-28 00:02:12
戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

墨印齋
2026-02-26 06:21:37
朝鮮高層大換血!金正恩妹妹新身份曝光,半島局勢受影響

朝鮮高層大換血!金正恩妹妹新身份曝光,半島局勢受影響

霽寒飄雪
2026-02-27 17:37:19
2026-02-28 08:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12374文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

160萬粉絲"反詐老陳"被罰 官方:以反詐為名煽動對立

頭條要聞

160萬粉絲"反詐老陳"被罰 官方:以反詐為名煽動對立

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
教育
數(shù)碼
公開課
軍事航空

本地新聞

津南好·四時總相宜

教育要聞

四六級考試,今日6時起可查分

數(shù)碼要聞

綠聯(lián)新版追蹤器來襲,無線充電+蘋果查找超實用!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國11架F-22隱形戰(zhàn)機(jī)抵達(dá)以色列

無障礙瀏覽 進(jìn)入關(guān)懷版