国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擠干大模型高分水分!最強(qiáng)模型僅49分,南大傅朝友發(fā)布Video-MME-v2

0
分享至



機(jī)器之心發(fā)布

現(xiàn)有大模型評測分?jǐn)?shù)日趨飽和,但與真實(shí)體驗(yàn)差距顯著。南京大學(xué)傅朝友團(tuán)隊(duì)牽頭,在 Google Gemini 評測團(tuán)隊(duì)邀約下推出視頻理解新基準(zhǔn) Video-MME-v2。憑借創(chuàng)新的分層能力體系與組級非線性評分,以及 3300 + 人工時高質(zhì)量標(biāo)注,揭示模型與人類的巨大鴻溝(49 vs 90)、傳統(tǒng) Acc 指標(biāo)虛高、以及 “Thinking” 并非總是增益等現(xiàn)象。



  • 論文:https://arxiv.org/pdf/2604.05015
  • 主頁:https://video-mme-v2.netlify.app/
  • MME-Survey: https://arxiv.org/pdf/2411.15296

一年多前,傅朝友帶領(lǐng)的 Video-MME 團(tuán)隊(duì)發(fā)布了其第一版 Benchmark,被 Gemini、GPT 等廣泛用于視頻理解評測。根據(jù) Paper Digest 統(tǒng)計(jì),Video-MME 在CVPR 2025 所有錄用論文中影響力排名第一(引用 1100 + 次)。

近年來,團(tuán)隊(duì)進(jìn)一步對多模態(tài)大模型評測進(jìn)行了系統(tǒng)梳理,并發(fā)布綜述工作MME-Survey,從能力覆蓋、評測方式到指標(biāo)設(shè)計(jì),對現(xiàn)有 Benchmark 進(jìn)行了全面分析。

正因如此,團(tuán)隊(duì)更早、更清晰地意識到:現(xiàn)有評測范式,開始逐漸“失真”了。多模態(tài)大模型在視頻理解上進(jìn)步神速,各類 Benchmark 上的分?jǐn)?shù)都在趨于飽和,但真實(shí)體驗(yàn)依然不足。在這樣的背景下,Video-MME-v2正式發(fā)布。

Video-MME-v2 是一個面向下一代視頻理解能力的評測基準(zhǔn),歷經(jīng)近一年時間準(zhǔn)備,由12 名標(biāo)注人員和50 位獨(dú)立審核人員共同完成,投入超過3300 人工時標(biāo)注時間。與傳統(tǒng) Benchmark 的不同在于,一個精心設(shè)計(jì)的逐層遞進(jìn)三層能力體系以及分組非線性評分方法。

評測結(jié)果顯示:人類專家的非線性得分為 90.7(傳統(tǒng) Acc 為 94.9),而當(dāng)前最強(qiáng)的商業(yè)模型 Gemini-3-Pro 得分僅為 49.4,開源模型 Qwen 最佳結(jié)果為 39.1。

一、Video-MME-v2 在測什么?

Video-MME-v2 的第一個核心設(shè)計(jì),是把視頻理解拆成一個逐層遞進(jìn)的三層能力體系。

1. 第一層:信息檢索與聚合。這是視頻理解最基礎(chǔ)的一層,關(guān)注模型能否從跨幀、跨模態(tài)的信息中,準(zhǔn)確識別并提取關(guān)鍵事實(shí)。

2. 第二層:時序理解。基于第一層,第二層進(jìn)一步考察模型是否真正理解了時間維度。要求模型不僅能看懂不同幀的靜態(tài)畫面,更要抓住動作發(fā)生的先后關(guān)系、狀態(tài)如何變化、事件為何發(fā)生。

3. 第三層:復(fù)雜推理。基于第二層,第三層則更接近真實(shí)世界任務(wù),要求模型在更復(fù)雜、更開放的場景中進(jìn)行推理。這也是最接近 “人類式理解” 的一層:不僅要看懂,還要能推斷、能解釋、能綜合。圖 1 直觀展示了這三層能力結(jié)構(gòu)。



圖 1 Video-MME-v2 能力層級分布以及部分模型能力排行

二、Video-MME-v2 不只是 “多出題”

而是換了一種新測法

Video-MME-v2 的第二個關(guān)鍵創(chuàng)新,回答的是“怎么測”。這項(xiàng)工作沒有繼續(xù)沿用 “每題獨(dú)立計(jì)分” 的傳統(tǒng)方法,而是引入了組級評測。即,不再只看模型某一道題答沒答對,而是看它在一組相關(guān)問題上是否表現(xiàn)出一致性連貫性。

1. 能力一致性組:看模型是不是 “真的會”

它關(guān)注的是:同一種能力,模型在不同問法、不同粒度、不同側(cè)面上,能不能都保持穩(wěn)定。舉個簡單的例子:如果一個模型真的具備空間理解能力,那它不僅應(yīng)該能回答 “物體在哪里”,也應(yīng)該能回答 “它和另一個物體的相對位置如何變化”。

2. 推理連貫性組:看模型是不是 “真正在推理”

它關(guān)注的是:當(dāng)一個復(fù)雜問題需要多步推理時,模型能不能沿著合理的邏輯鏈條,一步一步走到結(jié)論。比如,在一個復(fù)雜劇情視頻里,模型可能需要先發(fā)現(xiàn)一個關(guān)鍵視覺線索,再識別異常細(xì)節(jié),再推斷人物目的,最后才能得出結(jié)論。如果中間某一環(huán)錯了,最終即使 “碰巧選對了”,這種正確也不能算作真正可信的推理。

為了和組級評測相配套,Video-MME 團(tuán)隊(duì)進(jìn)一步采用了非線性評分機(jī)制。這也是 Video-MME-v2 代表性的設(shè)計(jì)之一。

對于能力一致性組,四道相關(guān)問題不是簡單平均,而是采用激勵計(jì)分(一個 Group 里答對越多獎勵也多)。這意味著:零散地答對幾道題,并不能拿到很高分;只有當(dāng)模型在同組問題中保持穩(wěn)定表現(xiàn),分?jǐn)?shù)才會真正上來。

對于推理連貫性組,則是進(jìn)一步采用“首錯截?cái)唷?/strong>機(jī)制。即,一旦某一步做錯,后面即使答對,也不再計(jì)分。

三、為什么說它更難,也更可信?

一個 Benchmark 的說服力,不只在于 “設(shè)計(jì)巧”,也在于 “數(shù)據(jù)夠不夠扎實(shí)”。團(tuán)隊(duì)嚴(yán)格把控 Video-MME-v2 的數(shù)據(jù)源、標(biāo)注流程、質(zhì)檢標(biāo)準(zhǔn)等各方面,投入了極高的人力成本。數(shù)據(jù)集最終包含 800 個視頻、3200 個問題;共有12 名標(biāo)注者50 位獨(dú)立審核人員參與,經(jīng)過5 輪交叉審核與閉環(huán)修訂,累計(jì)投入超過3300 人工時。更多細(xì)節(jié)請查看主頁和技術(shù)報告。

四、評測結(jié)果如何?

在主榜結(jié)果中,人類的組級非線性得分達(dá)到90.7,平均準(zhǔn)確率達(dá)到94.9;而當(dāng)前表現(xiàn)最好的商業(yè)模型Gemini-3-Pro,組級非線性得分為49.4。開源模型中,Qwen3.5-397B-A17B-Think(512 frames),組級得分為39.1

它意味著:哪怕是當(dāng)前最強(qiáng)的視頻模型,在更嚴(yán)格、更強(qiáng)調(diào)一致性與連貫性的評測框架下,與人類仍存在巨大的差距。

論文也特別指出,模型從 Level 1 到 Level 3 呈現(xiàn)出明顯的性能遞減,說明高層復(fù)雜推理的薄弱,并不只是 “推理模塊不夠強(qiáng)”,而往往是前面的信息聚合和時序建模已經(jīng)出了問題,最終層層累積,拖垮了復(fù)雜理解。



圖 2 當(dāng)前評測前 10 名(完整請查看主頁)

五、非線性評分的優(yōu)勢

從 “答對一道題” 到 “穩(wěn)定理解一組問題”

在傳統(tǒng)評測中,平均準(zhǔn)確率(Avg Acc)是最常用的指標(biāo),但它本質(zhì)上是逐題獨(dú)立統(tǒng)計(jì)的結(jié)果,容易受到 “零散命中” 的影響。

相比之下,團(tuán)隊(duì)提出的組級非線性評分(Non-Lin Score),通過對問題之間的結(jié)構(gòu)關(guān)系進(jìn)行建模,更強(qiáng)調(diào)模型在同一能力維度下的整體表現(xiàn),從而能夠更真實(shí)地刻畫模型是否 “穩(wěn)定地理解了視頻”。

進(jìn)一步來看,非線性評分還揭示了模型能力中的一個重要現(xiàn)象:從 “單題正確” 到 “組內(nèi)穩(wěn)定正確” 之間存在顯著能力折損。為此,團(tuán)隊(duì)引入了一個具有解釋力的指標(biāo) ——Non-Lin Score/Avg Acc 的比值,用于衡量這一折損程度。

實(shí)驗(yàn)結(jié)果顯示,當(dāng)前最強(qiáng)的模型的比值Gemini-3-Pro的比值約為 75%;Doubao-Seed-2.0-Pro的比值約為 72%;而部分中小模型(如 LLaVA-Video-7B)甚至低至約 40%。

比值越低,說明模型越容易出現(xiàn) “組內(nèi)只能答對部分題” 的現(xiàn)象,穩(wěn)定性與魯棒性越弱。由此可見非線性打分在真實(shí)刻畫能力水平、揭示模型魯棒性方面的優(yōu)勢。



圖 3 不同模型 Non-Lin Sore/Avg Acc 的比值結(jié)果

六、一個很值得關(guān)注的發(fā)現(xiàn)

Thinking,并不總是有效

在今天的大模型語境下,“Thinking” 幾乎已經(jīng)成了默認(rèn)增強(qiáng)選項(xiàng)。但 Video-MME-v2 的一個非常有意思、也非常重要的發(fā)現(xiàn)是:Thinking 的收益不是無條件成立的,它高度依賴文本線索。

論文實(shí)驗(yàn)顯示,開啟 Thinking 后,模型在 “有字幕” 的設(shè)定下,通常比在 “純視覺” 設(shè)定下獲得更明顯的提升。例如,Qwen3.5-122B-A10B-Think(64 frames)在無字幕和有字幕設(shè)置下,分別帶來+3.8/+5.8的提升。這說明,顯式文本語義仍然是很多模型完成多步推理時重要的 “錨點(diǎn)”。

但另一方面,Thinking 也可能帶來退化。Qwen3-VL-8B在無字幕設(shè)定下出現(xiàn)了-0.6的下降,而KimiVL-16B在整體上出現(xiàn)了-3.3/-3.3的性能回落,在更強(qiáng)調(diào)復(fù)雜推理的 Level 3 上,退化甚至達(dá)到-4.0/-3.9。

這說明一件事:當(dāng)前一些模型的 “推理增強(qiáng)”,本質(zhì)上仍然更擅長利用語言線索,而不是穩(wěn)定地從視覺、音頻中抽取支撐推理的證據(jù)。一旦文本錨點(diǎn)不足,Thinking 不但未必增益,反而可能引入更多噪聲。



圖 4 在有無字幕設(shè)定下,是否開啟 Thinking 對模型性能影響

小結(jié):在視頻理解的下一階段,Video-MME-v2 想推動的是一次評測理念上的轉(zhuǎn)變,強(qiáng)調(diào)真正需要比較的是誰能夠在連續(xù)、動態(tài)、多模態(tài)的信息中,像人一樣,真正理解正在和已經(jīng)發(fā)生的事情。更多內(nèi)容和細(xì)節(jié)請查看主頁和技術(shù)報告。

Video-MME 系列 Project Lead 為南京大學(xué)傅朝友老師



傅朝友,南京大學(xué)模式識別實(shí)驗(yàn)室研究員、助理教授、博導(dǎo),入選中國科協(xié) “青年人才托舉工程”。2022 年博士畢業(yè)于中科院自動化所模式識別實(shí)驗(yàn)室。研究方向?yàn)槎嗄B(tài)內(nèi)容分析,谷歌學(xué)術(shù)引用 8700 余次,兩篇一作單篇引用過千次,六篇一作單篇引用過百次。

開源項(xiàng)目累計(jì)獲得 2 萬余次 GitHub Stars。代表性工作包括 VITA 多模態(tài)大模型系列(VITA-1.0/-1.5、Long-VITA、VITA-Audio),MME 多模態(tài)評測基準(zhǔn)系列(MME、Video-MME、MME-RealWorld)和 Awesome-MLLM 社區(qū)等。

擔(dān)任 Pattern Recognition/IEEE T-BIOM 期刊編委、ICLR/ICML 會議領(lǐng)域主席、CSIG 青工委委員、CCF-AI/-CV 專委會執(zhí)行委員。曾獲小米青年學(xué)者 - 科技創(chuàng)新獎、華為紫金學(xué)者、世界人工智能大會云帆獎、中科院院長特別獎、IEEE Biometrics Council Best Doctoral Dissertation Award、北京市優(yōu)博、中科院優(yōu)博、CVPR 2023 Outstanding Reviewer。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬伊琍官宣喜訊不到24小時 文章高調(diào)求“復(fù)合” 姚笛才是笑到最后

馬伊琍官宣喜訊不到24小時 文章高調(diào)求“復(fù)合” 姚笛才是笑到最后

潮鹿逐夢
2026-04-11 14:48:49
朱標(biāo)死后,若朱元璋不立建文帝而選朱允熥,燕王朱棣這輩子絕對連造反的膽子都沒有!

朱標(biāo)死后,若朱元璋不立建文帝而選朱允熥,燕王朱棣這輩子絕對連造反的膽子都沒有!

寄史言志
2026-04-12 22:57:11
曝俄羅斯違反“復(fù)活節(jié)?;稹?69次!偷偷向南部集結(jié)兵力

曝俄羅斯違反“復(fù)活節(jié)停火”469次!偷偷向南部集結(jié)兵力

項(xiàng)鵬飛
2026-04-12 16:09:21
杜蘭特申京輪休!火箭31分狂勝殘陣灰熊 卡佩拉23+13生涯首進(jìn)三分

杜蘭特申京輪休!火箭31分狂勝殘陣灰熊 卡佩拉23+13生涯首進(jìn)三分

海闊山遙YAO
2026-04-13 10:53:16
正式離隊(duì)!退出NBA!27年生涯落幕

正式離隊(duì)!退出NBA!27年生涯落幕

籃球教學(xué)論壇
2026-04-13 11:21:19
教育部通知!9月入學(xué)迎來顛覆性改革,孩子上學(xué)不用再拼家底了

教育部通知!9月入學(xué)迎來顛覆性改革,孩子上學(xué)不用再拼家底了

今朝牛馬
2026-04-10 22:35:42
身披“傳奇”徽章球衣完美收官!41歲詹皇半場打卡刷歷史首人紀(jì)錄

身披“傳奇”徽章球衣完美收官!41歲詹皇半場打卡刷歷史首人紀(jì)錄

顏小白的籃球夢
2026-04-13 10:24:06
11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

半糖甜而不膩
2026-04-06 12:09:15
訪陸結(jié)束,鄭麗文搭飛機(jī)回臺,臨走前親口贊嘆,對賴清德稱呼變了

訪陸結(jié)束,鄭麗文搭飛機(jī)回臺,臨走前親口贊嘆,對賴清德稱呼變了

小楊侃事
2026-04-13 01:30:55
尼古拉斯·凱奇《戰(zhàn)爭之王2》首張劇照曝光 2027年上映!

尼古拉斯·凱奇《戰(zhàn)爭之王2》首張劇照曝光 2027年上映!

3DM游戲
2026-04-13 09:58:06
你永遠(yuǎn)想不到,日本對我國的土地渴望到了什么程度

你永遠(yuǎn)想不到,日本對我國的土地渴望到了什么程度

賤議你讀史
2026-04-10 12:07:08
時隔57天,追覓科技創(chuàng)始人俞浩宣布回歸

時隔57天,追覓科技創(chuàng)始人俞浩宣布回歸

三言科技
2026-04-12 16:05:29
陳獨(dú)秀晚年感慨:我一生最后悔的,不是選錯路,而是忘了看看腳下

陳獨(dú)秀晚年感慨:我一生最后悔的,不是選錯路,而是忘了看看腳下

曉張說
2026-04-12 07:05:26
女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

世界圈
2026-04-12 00:10:16
1958年,開國上將要辭職、誰勸都沒用,毛主席大怒:把聶榮臻找來

1958年,開國上將要辭職、誰勸都沒用,毛主席大怒:把聶榮臻找來

浩渺青史
2026-04-12 18:04:17
震驚!做普工都要驗(yàn)資了,網(wǎng)傳深圳一工廠招工,身價最低300元起

震驚!做普工都要驗(yàn)資了,網(wǎng)傳深圳一工廠招工,身價最低300元起

火山詩話
2026-04-11 14:54:51
高市早苗要辭職?日媒爆料,身體抱恙,深夜大倒苦水萌生退意!

高市早苗要辭職?日媒爆料,身體抱恙,深夜大倒苦水萌生退意!

古史青云啊
2026-04-13 09:42:33
剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-01 09:17:19
這裙子是懂“兜住圓潤”的!蘭博基尼都沒她吸睛

這裙子是懂“兜住圓潤”的!蘭博基尼都沒她吸睛

飛娛日記
2026-04-13 10:25:50
王晶曝陳百強(qiáng)真正死因,64歲何超瓊顏面盡失

王晶曝陳百強(qiáng)真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
2026-04-13 12:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12736文章數(shù) 142624關(guān)注度
往期回顧 全部

科技要聞

傳榮耀與字節(jié)跳動接洽“豆包手機(jī)”合作

頭條要聞

村民拴繩攔道致騎車13歲男孩被割喉:氣道、食管破裂

頭條要聞

村民拴繩攔道致騎車13歲男孩被割喉:氣道、食管破裂

體育要聞

一支球隊(duì)不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財(cái)經(jīng)要聞

封鎖,還是收費(fèi)站?

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

教育
家居
游戲
藝術(shù)
手機(jī)

教育要聞

這8件幸福的小事,父母每周做兩件,養(yǎng)出高能量的小孩

家居要聞

復(fù)古風(fēng)格 自然簡約

一切為了玩家!索尼多款PS3時代神作重印 或?yàn)镻S6準(zhǔn)備

藝術(shù)要聞

馬思純,重新愛上自己

手機(jī)要聞

華為Pura X Max可選幻夜黑、橄欖金等5款配色,還有典藏版

無障礙瀏覽 進(jìn)入關(guān)懷版