国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源多模態(tài)推理「破壁」時刻:MMFineReason助力4B逆襲30B

0
分享至



長期以來,開源多模態(tài)模型在復(fù)雜推理任務(wù)上,始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。

社區(qū)開發(fā)者們逐漸意識到,核心痛點(diǎn)或許不在于模型架構(gòu)的精進(jìn)或者模型參數(shù)的規(guī)模。真正的瓶頸,在于高質(zhì)量、思維鏈(CoT)密集的推理數(shù)據(jù)極度匱乏。

在純文本領(lǐng)域,DeepSeek-R1 的成功已驗(yàn)證了高質(zhì)量后訓(xùn)練數(shù)據(jù)(Post-training Data)的威力,但在多模態(tài)領(lǐng)域,我們面對的是橫亙在眼前的「兩座大山」:

  1. 數(shù)據(jù)失衡:現(xiàn)有開源多模態(tài)數(shù)據(jù)仍以簡單 VQA 與自然圖像為主,而對于真正具有高推理價值的數(shù)據(jù),如 STEM 圖表、邏輯謎題、復(fù)雜視覺符號等數(shù)據(jù)不僅少,而且標(biāo)注成本極高。
  2. 推理質(zhì)量參差不齊:即便現(xiàn)有的「推理數(shù)據(jù)」也存在推理過程短、模版化,標(biāo)注粒度不足、缺乏中間驗(yàn)證、視覺與邏輯推理割裂的問題。

為了填補(bǔ)這一空白,上海 AI 實(shí)驗(yàn)室 OpenDataLab 研究團(tuán)隊正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態(tài)、可復(fù)現(xiàn)的多模態(tài)推理數(shù)據(jù)合成 Pipeline,同時也開源了由此方法構(gòu)建的包含1.8M 高質(zhì)量樣本、5.1B Token的大規(guī)模數(shù)據(jù)集。



  • 論文標(biāo)題:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
  • Huggingface 論文:https://huggingface.co/papers/2601.21821
  • 項(xiàng)目主頁:https://mmfinereason.github.io/
  • 數(shù)據(jù)集 & 模型:https://huggingface.co/collections/OpenDataArena/mmfinereason

小模型,大性能:高效數(shù)據(jù)選擇的強(qiáng)大優(yōu)勢

先來秀一秀性能結(jié)果。團(tuán)隊很驚喜的發(fā)現(xiàn),MMFineReason 的出現(xiàn),標(biāo)志著多模態(tài)模型進(jìn)入了「以小博大」的新階段。

實(shí)驗(yàn)數(shù)據(jù)顯示,MMFineReason-4B模型基于 Qwen3-VL-4B 訓(xùn)練而成,其推理能力不僅超越了 Qwen3-VL-8B-Thinking,性能更是直逼 30B 參數(shù)規(guī)模的 Qwen3-VL-30B-A3B-Thinking。

更令研究團(tuán)隊驚喜的是,同樣基于同尺寸底座訓(xùn)練的MMFineReason-8B,表現(xiàn)更加優(yōu)秀:它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash,并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發(fā)起沖擊。

值得強(qiáng)調(diào)的是,這種「跨級碾壓」的性能躍遷并非來自新的模型結(jié)構(gòu)設(shè)計,也不是通過更復(fù)雜的訓(xùn)練技巧實(shí)現(xiàn)的,而幾乎完全源于數(shù)據(jù)層面的變化—— 尤其是推理數(shù)據(jù)的結(jié)構(gòu)化程度與單位樣本中的有效推理密度。

更進(jìn)一步,團(tuán)隊還發(fā)現(xiàn)通過難度感知過濾,能實(shí)現(xiàn)極高的數(shù)據(jù)轉(zhuǎn)換效率:僅使用總量 7%(約 123K)的高難度精選子集數(shù)據(jù),即可媲美全量 1.8M 數(shù)據(jù)相當(dāng)?shù)男阅鼙憩F(xiàn)。

因此,當(dāng)數(shù)據(jù)被有效篩選、難度與模型能力精確對齊時,數(shù)據(jù)選擇本身就成為決定參數(shù)效率的核心杠桿。





揭秘「Closed-Source Level」數(shù)據(jù)管線:完全開源的數(shù)據(jù)生產(chǎn)線



不同于依賴黑盒 API 的傳統(tǒng)方案,MMFineReason 構(gòu)建了一套完全開源的透明且高效的 Pipeline,全流程 100% 基于開源模型。整個流程主要通過三個階段來實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)的生產(chǎn):

  1. 數(shù)據(jù)標(biāo)準(zhǔn)化:首先從源頭定義「什么是可推理任務(wù)」,對 STEM、Puzzle、圖、幾何、科學(xué)表等多領(lǐng)域數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并統(tǒng)一 Schema,并進(jìn)行嚴(yán)格的清洗。
  2. 推理蒸餾:利用 Qwen3-VL-235B-Thinking 作為老師模型進(jìn)行推理蒸餾,并嚴(yán)格遵守四階段推理框架:「視覺感知 → 邏輯推導(dǎo) → 中間驗(yàn)證 → 結(jié)論確認(rèn)」,從而來生成詳細(xì)且具備「視覺落地」能力的 CoT 推理軌跡。
  3. 雙重過濾:為了確保訓(xùn)練的高效性,團(tuán)隊引入了雙層篩選機(jī)制,第一是正確性過濾,確保答案與推理過程嚴(yán)格一致;在剔除低質(zhì)量 CoT 的基礎(chǔ)上,進(jìn)行難度感知(Difficulty-Aware)過濾,專門篩選出對 Qwen3-VL-4B 小模型具有高「訓(xùn)練價值」的樣本,即「小模型穩(wěn)定失敗」的樣本,從而避免了無效數(shù)據(jù)的堆砌。



最終,研究團(tuán)隊得到了 MMFineReason-1.8M(正確全量), MMFineReason-586K(正確且去掉過于簡單樣本),以及 MMFineReason-123K(正確且最困難樣本)三個高質(zhì)量數(shù)據(jù)集。

MMFineReason-1.8M:專為「深度推理」打造的高質(zhì)量多模態(tài)數(shù)據(jù)

與其說 MMFineReason 是一個常規(guī)的 VQA 數(shù)據(jù)集,倒不如將其定義為一個專為多模態(tài)大模型準(zhǔn)備的「硬核思維訓(xùn)練場」。在當(dāng)前多模態(tài)領(lǐng)域普遍陷入「數(shù)據(jù)饑渴」與「思維鏈斷層」的背景下,該項(xiàng)目展現(xiàn)出了極具辨識度的核心特征。

首先,MMFineReason 在思維深度上實(shí)現(xiàn)了質(zhì)的飛躍。相比 HoneyBee 等同類數(shù)據(jù)集,其平均思維鏈(CoT)長度達(dá)到了驚人的 2,910 tokens,規(guī)模足足是前者的2.7 倍。這種長路徑推理數(shù)據(jù)的引入,本質(zhì)上是讓模型告別了簡單的「直覺判斷」,轉(zhuǎn)而掌握一套詳盡且具象的「視覺 - 邏輯」推導(dǎo)范式。



在領(lǐng)域分布上,研究團(tuán)隊展現(xiàn)出了鮮明的去平庸化導(dǎo)向,堅決拒絕易于「刷分」的簡單樣本,轉(zhuǎn)而深耕高難度邏輯腹地。

數(shù)據(jù)集中,數(shù)學(xué)領(lǐng)域以 79.4% 的絕對占比強(qiáng)化了符號推理根基,涵蓋了幾何、微積分等深度學(xué)科;13.8% 的科學(xué)數(shù)據(jù)則聚焦于復(fù)雜的物理、化學(xué)圖表分析;此外,數(shù)據(jù)集還引入了 4.6% 的謎題與游戲數(shù)據(jù),通過抽象模式識別與策略博弈,不斷試探并挑戰(zhàn)開源模型的智商上限。



圖為 MMFineReason 數(shù)據(jù)集的數(shù)據(jù)分布情況。可以看到數(shù)據(jù)集的領(lǐng)域覆蓋了數(shù)學(xué)、謎題與游戲、幾何 / 微積分、圖表與復(fù)雜科學(xué)等。

更具深遠(yuǎn)意義的洞察在于這種高強(qiáng)度訓(xùn)練帶來的「協(xié)同提升效應(yīng)」。實(shí)驗(yàn)結(jié)果打破了專項(xiàng)訓(xùn)練會削弱通用能力的固有認(rèn)知:當(dāng)模型在 STEM 和邏輯難題上進(jìn)行深度鉆研時,其在一般性 VQA 任務(wù)上的表現(xiàn)反而得到了同步增強(qiáng)。這種以點(diǎn)帶面的能力釋放,再次印證了高質(zhì)量邏輯鏈條才是驅(qū)動模型性能跨級演進(jìn)的真邏輯。

結(jié)語與展望

MMFineReason 的開源,證明了在多模態(tài)領(lǐng)域,當(dāng)模型架構(gòu)逐漸收斂、參數(shù)規(guī)模的邊際收益不斷下降,決定能力差距的,不再是模型有多大,而是「數(shù)據(jù)是否真的教會模型如何推理」。通過精細(xì)化的數(shù)據(jù)工程,小參數(shù)模型完全有潛力在復(fù)雜推理任務(wù)上對抗甚至超越大參數(shù)模型。

這不是一次規(guī)模的勝利,而是Data-Centric 方法論的勝利。我們期待未來在多模態(tài)開源大模型的路上,能用更高效、更高價值的數(shù)據(jù)來促進(jìn)社區(qū)的進(jìn)步。

目前,該項(xiàng)目已在 Huggingface 及 GitHub 全面上線,為開源社區(qū)提供了從數(shù)據(jù)到工具鏈的完整支撐。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被中方反制后,日本一片哀嚎,高市態(tài)度大變,開始勸中國冷靜了?

被中方反制后,日本一片哀嚎,高市態(tài)度大變,開始勸中國冷靜了?

東極妙嚴(yán)
2026-02-27 15:53:53
誰搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場美夢

誰搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場美夢

百科密碼
2026-02-25 15:17:32
中國為何必須廢日本?最狠的一刀!日本國運(yùn)現(xiàn)在開始徹底走到頭?

中國為何必須廢日本?最狠的一刀!日本國運(yùn)現(xiàn)在開始徹底走到頭?

蔡蔡說史
2026-02-27 22:53:29
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

墨蘭史書
2026-02-27 20:05:03
俄羅斯對“特別軍事行動”的致命誤判

俄羅斯對“特別軍事行動”的致命誤判

名人茍或
2026-02-26 06:02:10
37歲張含韻回老家過年!打麻將吃美食胖了不少,還幫外甥女寫作業(yè)

37歲張含韻回老家過年!打麻將吃美食胖了不少,還幫外甥女寫作業(yè)

鄉(xiāng)野小珥
2026-02-27 20:51:28
游戲結(jié)束,李嘉誠全面清倉,巴政府硬搶124億資產(chǎn),結(jié)果搬石砸腳

游戲結(jié)束,李嘉誠全面清倉,巴政府硬搶124億資產(chǎn),結(jié)果搬石砸腳

影孖看世界
2026-02-27 15:35:15
湖人內(nèi)訌的元兇?米切爾:球員們厭倦和他打球,保羅:他不防守!

湖人內(nèi)訌的元兇?米切爾:球員們厭倦和他打球,保羅:他不防守!

你的籃球頻道
2026-02-27 09:49:26
寧德時代全固態(tài)電池快充技術(shù)在2026年2月26日迎來里程碑式升級。

寧德時代全固態(tài)電池快充技術(shù)在2026年2月26日迎來里程碑式升級。

娛樂圈的筆娛君
2026-02-28 00:10:53
雷軍稱高度重視安全體系建設(shè)!小米專家:目標(biāo)做同檔最安全車

雷軍稱高度重視安全體系建設(shè)!小米專家:目標(biāo)做同檔最安全車

快科技
2026-02-27 20:22:07
杭州一地發(fā)布放假通知:連休10天!浙江各地時間表也排定

杭州一地發(fā)布放假通知:連休10天!浙江各地時間表也排定

都市快報橙柿互動
2026-02-27 15:56:56
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實(shí)

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實(shí)

帶你感受人間冷暖
2026-02-17 01:00:24
暴跌1577%!39股集體暴雷,A股避雷攻略請收好

暴跌1577%!39股集體暴雷,A股避雷攻略請收好

慧眼看世界哈哈
2026-02-28 00:38:17
歐聯(lián)淘汰賽16強(qiáng)對陣:維拉vs里爾,羅馬博洛尼亞意甲內(nèi)戰(zhàn)

歐聯(lián)淘汰賽16強(qiáng)對陣:維拉vs里爾,羅馬博洛尼亞意甲內(nèi)戰(zhàn)

懂球帝
2026-02-27 20:22:13
3000萬打工人逃離北上廣,卻不知道縣城已被161個家族瓜分

3000萬打工人逃離北上廣,卻不知道縣城已被161個家族瓜分

流蘇晚晴
2026-02-27 18:06:43
突發(fā)!黃金白銀直線飆升,國際油價大漲!中使館緊急通知:在以色列中國公民非必要不外出

突發(fā)!黃金白銀直線飆升,國際油價大漲!中使館緊急通知:在以色列中國公民非必要不外出

每日經(jīng)濟(jì)新聞
2026-02-27 22:12:04
慘烈的仗,要打到2030年?

慘烈的仗,要打到2030年?

中國新聞周刊
2026-02-26 22:44:14
外交部:中方正在密切關(guān)注巴阿沖突局勢發(fā)展

外交部:中方正在密切關(guān)注巴阿沖突局勢發(fā)展

界面新聞
2026-02-27 15:36:44
女子5.5克黃金戒指換新只剩下2克,老廟黃金回應(yīng):是5G工藝不是5克

女子5.5克黃金戒指換新只剩下2克,老廟黃金回應(yīng):是5G工藝不是5克

商業(yè)透鏡
2026-02-26 15:37:25
圍爐煮茶,為啥涼了?

圍爐煮茶,為啥涼了?

放牛娃的遐想
2026-02-25 08:14:29
2026-02-28 02:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12374文章數(shù) 142572關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

新華社:美國伊朗要打了嗎

頭條要聞

新華社:美國伊朗要打了嗎

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
藝術(shù)
時尚
手機(jī)
房產(chǎn)

教育要聞

不好意思,我玩電腦AI已經(jīng)超高段位了!

藝術(shù)要聞

紫氣東來,好運(yùn)一整年!

舒淇最愛穿的裙子搭配,真的很適合春天!

手機(jī)要聞

榮耀600系列再次被確認(rèn):9000mAh+兩億像素,處理器有懸念!

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

無障礙瀏覽 進(jìn)入關(guān)懷版