国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

多模態(tài)推理新范式ThinkMorph ,文字與圖像在統(tǒng)一架構(gòu)共同演化

0
分享至



NUS、ZJU、UW、Stanford、CUHK 聯(lián)合提出「ThinkMorph」,主張讓文字與圖像在統(tǒng)一架構(gòu)里「原生協(xié)作」、「共同演化」,而不是像當(dāng)下大多數(shù)多模態(tài)模型那樣,看完圖像就閉上眼睛,后續(xù)完全靠文字鏈條推進(jìn)。僅用 2.4 萬(wàn)條數(shù)據(jù)微調(diào) 7B 統(tǒng)一模型,視覺(jué)推理平均提升34.74%,多項(xiàng)任務(wù)比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是,模型涌現(xiàn)出未被訓(xùn)練覆蓋的視覺(jué)操作能力與自主模式切換,顯示出多模態(tài)推理走向「原生智能」或許正在跨過(guò)第一道門(mén)檻。



  • 論文標(biāo)題:ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
  • 論文(arXiv): https://arxiv.org/abs/2510.27492
  • 代碼:https://github.com/ThinkMorph/ThinkMorph
  • 主頁(yè)(全開(kāi)源):https://thinkmorph.github.io/

為什么需要「原生」多模態(tài)推理?

人類解決復(fù)雜問(wèn)題時(shí),「視覺(jué)思維」和「邏輯思維」是無(wú)縫切換的:看到一道幾何題,我們會(huì)在腦中構(gòu)建空間圖景,同時(shí)用邏輯推演約束條件;走迷宮時(shí),我們一邊在視覺(jué)上追蹤路徑,一邊在語(yǔ)言層面排除死胡同。兩種思維模態(tài)彼此交織、互相推進(jìn),這是人類認(rèn)知的基本方式。



圖 1:人類認(rèn)知中視覺(jué)與語(yǔ)言思維的自然協(xié)同

然而,當(dāng)前主流的多模態(tài)大模型并非如此。圖像只在輸入階段被 “看見(jiàn)” 一次,之后無(wú)論是思維鏈還是強(qiáng)化學(xué)習(xí),提升的都是語(yǔ)言層面的推理。換言之,模型「看了一眼」之后就閉上了眼睛,純靠文字完成后續(xù)所有思考。

一種思路是調(diào)用外部視覺(jué)工具來(lái)間接彌補(bǔ),但天花板有限。ThinkMorph 走的是更徹底的路:「原生多模態(tài)推理(Unified Multimodal Reasoning)」:模型可以在推理的任何階段自主生成中間圖像來(lái)輔助思考,再用文字分析圖像、推進(jìn)邏輯,形成交替演進(jìn)的推理鏈。整個(gè)過(guò)程在同一個(gè)統(tǒng)一模型中完成,不依賴任何外部工具或多階段流水線。



圖 2:工具增強(qiáng) vs 原生多模態(tài)推理

這與人類的認(rèn)知方式高度一致:我們解決視覺(jué)問(wèn)題時(shí),也是在「看」和「想」之間自然切換,而不是看一眼就閉上眼睛純靠語(yǔ)言推演。ThinkMorph 讓模型第一次具備了這種能力。

核心設(shè)計(jì):互補(bǔ)而非同構(gòu)

ThinkMorph 的核心理念:文字與圖像在推理中應(yīng)提供互補(bǔ)信息,共同演化,而非同構(gòu)復(fù)制。



圖 3:文字與圖像互補(bǔ)協(xié)作,逐步推進(jìn)推理過(guò)程

文字負(fù)責(zé)抽象分析和邏輯驗(yàn)證(「這塊碎片左側(cè)有棕色紋理,應(yīng)在第三行第一列」),圖像負(fù)責(zé)空間可視化和細(xì)節(jié)呈現(xiàn)(生成重排后的拼圖效果圖、標(biāo)注邊界框、繪制路徑),兩者互相推動(dòng),逐步逼近答案。



圖 4:四類視覺(jué)推理任務(wù)的交錯(cuò)推理實(shí)現(xiàn)

基于統(tǒng)一多模態(tài)模型Bagel-7B,研究團(tuán)隊(duì)構(gòu)建了約24K條高質(zhì)量交錯(cuò)推理訓(xùn)練數(shù)據(jù),覆蓋四類視覺(jué)推理任務(wù)



圖 5:四類視覺(jué)推理訓(xùn)練任務(wù)

原生多模態(tài)推理有多強(qiáng),又能走多遠(yuǎn)?

在同一個(gè)基座模型上,研究團(tuán)隊(duì)分別微調(diào)了純文字、純視覺(jué)和交錯(cuò)「三種推理模式」進(jìn)行對(duì)比。結(jié)果很清晰:交錯(cuò)推理在視覺(jué)密集型任務(wù)上全面領(lǐng)先。文字與圖像在推理中確實(shí)能互補(bǔ)協(xié)作,而非簡(jiǎn)單相加。



圖 6:三種推理模式的性能對(duì)比

更關(guān)鍵的是「泛化能力」。在全部 24K 數(shù)據(jù)聯(lián)合訓(xùn)練后,ThinkMorph 在9 個(gè)基準(zhǔn)上相比基礎(chǔ)模型平均提升 20.74%,其中包括多個(gè)從未見(jiàn)過(guò)的域外任務(wù)。盡管只有 7B 參數(shù),它已可以與大規(guī)模模型比肩:在 BLINK-J 上超越 Qwen2.5-VL-72B 超過(guò) 10 個(gè)百分點(diǎn),在 SAT 空間推理上領(lǐng)先 GPT-4o 24.67 個(gè)百分點(diǎn),在 MMVP 上匹配 Gemini 2.5 Flash。

這不只是規(guī)模的勝利,而是訓(xùn)練策略的勝利:交錯(cuò)推理讓生成與理解相互強(qiáng)化,用更少的數(shù)據(jù)撬動(dòng)了更強(qiáng)的視覺(jué)推理能力。



圖 7:ThinkMorph 在 9 個(gè)基準(zhǔn)上的泛化表現(xiàn)

不止于性能:原生多模態(tài)推理的潛力遠(yuǎn)超想象

如果 ThinkMorph 只是「性能更好」,它可能只是又一篇刷榜論文。但比數(shù)字更重要的,是這個(gè)初步探索中涌現(xiàn)出的一系列積極信號(hào)。它們暗示:原生多模態(tài)推理的潛力,我們才剛剛觸及冰山一角。



圖 8:三個(gè)涌現(xiàn)信號(hào)概覽

信號(hào)一:未見(jiàn)視覺(jué)操作 —— 模型自主習(xí)得了 8 種新技能

訓(xùn)練數(shù)據(jù)中只包含四類基礎(chǔ)視覺(jué)操作(拼圖可視化、路徑繪制、邊界框標(biāo)注、區(qū)域高亮),但測(cè)試時(shí)模型自發(fā)展現(xiàn)了 8 種從未見(jiàn)過(guò)的操作如放大(zoom-in)、圖像修復(fù)(inpainting)等。



圖 9:模型涌現(xiàn)的未見(jiàn)視覺(jué)操作示例

最典型的例子:面對(duì)「這個(gè)燈籠椒是紅色還是黃色?」這個(gè)問(wèn)題,模型自動(dòng)生成了一張放大圖來(lái)辨認(rèn)顏色的細(xì)微差異,完全模仿了人類湊近觀察的認(rèn)知策略,而這種操作在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)。在某些基準(zhǔn)上,這類涌現(xiàn)操作占到了所有視覺(jué)生成的10% 以上。

研究團(tuán)隊(duì)分析了其來(lái)源機(jī)制:預(yù)訓(xùn)練賦予了原始的視覺(jué)操作能力,而交錯(cuò)推理微調(diào)激活了這些能力在推理場(chǎng)景中的目的性運(yùn)用。

信號(hào)二:自主模式切換 ——「這道題不需要視覺(jué)輔助」

盡管只用交錯(cuò)推理數(shù)據(jù)訓(xùn)練,模型在5.3%的測(cè)試案例中「自主切換」為純文字推理。這不是隨機(jī)行為:在切換的樣本上準(zhǔn)確率達(dá)到81.25%,比堅(jiān)持交錯(cuò)推理高出 7.29 個(gè)百分點(diǎn)。

模型學(xué)會(huì)了判斷「這道題需不需要視覺(jué)輔助」,像人類一樣靈活協(xié)調(diào)語(yǔ)言和視覺(jué),而非機(jī)械執(zhí)行固定流程。



圖 10:自主模式切換案例與統(tǒng)計(jì)

信號(hào)三:協(xié)同解空間探索 —— 多樣性驅(qū)動(dòng)更好的測(cè)試時(shí)擴(kuò)展

在 Best-of-N 采樣下,交錯(cuò)推理一致優(yōu)于單模態(tài)推理,且分布偏移越大優(yōu)勢(shì)越明顯。在最具挑戰(zhàn)的 BLINK-J 上,交錯(cuò)推理從 65.33% 提升到 73.33%(+8.0%),而純視覺(jué)推理反而下降 2.0%。

原因在于:?jiǎn)文B(tài)推理鏈局限于單一表示空間,而交錯(cuò)推理同時(shí)在文字和圖像空間中探索,天然產(chǎn)生更「多樣化」的推理軌跡,覆蓋更廣的解空間。



圖 11:Best-of-N 測(cè)試時(shí)擴(kuò)展對(duì)比

涌現(xiàn)屬性的進(jìn)一步驗(yàn)證

上述三個(gè)涌現(xiàn)信號(hào)是否只是個(gè)別任務(wù)上的偶然?在更廣泛的域外基準(zhǔn)上,研究團(tuán)隊(duì)進(jìn)一步驗(yàn)證了它們的穩(wěn)健性。

測(cè)試時(shí)擴(kuò)展的表現(xiàn)因任務(wù)類型而異:在推理密集型任務(wù)(如 VStar)上,性能隨采樣數(shù) N 單調(diào)提升(+5.89%@N=8);而在感知主導(dǎo)型任務(wù)(如 BLINK-J)上呈現(xiàn) U 形曲線,需要更大的采樣量才能逃離局部最優(yōu)。



圖 12:不同任務(wù)類型的測(cè)試時(shí)擴(kuò)展趨勢(shì)

此外,當(dāng)模型被允許在不同推理模式間靈活切換時(shí),模式多樣性本身進(jìn)一步放大了測(cè)試時(shí)擴(kuò)展的收益,為未來(lái)更高效的多模態(tài)擴(kuò)展提供了方向。



圖 13:模式多樣性對(duì)測(cè)試時(shí)擴(kuò)展的增益

邊界在哪里?

ThinkMorph 同時(shí)討論了這種推理方式的邊界條件。在圖表分析中,關(guān)鍵信息本身就是文字(標(biāo)簽、數(shù)值),純文字推理反而略優(yōu)(+1.88%);但在需要精確視覺(jué)定位的任務(wù)上(如 MMVP),交錯(cuò)推理優(yōu)勢(shì)明顯(+6.33%)。簡(jiǎn)單說(shuō):需要持續(xù)「看」的任務(wù),交錯(cuò)推理最優(yōu);一眼就能提取關(guān)鍵信息的任務(wù),文字推理更高效。



圖 14:交錯(cuò)推理的邊界條件分析

總結(jié):原生多模態(tài)推理的未來(lái)

ThinkMorph 仍是「原生多模態(tài)推理」的一場(chǎng)初步探索,但它已經(jīng)證明,文字與圖像一旦在統(tǒng)一架構(gòu)中共同演化,就會(huì)涌現(xiàn)出訓(xùn)練數(shù)據(jù)從未覆蓋的新能力,并學(xué)會(huì)自主判斷何時(shí)該看、何時(shí)該想。

如果說(shuō)當(dāng)下的推理增強(qiáng)是在語(yǔ)言空間里把推理擰到極致,而 ThinkMorph 暗示下一次范式級(jí)突破可能不在更長(zhǎng)的文本鏈條里,而在視覺(jué)與語(yǔ)言「交錯(cuò)協(xié)作」的原生推理里?邕^(guò)第一道門(mén)檻之后,等待被釋放的是一種構(gòu)建智能的全新默認(rèn)方式。讓多模態(tài)成為默認(rèn)的思考方式,而這才剛剛開(kāi)始。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
每天超65艘超級(jí)油輪去美國(guó)裝油!大佬呼吁特朗普:恢復(fù)攻擊伊朗

每天超65艘超級(jí)油輪去美國(guó)裝油!大佬呼吁特朗普:恢復(fù)攻擊伊朗

鷹眼Defence
2026-04-27 17:49:07
南方五省區(qū)這一電價(jià)上漲

南方五省區(qū)這一電價(jià)上漲

第一財(cái)經(jīng)資訊
2026-04-28 14:06:37
2015年,廣東老板舍棄百萬(wàn)年薪,在終南山出家,妻子:愿再無(wú)來(lái)世

2015年,廣東老板舍棄百萬(wàn)年薪,在終南山出家,妻子:愿再無(wú)來(lái)世

鍋鍋愛(ài)歷史
2026-04-28 04:00:10
3-1!貝恩22+5魔術(shù)滅活塞奪賽點(diǎn),瓦格納19+5坎寧安25+9+6

3-1!貝恩22+5魔術(shù)滅活塞奪賽點(diǎn),瓦格納19+5坎寧安25+9+6

湖人崛起
2026-04-28 10:57:21
鏡報(bào):英超拒絕曼城調(diào)整賽程要求,他們要在7天內(nèi)踢3場(chǎng)比賽

鏡報(bào):英超拒絕曼城調(diào)整賽程要求,他們要在7天內(nèi)踢3場(chǎng)比賽

懂球帝
2026-04-28 16:46:07
上海地鐵32歲女子與66歲老太互毆后續(xù):央媒發(fā)聲,拘留只是開(kāi)始!

上海地鐵32歲女子與66歲老太互毆后續(xù):央媒發(fā)聲,拘留只是開(kāi)始!

青梅侃史啊
2026-04-27 11:38:30
買面包糕點(diǎn)時(shí),懂行的人很少買這5種,店員:我們自己都很少吃

買面包糕點(diǎn)時(shí),懂行的人很少買這5種,店員:我們自己都很少吃

阿龍美食記
2026-04-17 14:04:17
白宮晚宴提前結(jié)束,沒(méi)上桌的2600份龍蝦去哪了?特朗普希望重辦,預(yù)計(jì)還需2600份

白宮晚宴提前結(jié)束,沒(méi)上桌的2600份龍蝦去哪了?特朗普希望重辦,預(yù)計(jì)還需2600份

紅星新聞
2026-04-28 17:18:36
又一省份推動(dòng)帶薪休假落地

又一省份推動(dòng)帶薪休假落地

澎湃新聞
2026-04-28 11:11:03
廣東一男子臆想同學(xué)要害自己,持刀致同學(xué)及其弟弟1死1傷,經(jīng)鑒定男子患精神分裂癥;被害人:兇手行兇前曾問(wèn)有什么話要跟他說(shuō)

廣東一男子臆想同學(xué)要害自己,持刀致同學(xué)及其弟弟1死1傷,經(jīng)鑒定男子患精神分裂癥;被害人:兇手行兇前曾問(wèn)有什么話要跟他說(shuō)

臺(tái)州交通廣播
2026-04-28 02:15:19
“二女兒長(zhǎng)大得多恨你們!”家長(zhǎng)否認(rèn)重男輕女,名字卻暴露了私心

“二女兒長(zhǎng)大得多恨你們!”家長(zhǎng)否認(rèn)重男輕女,名字卻暴露了私心

妍妍教育日記
2026-04-28 16:14:08
網(wǎng)紅白冰,抖音、微博、小紅書(shū)等賬號(hào)已被禁止關(guān)注!本人出鏡道歉,曾說(shuō)探店不收一分錢,全網(wǎng)粉絲超4000萬(wàn)

網(wǎng)紅白冰,抖音、微博、小紅書(shū)等賬號(hào)已被禁止關(guān)注!本人出鏡道歉,曾說(shuō)探店不收一分錢,全網(wǎng)粉絲超4000萬(wàn)

每日經(jīng)濟(jì)新聞
2026-04-28 14:19:14
千萬(wàn)粉絲網(wǎng)紅白冰偷稅超900萬(wàn)元被查,用公司購(gòu)買個(gè)人使用的奢侈品,白冰多平臺(tái)賬號(hào)仍可正常關(guān)注

千萬(wàn)粉絲網(wǎng)紅白冰偷稅超900萬(wàn)元被查,用公司購(gòu)買個(gè)人使用的奢侈品,白冰多平臺(tái)賬號(hào)仍可正常關(guān)注

極目新聞
2026-04-28 11:20:23
上海試點(diǎn)三明醫(yī)改,年薪30-50萬(wàn)被指畫(huà)餅,評(píng)論區(qū)幾乎都是不看好

上海試點(diǎn)三明醫(yī)改,年薪30-50萬(wàn)被指畫(huà)餅,評(píng)論區(qū)幾乎都是不看好

譚談社會(huì)
2026-04-28 14:36:09
上海地鐵搶座互毆反轉(zhuǎn)!原視頻曝光,難怪女子不肯讓座

上海地鐵搶座互毆反轉(zhuǎn)!原視頻曝光,難怪女子不肯讓座

行者聊官
2026-04-28 08:42:52
山西突發(fā)重大命案!33歲未婚男殺害離婚女后潛逃,逃跑畫(huà)面流出

山西突發(fā)重大命案!33歲未婚男殺害離婚女后潛逃,逃跑畫(huà)面流出

老貓觀點(diǎn)
2026-04-28 07:34:27
網(wǎng)信部門(mén)依法查處“剪映”App等生成合成內(nèi)容標(biāo)識(shí)違法問(wèn)題網(wǎng)站平臺(tái)

網(wǎng)信部門(mén)依法查處“剪映”App等生成合成內(nèi)容標(biāo)識(shí)違法問(wèn)題網(wǎng)站平臺(tái)

每日經(jīng)濟(jì)新聞
2026-04-28 17:02:59
“我跑路了,準(zhǔn)備去東南亞闖一闖”,男子騙取熟人350萬(wàn)后朋友圈宣布跑路,還喊話12位債主可以報(bào)案,后被警方抓獲

“我跑路了,準(zhǔn)備去東南亞闖一闖”,男子騙取熟人350萬(wàn)后朋友圈宣布跑路,還喊話12位債主可以報(bào)案,后被警方抓獲

大風(fēng)新聞
2026-04-28 17:50:06
斯諾克世錦賽:趙心童打瘋了!單桿57分反敗為勝,墨菲連輸3局!

斯諾克世錦賽:趙心童打瘋了!單桿57分反敗為勝,墨菲連輸3局!

劉姚堯的文字城堡
2026-04-28 18:10:09
4月28日,人社部召開(kāi)發(fā)布會(huì),退休人員養(yǎng)老金調(diào)整通知公布了嗎?

4月28日,人社部召開(kāi)發(fā)布會(huì),退休人員養(yǎng)老金調(diào)整通知公布了嗎?

閱微札記
2026-04-28 16:51:09
2026-04-28 19:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12881文章數(shù) 142638關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

《奇葩說(shuō)》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

頭條要聞

《奇葩說(shuō)》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

體育要聞

季后賽最新局勢(shì):雷霆4-0晉級(jí)首隊(duì) 4隊(duì)3-1

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

政治局會(huì)議:加強(qiáng)算力網(wǎng)等規(guī)劃建設(shè)

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
教育
手機(jī)
時(shí)尚
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

教育要聞

湖北城市建設(shè)職業(yè)技術(shù)學(xué)院人工智能學(xué)院“崗課賽證創(chuàng)”打通就業(yè)路

手機(jī)要聞

iPhone Air支持SIM卡了?華強(qiáng)北產(chǎn)業(yè)鏈揭秘:不建議新手嘗試

解鎖劉浩存的「紅運(yùn)」密碼 | 高清鏡頭后的底氣

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版