国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

V-Thinker: 讓模型像人一樣「邊畫邊想」

0
分享至



本文共同第一作者為北京郵電大學(xué)博士生喬潤祺與碩士生譚秋納,主要研究方向為多模態(tài)推理,其共同完成的工作主要有We-MathWe-Math 2.0,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發(fā)表。本文的通訊作者為博士生導(dǎo)師張洪剛與微信視覺技術(shù)中心李琛。

在人類解決復(fù)雜視覺問題的過程中,視覺交互往往是重要的認知工具。例如在幾何解題中,通過添加輔助線來顯式建??臻g關(guān)系;在常識推理中,也可以通過添加標注來進一步梳理和驗證推理過程。

圍繞這一問題,早期研究(如 LLaVA-Plus、Visual Sketchpad)開始探索在推理過程中引入視覺操作,以增強模型與圖像之間的交互。隨著強化學(xué)習(xí)方法被引入視覺推理訓(xùn)練,模型在復(fù)雜視覺場景中的表現(xiàn)得到顯著提升。

進一步,o3、DeepEyes、Thyme 等工作表明,模型可以在強化學(xué)習(xí)的引導(dǎo)下自主生成代碼,通過放大、裁剪、旋轉(zhuǎn)等操作與圖像進行交互,以此實現(xiàn)基于圖像思考的推理范式。

在上述進展的基礎(chǔ)上,我們進一步思考:模型是否能夠像人一樣,在推理過程中實現(xiàn)「邊畫邊思考」的視覺推理范式?為此,我們從數(shù)據(jù)、訓(xùn)練范式與評測體系等多個方面,對視覺交互推理進行了系統(tǒng)性探索:

  • 我們提出V-Thinker,一個面向視覺交互推理的多模態(tài)推理框架。通過冷啟動監(jiān)督微調(diào)與強化學(xué)習(xí)相結(jié)合的訓(xùn)練,使模型能夠在推理過程中自主生成代碼并與圖像交互,從而實現(xiàn)「邊畫邊思考」的視覺推理方式。
  • 在數(shù)據(jù)層面,我們提出Data Evolution Flywheel(數(shù)據(jù)演化飛輪),能夠在多樣性、質(zhì)量與難度三個維度上自動合成、演化并校驗視覺交互推理數(shù)據(jù),并進一步構(gòu)建開源了數(shù)據(jù)集V-Interaction-400K,為視覺交互推理和圖像到代碼轉(zhuǎn)換等任務(wù)提供了基礎(chǔ)支撐。
  • 在訓(xùn)練層面,我們設(shè)計了一套漸進式視覺訓(xùn)練范式,通過構(gòu)建V-Perception-40K首先提升模型的視覺感知能力,再通過結(jié)合監(jiān)督微調(diào)與強化學(xué)習(xí)的兩階段訓(xùn)練,使模型掌握基于視覺交互的推理能力。
  • 在評測方面,我們構(gòu)建了VTBench,一個面向視覺交互推理場景的專家標注基準。實驗結(jié)果表明,V-Thinker 在交互式推理與通用推理任務(wù)上均有提升。



  • 論文標題:V-Thinker: Interactive Thinking with Images
  • 論文鏈接:https://arxiv.org/abs/2511.04460
  • 代碼倉庫:https://github.com/We-Math/V-Thinker
  • 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/V-Interaction-400K

目前不僅在 X 上收獲了一定的關(guān)注度,并在首月數(shù)據(jù)下載次數(shù)突破 10K+。



數(shù)據(jù)飛輪:

數(shù)據(jù)合成范式的新思考

為了實現(xiàn)「邊畫邊思考」的視覺推理范式,一個關(guān)鍵挑戰(zhàn)在于如何構(gòu)建支持模型通過代碼讀取并編輯圖像的高質(zhì)量數(shù)據(jù)。

我們解決這一挑戰(zhàn)的核心思想在于:「讓模型充當(dāng)造題者,而非解題者」。而這源自于一次偶然間的嘗試:



如上圖所示,我們嘗試將 We-Math 2.0(先前工作)的知識點輸入至 GPT-5,引導(dǎo) GPT-5 生成依賴視覺交互的推理問題(包含原圖代碼、問題、解題過程、視覺交互代碼等),驚喜地發(fā)現(xiàn)其所生成的代碼通過編譯能夠渲染出結(jié)構(gòu)、語義一致的高質(zhì)量圖像,并與推理過程保持良好一致性。

基于這一發(fā)現(xiàn),我們有了一個大膽的想法:只要能讓知識點體系足夠泛化,那就可以自動地構(gòu)造大規(guī)模訓(xùn)練數(shù)據(jù)。正如本文提出的數(shù)據(jù)飛輪機制所示,只要能找到對知識點產(chǎn)生增量的有效信號,數(shù)據(jù)的多樣性便可以在迭代過程中不斷擴展。



因此,如上圖(左)所示,我們首先構(gòu)造了一個知識點集和工具集合,讓模型根據(jù)指定知識點生成題目,并要求模型給出這個題目所需的工具。再根據(jù)這些工具,生成新的題目召回新的知識點,以此循環(huán)迭代。我們發(fā)現(xiàn)通過 We-Math 2.0 的知識點和手動構(gòu)造的工具庫做初始,最終通過層次聚類,可以召回出 2W+ 的新知識點,覆蓋 25 個領(lǐng)域(數(shù)學(xué)、物理、音樂等)。

進一步,我們構(gòu)建了 Checker,分別對問題與答案、原始圖像、視覺操作后的圖像進行一致性校驗。對于在各個維度上均通過校驗的樣本,為了進一步提升問題難度并增加視覺交互的輪次,我們引入一個拓展器。其基于「推理過程本質(zhì)上由問題所引導(dǎo)」的思想,通過重構(gòu)問題,使原始問題的答案作為新的條件,引入額外的視覺交互步驟,從而生成新的問題與對應(yīng)答案。

此外,對于原始圖像與視覺操作后圖像均保持正確,但問題與答案一致性存在偏差的樣本,我們對其進行篩選,并同樣通過問題重構(gòu)的方式,引導(dǎo)視覺操作后的圖像在推理過程中以正確的形式出現(xiàn)在 CoT 中。

通過上述過程的持續(xù)迭代,我們最終構(gòu)建了大規(guī)模交互推理數(shù)據(jù)集 V-Interaction-400K。



漸進式訓(xùn)練:

從感知對齊到交互推理

為解決現(xiàn)有多模態(tài)模型在細粒度感知定位能力上的不足,并逐步實現(xiàn)「邊畫邊思考」的視覺推理能力,我們設(shè)計了一套漸進式訓(xùn)練體系。

第一階段(感知能力):我們先對模型的視覺感知能力進行提升。如下圖所示,我們依托數(shù)據(jù)飛輪中讓模型充當(dāng)造題者的核心思想,在感知空間中通過視覺元素關(guān)系、元素數(shù)量及知識點進行建模,并設(shè)計不同層級的問題進行自動合成感知數(shù)據(jù),構(gòu)建感知數(shù)據(jù)集 V-Perception-40K,以此訓(xùn)練模型的細粒度定位能力。



第二階段(交互推理能力):我們采用「SFT + GRPO」的訓(xùn)練策略,使模型逐步具備穩(wěn)定的視覺交互推理能力。

  • 冷啟動:通過 V-Interaction-400K 實現(xiàn)初步對齊。
  • 強化學(xué)習(xí)(RL):我們首先從 V-Interaction-400K 中采樣了 3k 條數(shù)據(jù)(模型在輸入原圖的情況下作答錯誤,但在輸入視覺編輯后的圖片作答正確),并從 We-Math 2.0、MMK12、ThinkLite 等開源工作中進行采樣,構(gòu)成了該階段的訓(xùn)練數(shù)據(jù)。
  • 訓(xùn)練設(shè)定:訓(xùn)練框架與獎勵函數(shù)均遵循了 Thyme 的架構(gòu)與設(shè)定,引導(dǎo)模型在推理過程中生成并執(zhí)行視覺操作代碼,在 Sandbox 中執(zhí)行代碼并返回操作后的圖片再次輸入至模型進行后續(xù)推理,使模型能夠在推理過程中自主生成代碼并與圖像交互,實現(xiàn)「邊畫邊思考」的視覺推理范式。

VTBench:

面向視覺交互的評測基準

為了進一步評估模型在視覺交互推理場景中的真實能力,我們構(gòu)建了 VTBench,一個面向依賴視覺交互的評測基準。與現(xiàn)有的 Benchmark 不同,VTBench 聚焦于通過與圖像交互才能完成的問題,例如添加輔助線、標注關(guān)鍵區(qū)域或修改圖像結(jié)構(gòu)。

在構(gòu)建過程中,所有樣本來自多個公開數(shù)據(jù)集及公共平臺,并由人工進行標注。特別地,我們在標注前進行了人工投票篩選:只有當(dāng)多數(shù)認為視覺交互是解題所必需時,樣本才會被納入基準,以此增強所選題目的視覺交互必要性。



在評測設(shè)計上,VTBench 從推理過程的不同階段出發(fā),構(gòu)建了三種不同的任務(wù),覆蓋從基礎(chǔ)感知到交互推理的完整流程。具體而言,如上圖所示,包括對視覺元素的感知能力、在明確指令下執(zhí)行視覺操作的能力,以及在推理過程中面向需要視覺交互任務(wù)的解題能力。針對不同類型的任務(wù),模型需要生成可執(zhí)行代碼與圖像進行交互,其結(jié)果再與人工標注進行對齊評估,以確保評測真正反映模型的視覺交互推理水平。

實驗結(jié)果

定量分析



交互式視覺推理能力顯著提升:V-Thinker 在 VTBench 的三類交互任務(wù)中均顯著優(yōu)于基線模型,平均準確率提升超 12%,其中在 Instruction-Guided Interaction 場景中性能提升超過 22%。

模型在感知、視覺交互能力上仍存在提升空間:盡管 GPT-4o、Qwen2.5-VL 等模型在通用視覺推理任務(wù)中表現(xiàn)出較強能力,但在涉及空間關(guān)系建模與點級定位的交互任務(wù)中,性能有所下降。這一現(xiàn)象反映出視覺交互能力與推理能力之間仍存在差距。

交互式推理在通用推理場景具備一定泛化性:在多個通用視覺推理基準中,V-Thinker 在 MathVision 等復(fù)雜多步推理任務(wù)上取得 6% 的性能提升,表明視覺操作驅(qū)動的推理范式不僅適用于交互任務(wù),也具備向通用視覺推理遷移的潛力。

定性分析

視覺交互能力顯著提升,并在通用場景有所泛化:V-Thinker 能夠穩(wěn)定生成符合問題需求的圖像編輯操作,例如繪制輔助線、標注關(guān)鍵區(qū)域或完成結(jié)構(gòu)化重繪。值得注意的是,在部分不強制要求視覺交互的任務(wù)中,模型亦會主動對圖像進行標注,以輔助中間推理過程,表明視覺交互已逐漸內(nèi)化為其推理策略的一部分。



強化學(xué)習(xí)多路徑交互探索能力顯著增強:如下圖所示,我們對強化學(xué)習(xí)階段的 Rollout 樣本進行了可視化,V-Thinker 在同一圖像條件下能夠生成多樣化的交互路徑,覆蓋更廣泛的解空間。這些路徑在中間步驟和操作選擇上存在明顯差異,表明模型在交互推理階段具備更強的策略多樣性,并進一步提升模型的可解釋性。



推理過程可視化與可解釋性提升:如下圖所示,在完整示例中,V-Thinker 能夠在推理過程中自主生成并執(zhí)行圖像編輯代碼,并即時渲染中間結(jié)果,從而將原本的文本推理過程外化為可觀察的視覺中間過程。通過這種「生成—執(zhí)行—反饋」的交互循環(huán),模型能夠在保持推理一致性的同時,使復(fù)雜視覺推理過程更加直觀且具備更好的可解釋性。



數(shù)據(jù)飛輪分析:知識系統(tǒng)與數(shù)據(jù)規(guī)模的演化

數(shù)據(jù)飛輪驅(qū)動的知識體系持續(xù)擴展:我們進一步分析了數(shù)據(jù)飛輪在數(shù)據(jù)構(gòu)建過程中的作用。如下圖所示,從初始知識點出發(fā),數(shù)據(jù)飛輪能夠持續(xù)擴展知識概念與視覺工具,最終形成覆蓋 25 個領(lǐng)域、24,000 余個知識點的層次化知識體系。



演化輪次與知識規(guī)模的非線性增長規(guī)律:此外,我們進一步分析了演化輪次與知識體系及視覺工具規(guī)模之間的關(guān)系。如下圖所示,隨著輪次增加,知識點與視覺工具數(shù)量呈現(xiàn)明顯的非線性增長趨勢,在五輪演化后整體規(guī)模擴展至初始種子的約 50 倍,且未出現(xiàn)明顯飽和。同時,在不同的初始設(shè)定下可以看到,更豐富的初始知識點或工具集合能夠帶來更優(yōu)的演化軌跡,凸顯了初始種子多樣性在數(shù)據(jù)飛輪持續(xù)演化過程中的重要作用。



總結(jié)與展望

我們希望通過 V-Thinker 可以推動「Thinking with Images」這一方向的進一步發(fā)展。在這項工作中,我們渴望展現(xiàn),模型不僅可以「看圖推理」,還可以在推理過程中自主生成并執(zhí)行代碼,與圖像進行交互,從而實現(xiàn)真正意義上的「邊畫邊思考」。

圍繞這一目標,我們從方法、數(shù)據(jù)、訓(xùn)練與評測等多個層面進行了系統(tǒng)探索。通過引入代碼驅(qū)動的視覺交互機制、數(shù)據(jù)演化飛輪以及漸進式訓(xùn)練范式,V-Thinker 不僅在數(shù)學(xué)任務(wù)中展現(xiàn)出了交互能力,更在通用場景展現(xiàn)出了泛化能力。

此外,在這項工作的實現(xiàn)過程中,我們認為隨著模型規(guī)模和能力的持續(xù)提升,推理范式及應(yīng)用場景將會有全新的發(fā)展可能性。一方面,數(shù)據(jù)構(gòu)建范式有望進一步演化,模型充當(dāng)造題者的下一步或許真的具備創(chuàng)造知識的可能性,畢竟現(xiàn)有知識的源頭也是通過人類經(jīng)驗所獲得的;另一方面,模型推理能力的上限會帶來全新的應(yīng)用場景。

當(dāng)然,V-Thinker 這篇工作是我們在這一領(lǐng)域的首次嘗試,對于感知能力和交互能力由于算力有限,還有一定的提升空間,例如可以加入不同分辨率的擾動。我們期待未來的多模態(tài)大模型能夠發(fā)展出更加出色、更加接近人類認知方式的視覺交互與推理能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

八斗小先生
2026-01-10 15:30:07
那對迎著槍口前進的年輕情侶

那對迎著槍口前進的年輕情侶

玖奌雜貨鋪
2026-01-10 19:14:44
罕見一幕!阿根廷全額償還美方資金,實際只用25億美元

罕見一幕!阿根廷全額償還美方資金,實際只用25億美元

桂系007
2026-01-11 06:33:06
人民日報罕見“鐘才平”四連評,釋放極強政策信號,信息量巨大!

人民日報罕見“鐘才平”四連評,釋放極強政策信號,信息量巨大!

識局Insight
2026-01-10 13:23:53
哈梅內(nèi)伊喊話特朗普

哈梅內(nèi)伊喊話特朗普

第一財經(jīng)資訊
2026-01-09 23:45:42
報告稱中國人均存款11萬,但有8.37億人負債,占比達73%

報告稱中國人均存款11萬,但有8.37億人負債,占比達73%

爆角追蹤
2026-01-10 21:36:39
分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養(yǎng)不起娃

分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養(yǎng)不起娃

查爾菲的筆記
2026-01-09 22:17:44
澤連斯基引發(fā)的鏈式反應(yīng):敘利亞、哈馬斯、黎巴嫩真主黨、委內(nèi)瑞拉、伊朗

澤連斯基引發(fā)的鏈式反應(yīng):敘利亞、哈馬斯、黎巴嫩真主黨、委內(nèi)瑞拉、伊朗

高博新視野
2026-01-08 20:22:29
官媒發(fā)文,揭開王思聰與秦嵐真實關(guān)系,原來汪小菲一個字都沒說錯

官媒發(fā)文,揭開王思聰與秦嵐真實關(guān)系,原來汪小菲一個字都沒說錯

郭蛹包工頭
2026-01-08 18:19:09
特朗普宣稱“不需要國際法”,聯(lián)合國秘書長重申立場

特朗普宣稱“不需要國際法”,聯(lián)合國秘書長重申立場

澎湃新聞
2026-01-10 19:57:04
多哈冠軍賽:林詩棟男單四強出局,奧運亞軍意外落敗

多哈冠軍賽:林詩棟男單四強出局,奧運亞軍意外落敗

大昆說臺球
2026-01-10 22:47:58
神仙姐姐的野生圖,太美了。

神仙姐姐的野生圖,太美了。

微微熱評
2026-01-09 12:20:53
特朗普:自己不拿下格陵蘭島,俄羅斯或中國就會拿下,網(wǎng)友反駁:這是個謊言

特朗普:自己不拿下格陵蘭島,俄羅斯或中國就會拿下,網(wǎng)友反駁:這是個謊言

大象新聞
2026-01-11 00:13:15
麥當(dāng)勞漢堡尺寸小得像馬卡龍?網(wǎng)友吐槽“一邊縮水一邊漲價”

麥當(dāng)勞漢堡尺寸小得像馬卡龍?網(wǎng)友吐槽“一邊縮水一邊漲價”

中國能源網(wǎng)
2026-01-10 22:46:13
江蘇35歲男子被騙到柬埔寨!妻子接到遺言電話,不止詐騙這么簡單

江蘇35歲男子被騙到柬埔寨!妻子接到遺言電話,不止詐騙這么簡單

李健政觀察
2026-01-10 14:45:38
3-2!非洲杯7冠王淘汰衛(wèi)冕冠軍進4強 紅軍巨星傳射+國家隊造百球

3-2!非洲杯7冠王淘汰衛(wèi)冕冠軍進4強 紅軍巨星傳射+國家隊造百球

我愛英超
2026-01-11 06:41:21
從扣船到炸港僅數(shù)小時,俄軍讓北約明白,手伸太長必被砍

從扣船到炸港僅數(shù)小時,俄軍讓北約明白,手伸太長必被砍

星辰夜語
2026-01-10 11:55:24
別看現(xiàn)在美國威脅丹麥,這么可憐巴巴,其實丹麥人也不是什么好人

別看現(xiàn)在美國威脅丹麥,這么可憐巴巴,其實丹麥人也不是什么好人

花顏蘊韻
2026-01-10 18:21:39
19歲河南小伙在倫敦“撿”了個瑞士爺爺,回國后硬是把他接來鄭州養(yǎng)老,臨終前老人說了一句話,讓無數(shù)人破防

19歲河南小伙在倫敦“撿”了個瑞士爺爺,回國后硬是把他接來鄭州養(yǎng)老,臨終前老人說了一句話,讓無數(shù)人破防

源溯歷史
2026-01-09 18:47:21
特朗普要求美國信用卡利率封頂10%,國內(nèi)利率仍普遍超18%,甚至更高

特朗普要求美國信用卡利率封頂10%,國內(nèi)利率仍普遍超18%,甚至更高

風(fēng)向觀察
2026-01-10 12:42:54
2026-01-11 10:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

牛彈琴:特朗普沒想到 抓馬杜羅后全球情緒總體很穩(wěn)定

頭條要聞

牛彈琴:特朗普沒想到 抓馬杜羅后全球情緒總體很穩(wěn)定

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
旅游
公開課

藝術(shù)要聞

毛主席信函引發(fā)書法守舊與創(chuàng)新的深思

《全面戰(zhàn)爭:戰(zhàn)錘3》DLC“折磨之潮”試玩報告:落日余暉

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

旅游要聞

官方帶你冬游喀什,詳細路線產(chǎn)品來啦!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版