国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

牛津大學(xué)、中國(guó)科大聯(lián)合中南大學(xué)等提出VCode:將圖像轉(zhuǎn)為代碼,多模態(tài)理解性能飆升12.3點(diǎn)!

0
分享至

文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)

最近,來(lái)自牛津大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、中南大學(xué)和微軟研究院的研究者們聯(lián)手,帶來(lái)了一項(xiàng)非常有意思的工作:VCode。簡(jiǎn)單來(lái)說(shuō),他們不再讓AI模型僅僅“看懂”圖片,而是要求模型將圖片“翻譯”成一種名為SVG的代碼。這種做法,就像是讓AI學(xué)習(xí)用簡(jiǎn)筆畫(huà)和符號(hào)來(lái)復(fù)刻一幅畫(huà),不僅要畫(huà)得像,更要抓住畫(huà)里的精髓。

這項(xiàng)研究的核心思想是,通過(guò)生成精確、可執(zhí)行的代碼,我們可以更深入地檢驗(yàn)和提升AI對(duì)視覺(jué)世界的理解能力。



  • 論文標(biāo)題 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

  • 作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

  • 機(jī)構(gòu) : 牛津大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、中南大學(xué)、微軟研究院

  • 論文地址 : https://arxiv.org/abs/2511.02778

  • 項(xiàng)目主頁(yè) : https://csu-jpg.github.io/VCode

  • 代碼倉(cāng)庫(kù) : https://github.com/CSU-JPG/VCode

背景:從像素到符號(hào),AI視覺(jué)的進(jìn)階之路

我們知道,現(xiàn)在的大模型(VLMs)在處理語(yǔ)言任務(wù)上已經(jīng)非常強(qiáng)大,但在理解視覺(jué)信息方面,它們大多還停留在像素層面。也就是說(shuō),模型看到的是一堆RGB值,雖然能識(shí)別出物體,但很難像人類一樣,提煉出物體之間的結(jié)構(gòu)、關(guān)系和符號(hào)意義。

舉個(gè)例子,人類看到一張畫(huà),可能會(huì)隨手畫(huà)個(gè)草圖,勾勒出主要輪廓和布局。這個(gè)草圖就是一種符號(hào)化的表示,它緊湊、易于理解,并且抓住了核心信息。受到這個(gè)啟發(fā),研究者們想,能不能讓AI也學(xué)會(huì)這種“打草稿”的能力呢?

他們選擇了SVG(可縮放矢量圖形)作為這種“草圖”的載體。SVG是一種用代碼來(lái)描述圖形的格式,具有緊湊、可解釋和可執(zhí)行的優(yōu)點(diǎn)。于是,一個(gè)全新的任務(wù)誕生了:將圖片(像素表示)轉(zhuǎn)化為SVG代碼(符號(hào)表示)。


VCode基準(zhǔn):三大領(lǐng)域考驗(yàn)AI的“畫(huà)功”

為了系統(tǒng)地評(píng)估模型將圖像轉(zhuǎn)化為SVG代碼的能力,研究團(tuán)隊(duì)構(gòu)建了 VCode 基準(zhǔn)。這個(gè)基準(zhǔn)并非從零開(kāi)始,而是巧妙地“再利用”了現(xiàn)有的三個(gè)經(jīng)典多模態(tài)評(píng)測(cè)集,覆蓋了不同難度和維度的挑戰(zhàn):

  • 通用常識(shí) (MM-Vet) : 考察模型對(duì)日常場(chǎng)景和空間關(guān)系的理解。

  • 專業(yè)學(xué)科 (MMMU) : 涉及大學(xué)水平的專業(yè)知識(shí),需要模型具備更深層次的推理能力。

  • 視覺(jué)感知 (CV-Bench) : 專注于更純粹的視覺(jué)任務(wù),如物體計(jì)數(shù)、距離估計(jì)和三維關(guān)系判斷。

通過(guò)這三個(gè)維度的考驗(yàn),VCode能夠全面地衡量一個(gè)模型是否真正“理解”了圖像的符號(hào)意義。

CodeVQA:一種新穎的評(píng)估范式

那么,如何判斷模型生成的SVG代碼好不好呢?傳統(tǒng)的像素級(jí)對(duì)比顯然不合適,因?yàn)槲覀冏非蟮氖恰吧袼啤倍恰靶嗡啤薄?/p>

為此,論文提出了一個(gè)名為 CodeVQA 的創(chuàng)新評(píng)估方法。它的流程是:

  1. 模型根據(jù)原圖生成SVG代碼。

  2. 將SVG代碼渲染成一張新的圖片。

  3. 讓一個(gè)策略模型(Policy Model)看著這張渲染出來(lái)的圖片,回答關(guān)于原圖的問(wèn)題。

如果策略模型能夠正確回答,就說(shuō)明SVG代碼成功地保留了原圖的關(guān)鍵符號(hào)信息。反之,則說(shuō)明轉(zhuǎn)化過(guò)程中信息丟失了。CV君認(rèn)為,這種評(píng)估方式非常巧妙,它繞開(kāi)了像素比較的難題,直擊“符號(hào)保真度”這一核心。


VCoder:兩大“法寶”提升模型表現(xiàn)

實(shí)驗(yàn)發(fā)現(xiàn),即便是當(dāng)前最強(qiáng)的多模態(tài)大模型(如GPT-4o, Claude 3 Opus),在VCode基準(zhǔn)上的表現(xiàn)也差強(qiáng)人意。這暴露了它們?cè)谝曈X(jué)中心編碼能力上的短板。

為了解決這個(gè)問(wèn)題,研究者們提出了一個(gè)名為 VCoder 的代理框架,它從兩個(gè)方面來(lái)增強(qiáng)現(xiàn)有VLM的能力:

  1. 思考與修正 (Thinking with Revision) : 這是一個(gè)迭代優(yōu)化的過(guò)程。模型首先生成一個(gè)初始版本的SVG,然后自己對(duì)比渲染圖和原圖的差異,并“寫下”評(píng)論,最后根據(jù)這些評(píng)論來(lái)修改代碼。這個(gè)過(guò)程循環(huán)往復(fù),不斷提升SVG的保真度。

  2. 行動(dòng)與視覺(jué)工具 (Acting with Visual Tools) : 允許模型調(diào)用外部的“視覺(jué)工具箱”,比如物體檢測(cè)器、分割模型、OCR工具等。這些工具可以提供關(guān)于物體類別、位置、形狀、顏色和文本的結(jié)構(gòu)化信息,作為代碼生成的“輔助線”,彌補(bǔ)模型自身在底層感知上的不足。

實(shí)驗(yàn)結(jié)果:效果顯著,但前路漫漫

搭載了VCoder框架后,模型性能得到了巨大提升。


從上表的主實(shí)驗(yàn)結(jié)果可以看出:

  • 現(xiàn)有模型仍有差距 :即使是像GPT-5這樣的頂級(jí)模型,在CodeVQA上的得分(46.8)也遠(yuǎn)低于直接在原圖上進(jìn)行問(wèn)答的上限(61.7),說(shuō)明從圖像到符號(hào)代碼的轉(zhuǎn)換仍然是一個(gè)巨大的挑戰(zhàn)。

  • VCoder提升巨大 :基于Claude-4-Opus,VCoder框架帶來(lái)了 12.3個(gè)點(diǎn) 的驚人總體性能提升,證明了“思考與修正”和“行動(dòng)與視覺(jué)工具”這兩大法寶的有效性。

  • 知識(shí)和3D是難點(diǎn) :所有模型在需要專業(yè)知識(shí)和3D空間推理的子任務(wù)上表現(xiàn)普遍不佳,這指明了未來(lái)研究需要攻克的方向。

下面的定性結(jié)果更直觀地展示了VCoder的威力。無(wú)論是網(wǎng)絡(luò)迷因圖,還是涉及藝術(shù)理論和3D場(chǎng)景的復(fù)雜圖像,VCoder生成的SVG都更加忠實(shí)于原作的結(jié)構(gòu)和語(yǔ)義。


消融實(shí)驗(yàn)進(jìn)一步證明,無(wú)論是引入視覺(jué)工具(特別是形狀和文本信息),還是增加修正的輪次,都能穩(wěn)定地提升模型性能。


總結(jié)

總的來(lái)說(shuō),VCode不僅為多模態(tài)領(lǐng)域提供了一個(gè)全新的、富有挑戰(zhàn)性的視角,也通過(guò)VCoder框架展示了提升模型符號(hào)推理能力的有效路徑。這項(xiàng)工作讓我們離真正能像人一樣思考和理解視覺(jué)世界的AI又近了一步。

你覺(jué)得這個(gè)技術(shù)未來(lái)會(huì)用在哪些場(chǎng)景?一起來(lái)聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“小洛熙”事件最新進(jìn)展:浙江省委省政府高度重視!醫(yī)療事故鑒定已啟動(dòng),醫(yī)療訴訟進(jìn)入司法程序

“小洛熙”事件最新進(jìn)展:浙江省委省政府高度重視!醫(yī)療事故鑒定已啟動(dòng),醫(yī)療訴訟進(jìn)入司法程序

縱相新聞
2025-12-23 22:19:19
中央巡視期間落馬,湖北省政協(xié)機(jī)關(guān)辦公廳原主任何文被“雙開(kāi)”

中央巡視期間落馬,湖北省政協(xié)機(jī)關(guān)辦公廳原主任何文被“雙開(kāi)”

中國(guó)青年報(bào)
2025-12-23 23:02:06
當(dāng)“硅膠臉”混進(jìn)央視劇,美顏被打回原型,郭京飛再?gòu)?qiáng)也帶不動(dòng)!

當(dāng)“硅膠臉”混進(jìn)央視劇,美顏被打回原型,郭京飛再?gòu)?qiáng)也帶不動(dòng)!

點(diǎn)燃好奇心
2025-12-24 03:36:41
戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒(méi)去成,次日民警上門

戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒(méi)去成,次日民警上門

罪案洞察者
2025-12-16 14:42:51
張?zhí)m一家過(guò)冬至!汪小菲滿臉煩躁太尷尬,馬筱梅去臺(tái)北產(chǎn)子選對(duì)了

張?zhí)m一家過(guò)冬至!汪小菲滿臉煩躁太尷尬,馬筱梅去臺(tái)北產(chǎn)子選對(duì)了

心靜物娛
2025-12-23 09:59:47
叛變的紅軍師長(zhǎng)方步舟,1949年率800余國(guó)軍起義,最后結(jié)局怎樣

叛變的紅軍師長(zhǎng)方步舟,1949年率800余國(guó)軍起義,最后結(jié)局怎樣

抽象派大師
2025-12-24 01:51:37
江蘇一工廠趕單急,孫某為了600元獎(jiǎng)勵(lì)主動(dòng)扛下連續(xù)24小時(shí)雙機(jī)床

江蘇一工廠趕單急,孫某為了600元獎(jiǎng)勵(lì)主動(dòng)扛下連續(xù)24小時(shí)雙機(jī)床

搗蛋窩
2025-12-24 02:51:13
履新昆明軍區(qū)政委的劉志堅(jiān),上任后當(dāng)即找到王必成,鄭重說(shuō)道:“鄧公交給我的三道密令,我已帶到”

履新昆明軍區(qū)政委的劉志堅(jiān),上任后當(dāng)即找到王必成,鄭重說(shuō)道:“鄧公交給我的三道密令,我已帶到”

史海殘?jiān)?/span>
2025-12-23 11:33:22
妻子3人被發(fā)小殺害新進(jìn)展:刀被砍斷后,又用包上繩子將三人勒死

妻子3人被發(fā)小殺害新進(jìn)展:刀被砍斷后,又用包上繩子將三人勒死

江山揮筆
2025-12-23 17:51:09
愛(ài)潑斯坦惡魔島受害人照片公開(kāi)!權(quán)貴左攬右抱留親密合影,網(wǎng)友嘲:卷卷有你名!

愛(ài)潑斯坦惡魔島受害人照片公開(kāi)!權(quán)貴左攬右抱留親密合影,網(wǎng)友嘲:卷卷有你名!

英國(guó)報(bào)姐
2025-12-23 21:49:46
錢小豪“毀滅史”,他的故事比你想得更惡劣

錢小豪“毀滅史”,他的故事比你想得更惡劣

比利
2025-12-21 11:26:52
今晚,見(jiàn)證歷史了

今晚,見(jiàn)證歷史了

中國(guó)基金報(bào)
2025-12-24 00:11:07
孟子義「摔出神圖」炸網(wǎng)!網(wǎng)贊:畫(huà)面美到能跟珍妮弗勞倫斯媲美

孟子義「摔出神圖」炸網(wǎng)!網(wǎng)贊:畫(huà)面美到能跟珍妮弗勞倫斯媲美

達(dá)達(dá)哥
2025-12-22 16:05:27
觀察|俄首次在白俄羅斯部署“榛樹(shù)”導(dǎo)彈,對(duì)地區(qū)局勢(shì)影響有多大?

觀察|俄首次在白俄羅斯部署“榛樹(shù)”導(dǎo)彈,對(duì)地區(qū)局勢(shì)影響有多大?

澎湃新聞
2025-12-24 07:26:32
秦基偉剛?cè)纬啥架妳^(qū)司令,就果斷調(diào)動(dòng)閻紅彥遺孀工作,叮囑:有困難來(lái)找我

秦基偉剛?cè)纬啥架妳^(qū)司令,就果斷調(diào)動(dòng)閻紅彥遺孀工作,叮囑:有困難來(lái)找我

清風(fēng)鑒史
2025-12-22 17:11:17
中牟滅門慘案開(kāi)庭:妻兒三人遇害慘狀曝出,殺人犯曾“做戲”安慰

中牟滅門慘案開(kāi)庭:妻兒三人遇害慘狀曝出,殺人犯曾“做戲”安慰

胡侃社會(huì)百態(tài)
2025-12-23 10:46:05
玩綜藝生龍活虎,打比賽僅2場(chǎng)就受傷,前遼籃核心已淪為玻璃人

玩綜藝生龍活虎,打比賽僅2場(chǎng)就受傷,前遼籃核心已淪為玻璃人

萌蘭聊個(gè)球
2025-12-24 09:27:11
巴薩行為什么我們不行?皇馬欲效仿上賽季巴薩,冬歇后實(shí)現(xiàn)大逆轉(zhuǎn)

巴薩行為什么我們不行?皇馬欲效仿上賽季巴薩,冬歇后實(shí)現(xiàn)大逆轉(zhuǎn)

星耀國(guó)際足壇
2025-12-23 23:52:13
時(shí)隔25年,周總理見(jiàn)到初戀女友張若名時(shí)詢問(wèn):是否愿意回北京工作

時(shí)隔25年,周總理見(jiàn)到初戀女友張若名時(shí)詢問(wèn):是否愿意回北京工作

歷史龍?jiān)w
2025-12-23 09:30:07
深夜大瓜!曝闞清子生下女兒沒(méi)保住,沒(méi)有膀胱和肛門,產(chǎn)前狀態(tài)差

深夜大瓜!曝闞清子生下女兒沒(méi)保住,沒(méi)有膀胱和肛門,產(chǎn)前狀態(tài)差

草莓解說(shuō)體育
2025-12-24 01:16:04
2025-12-24 11:36:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64598關(guān)注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時(shí)

頭條要聞

愛(ài)潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

頭條要聞

愛(ài)潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開(kāi)拓者遭活塞雙殺

娛樂(lè)要聞

曝闞清子女兒早產(chǎn)但沒(méi)保住

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

家居
教育
親子
健康
軍事航空

家居要聞

法式大平層 智能家居添彩

教育要聞

美國(guó)社區(qū)大學(xué)課程是如何安排的?真的免費(fèi)嗎?

親子要聞

王小騫痛心:11歲女兒減肥致心肌損傷,母女關(guān)系緊張

這些新療法,讓化療不再那么痛苦

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開(kāi)認(rèn)領(lǐng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版