国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VinciCoder:多模態(tài)統(tǒng)一代碼生成框架和視覺反饋強(qiáng)化學(xué)習(xí)

0
分享至



長期以來,多模態(tài)代碼生成(Multimodal Code Generation)的訓(xùn)練嚴(yán)重依賴于特定任務(wù)的監(jiān)督微調(diào)(SFT)。盡管這種范式在 Chart-to-code 等單一任務(wù)上取得了顯著成功 ,但其 “狹隘的訓(xùn)練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發(fā)展 。同時(shí),「SFT-only」的范式在確保代碼可執(zhí)行性和高視覺保真度方面存在顯著瓶頸 。

在此背景下,中科院 & 美團(tuán)研究團(tuán)隊(duì)推出了 VinciCoder,一個(gè)旨在打破 SFT 瓶頸的統(tǒng)一多模態(tài)代碼生成模型。VinciCoder首次將強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制從文本域轉(zhuǎn)向視覺域,提出視覺強(qiáng)化學(xué)習(xí)(ViRL),專攻 SFT 無法解決的視覺保真度難題。

本文提出的系統(tǒng)性框架VinciCoder,通過 “大規(guī)模 SFT + 粗細(xì)粒度 ViRL” 的兩階段策略,有效統(tǒng)一了從圖表、網(wǎng)頁、SVG 到科學(xué)繪圖(LaTeX、化學(xué)分子)等多樣化代碼生成任務(wù) 。



  • 論文標(biāo)題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2511.00391
  • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

數(shù)據(jù)代碼模型權(quán)重已開源。

核心創(chuàng)新與技術(shù)突破

該論文同樣對(duì)傳統(tǒng) SFT 范式的局限性進(jìn)行了深入分析,發(fā)現(xiàn)其關(guān)鍵問題在于訓(xùn)練目標(biāo)與最終任務(wù)之間存在 “視覺鴻溝”:

  • 目標(biāo)是局部的:SFT 采用自回歸的 “下一詞元預(yù)測(cè)” 目標(biāo) ,這本質(zhì)上是局部的,無法為代碼 “可執(zhí)行性” 等全局屬性提供監(jiān)督信號(hào) 。
  • 缺乏視覺反饋:模型在訓(xùn)練時(shí)完全看不到代碼的渲染結(jié)果 。這是一個(gè)致命缺陷,因?yàn)樵诖a中 “微小的修改就可能導(dǎo)致渲染圖像發(fā)生巨大變化” 。

這種 “視覺 - 代碼” 監(jiān)督的缺失,直接導(dǎo)致了兩個(gè)關(guān)鍵問題:

  • 保真度低且不可靠:模型僅在詞元層面(token-level)進(jìn)行優(yōu)化 ,無法保證渲染出的圖像在視覺上與輸入對(duì)齊,也無法保證代碼可以成功執(zhí)行 。
  • 泛化能力差:依賴特定任務(wù)的數(shù)據(jù)集進(jìn)行 SFT,難以形成一個(gè)統(tǒng)一的多模態(tài)代碼生成框架 。

考慮到 SFT 的根本局限性,研究者認(rèn)為必須引入一個(gè)能夠提供全局視覺反饋的機(jī)制。然而,傳統(tǒng)的 RL 方法依賴難以泛化的 “基于規(guī)則的文本獎(jiǎng)勵(lì)” 。VinciCoder 的破局點(diǎn)在于 ——將獎(jiǎng)勵(lì)機(jī)制從文本域徹底轉(zhuǎn)向視覺域

VinciCoder 的核心思路是:用大規(guī)模、多樣化的 SFT 構(gòu)建強(qiáng)大的代碼基礎(chǔ)能力 ,再通過創(chuàng)新的 ViRL 策略專門優(yōu)化 SFT 無法觸及的視覺保真度和可執(zhí)行性 。訓(xùn)練框架由「1.6M 大規(guī)模 SFT 階段」和「42k 粗細(xì)粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協(xié)作,同時(shí)實(shí)現(xiàn)強(qiáng)大的代碼理解與高保真的視覺對(duì)齊。

1. 大規(guī)模 SFT 語料庫與代碼優(yōu)化任務(wù)



研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)包含1.6M 圖像 - 代碼對(duì)的大規(guī)模監(jiān)督微調(diào)(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務(wù),還引入 “視覺代碼優(yōu)化” 的新任務(wù) 。在這項(xiàng)任務(wù)中,模型會(huì)接收到一個(gè)目標(biāo)圖像和一個(gè) “有缺陷” 的代碼片段(包含邏輯錯(cuò)誤或只能部分渲染)。模型的目標(biāo)是修正這段代碼,使其視覺輸出與目標(biāo)圖像精確對(duì)齊 。這一設(shè)計(jì)極大地提升了模型在代碼層面的糾錯(cuò)和優(yōu)化能力,為后續(xù)的強(qiáng)化學(xué)習(xí)階段奠定了堅(jiān)實(shí)基礎(chǔ) 。

2. 從 “文本獎(jiǎng)勵(lì)” 到 “視覺獎(jiǎng)勵(lì)”:粗細(xì)粒度 ViRL 框架



傳統(tǒng) SFT 訓(xùn)練在多模態(tài)代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環(huán)反饋 ,且無法保證代碼的全局可執(zhí)行性 。

為解決此問題,VinciCoder 引入了視覺強(qiáng)化學(xué)習(xí) (ViRL) 框架。該框架摒棄了傳統(tǒng)強(qiáng)化學(xué)習(xí)中脆弱的、基于規(guī)則的 “文本獎(jiǎng)勵(lì)” ,轉(zhuǎn)而從視覺直接獲取獎(jiǎng)勵(lì)信號(hào) 。

其核心突破在于一套粗 - 細(xì)粒度(Coarse-to-fine)視覺獎(jiǎng)勵(lì)機(jī)制:

  • 渲染與編碼:模型生成的代碼被實(shí)時(shí)渲染成圖像 。
  • 粗粒度(全局):通過下采樣生成縮略圖,評(píng)估整體結(jié)構(gòu)的相似性 。
  • 細(xì)粒度(局部):將高分辨率圖像分割為多個(gè)局部圖塊(patches),精確計(jì)算局部細(xì)節(jié)的保真度 。
  • ViT 獎(jiǎng)勵(lì)模型:使用 DINOv2-L 計(jì)算渲染圖像與目標(biāo)圖像在兩個(gè)粒度上的視覺相似度,作為獎(jiǎng)勵(lì)信號(hào)。
  • 對(duì)齊獎(jiǎng)勵(lì):引入一個(gè)輔助的語言對(duì)齊獎(jiǎng)勵(lì),用于懲罰生成了錯(cuò)誤代碼語言(如要求 Python 卻生成了 LaTeX 的行為)
  • 策略優(yōu)化:采用群組相對(duì)策略優(yōu)化 (GRPO) 算法 對(duì)模型進(jìn)行微調(diào),顯著提升視覺對(duì)齊度和代碼可執(zhí)行性。

據(jù)我們所知,VinciCoder 是第一個(gè)應(yīng)用強(qiáng)化學(xué)習(xí)(RL)來實(shí)現(xiàn)統(tǒng)一視覺代碼生成領(lǐng)域中 “跨領(lǐng)域視覺保真度” 提升的視覺語言模型

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)

論文在五大多模態(tài)代碼生成基準(zhǔn)上進(jìn)行了全面實(shí)驗(yàn),對(duì)比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結(jié)果如下:



實(shí)驗(yàn)結(jié)果令人矚目:VinciCoder 在多個(gè)主流多模態(tài)代碼生成基準(zhǔn)上均取得了卓越表現(xiàn)。

  • SOTA 性能:VinciCoder 在開源模型對(duì)比中樹立了新的 SOTA 標(biāo)準(zhǔn) ,其性能顯著優(yōu)于所有同等規(guī)模的競爭對(duì)手 。
  • 媲美閉源模型:在如 Image-to-SVG 和化學(xué)分子式生等高難度任務(wù)上,VinciCoder 展現(xiàn)出超越頂尖閉源模型的卓越性能 。
  • 策略有效性:消融實(shí)驗(yàn)證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強(qiáng)大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗(yàn)證了 SFT-ViRL 兩階段策略的壓倒性優(yōu)勢(shì)。



研究意義與應(yīng)用前景

VinciCoder 的研究不僅在技術(shù)上取得了重大突破,也為多模態(tài)代碼生成領(lǐng)域提供了全新的研究范式:

  • 驗(yàn)證 RL 新路徑:證明了 “視覺強(qiáng)化學(xué)習(xí)” 是突破 SFT 瓶頸、提升代碼視覺保真度的有效途徑,將獎(jiǎng)勵(lì)機(jī)制從文本域成功擴(kuò)展到視覺域 。
  • 統(tǒng)一框架的實(shí)現(xiàn):打破了過去模型 “各自為戰(zhàn)” 的狹隘范式 ,提供了一個(gè)強(qiáng)大的統(tǒng)一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學(xué) SMILES 在內(nèi)的多樣化代碼生成任務(wù) 。
  • 高保真度獎(jiǎng)勵(lì)機(jī)制:“粗 - 細(xì)粒度” 獎(jiǎng)勵(lì)設(shè)計(jì)為處理高分辨率、高復(fù)雜度視覺輸入的 RL 任務(wù)提供了健壯且可擴(kuò)展的解決方案 。

結(jié)論

VinciCoder 的核心價(jià)值并非單純地堆砌 SFT 數(shù)據(jù),而是通過 “SFT + 粗細(xì)粒度 ViRL” 的組合,證明了 “以視覺反饋指導(dǎo)代碼生成” 的可行性與優(yōu)越性。這一思路不僅解決了傳統(tǒng) SFT 范式在可執(zhí)行性與視覺保真度上的痛點(diǎn),也為后續(xù)通用多模態(tài)智能體的研發(fā)提供了新的思路。

在總體思路上,該論文的思路與 R1-Style 方法高度相關(guān),都驗(yàn)證了強(qiáng)化學(xué)習(xí)在提升基礎(chǔ)模型高級(jí)能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優(yōu)化數(shù)學(xué)推理等文本任務(wù),更可以作為連接 “視覺” 與 “代碼” 兩大模態(tài)的橋梁,解決 SFT 無法企及的跨模態(tài)對(duì)齊難題。

更多細(xì)節(jié)請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
Lisa舞臺(tái)爭議:藝術(shù)表達(dá)還是低俗表演?

Lisa舞臺(tái)爭議:藝術(shù)表達(dá)還是低俗表演?

娛曉曉
2025-12-22 17:02:07
震撼,英偉達(dá)新模型能打遍幾乎所有游戲

震撼,英偉達(dá)新模型能打遍幾乎所有游戲

機(jī)器之心Pro
2025-12-22 11:33:58
東莞市長呂成蹊履新廣東省審計(jì)廳黨組書記

東莞市長呂成蹊履新廣東省審計(jì)廳黨組書記

澎湃新聞
2025-12-24 09:54:27
停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
馬刺3人20+雙殺雷霆!聯(lián)盟第一被針對(duì),亞歷山大空砍62年NBA紀(jì)錄

馬刺3人20+雙殺雷霆!聯(lián)盟第一被針對(duì),亞歷山大空砍62年NBA紀(jì)錄

籃球看比賽
2025-12-24 12:34:35
怎么這么多年了,國內(nèi)二手車還是這副德行?

怎么這么多年了,國內(nèi)二手車還是這副德行?

差評(píng)XPIN
2025-12-22 00:06:42
蔣介石在日記里坦言:重慶談判放走毛澤東,全是因?yàn)檫@兩點(diǎn)!

蔣介石在日記里坦言:重慶談判放走毛澤東,全是因?yàn)檫@兩點(diǎn)!

鶴羽說個(gè)事
2025-10-25 11:44:53
小米YU7硬剛奔馳GLC?小米高管:奔馳是面子,小米是里子

小米YU7硬剛奔馳GLC?小米高管:奔馳是面子,小米是里子

雷科技
2025-12-23 19:00:08
最高38萬/㎡!深圳新房單價(jià)破紀(jì)錄,又一“頂豪”入市

最高38萬/㎡!深圳新房單價(jià)破紀(jì)錄,又一“頂豪”入市

南方都市報(bào)
2025-12-23 22:23:13
5場轟9球!16歲天才新星身價(jià)大漲排名亞洲第1,未來國足領(lǐng)軍人物

5場轟9球!16歲天才新星身價(jià)大漲排名亞洲第1,未來國足領(lǐng)軍人物

零度眼看球
2025-12-24 08:54:08
九紫運(yùn)降臨(2024-2043):虎兔龍陪跑,3 生肖吸福

九紫運(yùn)降臨(2024-2043):虎兔龍陪跑,3 生肖吸福

古怪奇談錄
2025-12-23 15:06:23
面對(duì)錢大鈞故意放走陳賡還送大洋的舉動(dòng),下屬滿心不解,他反問:我敢動(dòng)他一根毫毛嗎?

面對(duì)錢大鈞故意放走陳賡還送大洋的舉動(dòng),下屬滿心不解,他反問:我敢動(dòng)他一根毫毛嗎?

源溯歷史
2025-12-22 12:04:24
大眾中國前CEO評(píng)小米汽車!

大眾中國前CEO評(píng)小米汽車!

電動(dòng)知家
2025-12-21 18:19:23
甘油三酯高于這個(gè)數(shù),離心梗腦梗又近一步!建議立即服藥

甘油三酯高于這個(gè)數(shù),離心梗腦梗又近一步!建議立即服藥

岐黃傳人孫大夫
2025-12-24 09:20:47
8800萬真跡揭開行業(yè)黑幕!南博多次向龐家征集古玩,不就圖“真”

8800萬真跡揭開行業(yè)黑幕!南博多次向龐家征集古玩,不就圖“真”

社會(huì)醬
2025-12-24 11:44:55
俄官員:2026年至少有4萬名印度勞工將赴俄務(wù)工

俄官員:2026年至少有4萬名印度勞工將赴俄務(wù)工

參考消息
2025-12-23 11:42:30
連場逆轉(zhuǎn)與精準(zhǔn)補(bǔ)強(qiáng):曼城的“下半場”已提前啟動(dòng)

連場逆轉(zhuǎn)與精準(zhǔn)補(bǔ)強(qiáng):曼城的“下半場”已提前啟動(dòng)

籃球看比賽
2025-12-24 12:41:19
美國發(fā)的邀請(qǐng),中方斷然拒絕,特朗普轉(zhuǎn)身通告全球,要造25艘戰(zhàn)艦

美國發(fā)的邀請(qǐng),中方斷然拒絕,特朗普轉(zhuǎn)身通告全球,要造25艘戰(zhàn)艦

阿柒的訊
2025-12-24 12:00:34
廣東豪取5連勝!看看賽后各大媒體人都說了什么,徐杰功勞最大!

廣東豪取5連勝!看看賽后各大媒體人都說了什么,徐杰功勞最大!

李汪手工制作
2025-12-24 03:34:01
她相貌平平卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門董事

她相貌平平卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門董事

涵豆說娛
2025-12-22 14:41:51
2025-12-24 14:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11983文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當(dāng)校車

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當(dāng)校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
時(shí)尚
公開課
軍事航空

數(shù)碼要聞

銘瑄推出終結(jié)者B850M PRO II WIFI7主板:升級(jí)MT7925無線網(wǎng)卡

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開認(rèn)領(lǐng)

無障礙瀏覽 進(jìn)入關(guān)懷版