国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

VinciCoder:多模態(tài)統(tǒng)一代碼生成框架和視覺反饋強化學習

0
分享至



長期以來,多模態(tài)代碼生成(Multimodal Code Generation)的訓練嚴重依賴于特定任務的監(jiān)督微調(SFT)。盡管這種范式在 Chart-to-code 等單一任務上取得了顯著成功 ,但其 “狹隘的訓練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發(fā)展 。同時,「SFT-only」的范式在確保代碼可執(zhí)行性和高視覺保真度方面存在顯著瓶頸 。

在此背景下,中科院 & 美團研究團隊推出了 VinciCoder,一個旨在打破 SFT 瓶頸的統(tǒng)一多模態(tài)代碼生成模型。VinciCoder首次將強化學習的獎勵機制從文本域轉向視覺域,提出視覺強化學習(ViRL),專攻 SFT 無法解決的視覺保真度難題。

本文提出的系統(tǒng)性框架VinciCoder,通過 “大規(guī)模 SFT + 粗細粒度 ViRL” 的兩階段策略,有效統(tǒng)一了從圖表、網頁、SVG 到科學繪圖(LaTeX、化學分子)等多樣化代碼生成任務 。



  • 論文標題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2511.00391
  • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

數(shù)據代碼模型權重已開源。

核心創(chuàng)新與技術突破

該論文同樣對傳統(tǒng) SFT 范式的局限性進行了深入分析,發(fā)現(xiàn)其關鍵問題在于訓練目標與最終任務之間存在 “視覺鴻溝”:

  • 目標是局部的:SFT 采用自回歸的 “下一詞元預測” 目標 ,這本質上是局部的,無法為代碼 “可執(zhí)行性” 等全局屬性提供監(jiān)督信號 。
  • 缺乏視覺反饋:模型在訓練時完全看不到代碼的渲染結果 。這是一個致命缺陷,因為在代碼中 “微小的修改就可能導致渲染圖像發(fā)生巨大變化” 。

這種 “視覺 - 代碼” 監(jiān)督的缺失,直接導致了兩個關鍵問題:

  • 保真度低且不可靠:模型僅在詞元層面(token-level)進行優(yōu)化 ,無法保證渲染出的圖像在視覺上與輸入對齊,也無法保證代碼可以成功執(zhí)行 。
  • 泛化能力差:依賴特定任務的數(shù)據集進行 SFT,難以形成一個統(tǒng)一的多模態(tài)代碼生成框架 。

考慮到 SFT 的根本局限性,研究者認為必須引入一個能夠提供全局視覺反饋的機制。然而,傳統(tǒng)的 RL 方法依賴難以泛化的 “基于規(guī)則的文本獎勵” 。VinciCoder 的破局點在于 ——將獎勵機制從文本域徹底轉向視覺域

VinciCoder 的核心思路是:用大規(guī)模、多樣化的 SFT 構建強大的代碼基礎能力 ,再通過創(chuàng)新的 ViRL 策略專門優(yōu)化 SFT 無法觸及的視覺保真度和可執(zhí)行性 。訓練框架由「1.6M 大規(guī)模 SFT 階段」和「42k 粗細粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協(xié)作,同時實現(xiàn)強大的代碼理解與高保真的視覺對齊。

1. 大規(guī)模 SFT 語料庫與代碼優(yōu)化任務



研究團隊首先構建了一個包含1.6M 圖像 - 代碼對的大規(guī)模監(jiān)督微調(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務,還引入 “視覺代碼優(yōu)化” 的新任務 。在這項任務中,模型會接收到一個目標圖像和一個 “有缺陷” 的代碼片段(包含邏輯錯誤或只能部分渲染)。模型的目標是修正這段代碼,使其視覺輸出與目標圖像精確對齊 。這一設計極大地提升了模型在代碼層面的糾錯和優(yōu)化能力,為后續(xù)的強化學習階段奠定了堅實基礎 。

2. 從 “文本獎勵” 到 “視覺獎勵”:粗細粒度 ViRL 框架



傳統(tǒng) SFT 訓練在多模態(tài)代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環(huán)反饋 ,且無法保證代碼的全局可執(zhí)行性 。

為解決此問題,VinciCoder 引入了視覺強化學習 (ViRL) 框架。該框架摒棄了傳統(tǒng)強化學習中脆弱的、基于規(guī)則的 “文本獎勵” ,轉而從視覺直接獲取獎勵信號 。

其核心突破在于一套粗 - 細粒度(Coarse-to-fine)視覺獎勵機制:

  • 渲染與編碼:模型生成的代碼被實時渲染成圖像 。
  • 粗粒度(全局):通過下采樣生成縮略圖,評估整體結構的相似性 。
  • 細粒度(局部):將高分辨率圖像分割為多個局部圖塊(patches),精確計算局部細節(jié)的保真度 。
  • ViT 獎勵模型:使用 DINOv2-L 計算渲染圖像與目標圖像在兩個粒度上的視覺相似度,作為獎勵信號。
  • 對齊獎勵:引入一個輔助的語言對齊獎勵,用于懲罰生成了錯誤代碼語言(如要求 Python 卻生成了 LaTeX 的行為)
  • 策略優(yōu)化:采用群組相對策略優(yōu)化 (GRPO) 算法 對模型進行微調,顯著提升視覺對齊度和代碼可執(zhí)行性。

據我們所知,VinciCoder 是第一個應用強化學習(RL)來實現(xiàn)統(tǒng)一視覺代碼生成領域中 “跨領域視覺保真度” 提升的視覺語言模型

實驗結果與性能表現(xiàn)

論文在五大多模態(tài)代碼生成基準上進行了全面實驗,對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結果如下:



實驗結果令人矚目:VinciCoder 在多個主流多模態(tài)代碼生成基準上均取得了卓越表現(xiàn)。

  • SOTA 性能:VinciCoder 在開源模型對比中樹立了新的 SOTA 標準 ,其性能顯著優(yōu)于所有同等規(guī)模的競爭對手 。
  • 媲美閉源模型:在如 Image-to-SVG 和化學分子式生等高難度任務上,VinciCoder 展現(xiàn)出超越頂尖閉源模型的卓越性能 。
  • 策略有效性:消融實驗證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗證了 SFT-ViRL 兩階段策略的壓倒性優(yōu)勢。



研究意義與應用前景

VinciCoder 的研究不僅在技術上取得了重大突破,也為多模態(tài)代碼生成領域提供了全新的研究范式:

  • 驗證 RL 新路徑:證明了 “視覺強化學習” 是突破 SFT 瓶頸、提升代碼視覺保真度的有效途徑,將獎勵機制從文本域成功擴展到視覺域 。
  • 統(tǒng)一框架的實現(xiàn):打破了過去模型 “各自為戰(zhàn)” 的狹隘范式 ,提供了一個強大的統(tǒng)一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學 SMILES 在內的多樣化代碼生成任務 。
  • 高保真度獎勵機制:“粗 - 細粒度” 獎勵設計為處理高分辨率、高復雜度視覺輸入的 RL 任務提供了健壯且可擴展的解決方案 。

結論

VinciCoder 的核心價值并非單純地堆砌 SFT 數(shù)據,而是通過 “SFT + 粗細粒度 ViRL” 的組合,證明了 “以視覺反饋指導代碼生成” 的可行性與優(yōu)越性。這一思路不僅解決了傳統(tǒng) SFT 范式在可執(zhí)行性與視覺保真度上的痛點,也為后續(xù)通用多模態(tài)智能體的研發(fā)提供了新的思路。

在總體思路上,該論文的思路與 R1-Style 方法高度相關,都驗證了強化學習在提升基礎模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優(yōu)化數(shù)學推理等文本任務,更可以作為連接 “視覺” 與 “代碼” 兩大模態(tài)的橋梁,解決 SFT 無法企及的跨模態(tài)對齊難題。

更多細節(jié)請參閱原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛下飛機行李就沒了!杭州姑娘花10多萬去南極旅游卻崩潰:衣物全靠借

剛下飛機行李就沒了!杭州姑娘花10多萬去南極旅游卻崩潰:衣物全靠借

環(huán)球網資訊
2026-03-03 08:53:57
森林狼官宣簽下李凱爾!改穿12號球衣 穿過3個號碼成隊史首人

森林狼官宣簽下李凱爾!改穿12號球衣 穿過3個號碼成隊史首人

羅說NBA
2026-03-03 08:06:29
江寧路為何拉起警戒線?高樓玻璃墜落無人員傷亡

江寧路為何拉起警戒線?高樓玻璃墜落無人員傷亡

上觀新聞
2026-03-02 20:57:16
黎巴嫩政府首次禁止真主黨參與軍事活動,為何之前沒有禁止?

黎巴嫩政府首次禁止真主黨參與軍事活動,為何之前沒有禁止?

聞號說經濟
2026-03-02 21:27:03
英法德即將下場,伊朗被曝尋求向美國妥協(xié)

英法德即將下場,伊朗被曝尋求向美國妥協(xié)

名人茍或
2026-03-03 06:02:44
伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

毛豆論道
2026-03-02 17:01:06
救命,國產爛片又刷新下限了

救命,國產爛片又刷新下限了

喵喵娛樂團
2026-02-28 16:41:47
高官確認:伊朗不會退出世界杯!有權參加 在美國踢比賽也沒問題

高官確認:伊朗不會退出世界杯!有權參加 在美國踢比賽也沒問題

念洲
2026-03-03 06:31:52
伊朗名將:戰(zhàn)爭很不幸但支持美國以色列!歡迎他們解放伊朗人民

伊朗名將:戰(zhàn)爭很不幸但支持美國以色列!歡迎他們解放伊朗人民

念洲
2026-03-03 08:44:39
35年前,美國科學家進行實驗,4男4女共處一室2年,結果怎么樣?

35年前,美國科學家進行實驗,4男4女共處一室2年,結果怎么樣?

小豫講故事
2026-03-02 06:00:03
航母“又”被伊朗擊沉了?

航母“又”被伊朗擊沉了?

太空那些事兒
2026-03-03 08:43:07
謝娜發(fā)長文喊話薛之謙:有些話,為了家人,我必須說!

謝娜發(fā)長文喊話薛之謙:有些話,為了家人,我必須說!

韓小娛
2026-03-03 09:47:17
中方的努力不應被忽視

中方的努力不應被忽視

新民周刊
2026-03-03 09:08:56
母親去世后被結婚?當?shù)亓璩客▓?>
    </a>
        <h3>
      <a href=南方都市報
2026-03-03 09:45:50
伊朗無差別攻擊海灣國家  非理性行為恐遭反噬加速失敗

伊朗無差別攻擊海灣國家 非理性行為恐遭反噬加速失敗

劉耘博士
2026-03-03 07:22:10
春節(jié)自駕5000公里,我發(fā)現(xiàn)了純電出行的7個BUG

春節(jié)自駕5000公里,我發(fā)現(xiàn)了純電出行的7個BUG

新能源前瞻
2026-03-02 19:50:49
上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上觀新聞
2026-03-02 15:27:27
遭受慘烈襲擊后,伊朗做了一件“史無前例”的事

遭受慘烈襲擊后,伊朗做了一件“史無前例”的事

環(huán)球時報國際
2026-03-02 23:59:38
“天下第一村”崩了!從人人千萬富翁,到人均欠債1300萬?

“天下第一村”崩了!從人人千萬富翁,到人均欠債1300萬?

趣味萌寵的日常
2026-03-03 01:15:43
詩仙李白“飛流直下三千尺”的盛景重現(xiàn),合肥西安等地游客專程來“望廬山瀑布”,解鎖各類創(chuàng)意打卡姿勢

詩仙李白“飛流直下三千尺”的盛景重現(xiàn),合肥西安等地游客專程來“望廬山瀑布”,解鎖各類創(chuàng)意打卡姿勢

極目新聞
2026-03-02 21:35:21
2026-03-03 11:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12396文章數(shù) 142576關注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

手機
健康
房產
游戲
教育

手機要聞

全球最平整折疊屏手機 OPPO Find N6官宣本月登場

轉頭就暈的耳石癥,能開車上班嗎?

房產要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

拒絕類魂!外媒:《紅色沙漠》《影之刃零》等領銜變革

教育要聞

學期初,談談那些容易被忽略的班級常規(guī)管理細節(jié)

無障礙瀏覽 進入關懷版