国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

500行極簡開源框架,硬剛GPT/Gemini視覺極限!

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】多模態(tài)模型代碼寫得像老司機,卻在數手指、量柱子時頻頻翻車?UniPat AI用五百行代碼打造的SWE-Vision,讓模型「掏出Python尺子」自我驗證,一舉拿下五大視覺相關基準SOTA。

模態(tài)大模型在代碼能力上進步驚人,但在基礎視覺任務上卻頻繁失誤。

UniPat AI構建了一個極簡的視覺智能體框架——SWE-Vision,讓模型可以編寫并執(zhí)行Python代碼來處理和驗證自己的視覺判斷。

在五個主流視覺基準測試中,SWE-Vision均達到了當前最優(yōu)水平。

模型看得見,卻沒法精確處理

在過去一年,多模態(tài)大模型的代碼能力取得了驚人進展——獨立搭建項目、排查bug、完成復雜重構,表現(xiàn)已可比肩資深工程師。

然而,在「理解視覺世界」這件事上,它們的表現(xiàn)遠沒有代碼能力那樣可靠。

UniPat AI此前發(fā)布的多模態(tài)基準BabyVision就揭示了這一現(xiàn)象:模型常常給出大段看似合理的推理,卻在最基礎的計量、計數和空間關系判斷上出錯。

UniPat AI此前發(fā)布的多模態(tài)理解benchmark BabyVision已被多個近期發(fā)布的重磅模型產品納入評測體系,并在其技術報告中被引用,體現(xiàn)了社區(qū)對這一問題的廣泛關注。

當我們仔細審視BabyVision中模型出錯的案例時,可以發(fā)現(xiàn)一個關鍵點:問題往往是「模型看見了,卻無法精確處理

  • 閱讀柱狀圖時,模型能感知到「大約75%」,但無法精確計算比值;

  • 在復雜場景中計數時,模型可能識別了每一個物體,但在逐一清點時出錯;

  • 描述空間位置時,模型能給出定性判斷,但難以穩(wěn)定進行距離計算和幾何推理。

面對這些錯誤,人類通常會怎么做?

掏出工具:畫輔助線、作出標記、用尺測量、用筆計算。

這個觀察引發(fā)了一個關鍵猜想:既然模型已經極其擅長編程,能否讓它用代碼——這個它最熟悉的工具——來彌補視覺處理中的精度短板?

SWE-Vision正是對這一猜想的系統(tǒng)性驗證。


其結果令人矚目:在五個不同的視覺基準測試中——涵蓋基礎感知、圖表推理、數學問題解決、空間理解和復雜的多步驟視覺挑戰(zhàn)——SWE-Vision始終改進了前沿LLM,如GPT-5.2-xhigh和Seed-2.0-Pro,并取得了最先進的結果

在BabyVision上達到64.4,

在MathVision上達到94.0,

在Zero-Bench-Sub上達到50.1,

在OmniSpatial上達到69.0,

在CharXiv-RQ上達到82.5。

SWE-Vision是什么

一個「極簡視覺智能體」

SWE-Vision并不需要再造一堆專用視覺工具,而是把要做的事壓縮到極簡:


工具層:只保留兩個工具

config.py里定義的工具只有兩個:execute_code和finish。

  • execute_code:讓模型在一個可持續(xù)保留狀態(tài)的Jupyter環(huán)境里執(zhí)行Python

  • finish:當模型確信答案正確時輸出最終答案

這里最關鍵的不是「能執(zhí)行代碼」,而是工具接口本身非常小、非常通用。SWE-Vision沒有給模型塞一堆專用視覺API,而是只暴露一個模型本來就很熟悉的動作:寫Python。


控制層:一個標準的agentic loop

agent.py里的VLMToolCallAgent實現(xiàn)了完整的循環(huán):

  • 先把用戶問題和圖片組織成消息;

  • 然后調用支持tool use的聊天接口;

  • 如果模型發(fā)起execute_code,就把代碼送到notebook內核執(zhí)行;

  • 再把執(zhí)行結果作為tool message回流給模型;

  • 模型據此決定繼續(xù)調用工具還是finish。

repo里默認tool_choice="auto",并支持reasoning模式;在開啟時會把推理effort設為高檔,并允許最多100輪迭代。


執(zhí)行層:Docker里的持久化Jupyter kernel

kernel.py不是簡單exec()一段代碼,而是正經啟動一個Docker容器,再在容器里拉起ipykernel。宿主側通過jupyter_client.BlockingKernelClient連接這個內核,并從IOPub/shell通道收集執(zhí)行結果。

內核是持久化的,變量、導入、圖像對象和中間結果都能跨多次execute_code保留;同時代碼運行在隔離的Docker環(huán)境里,宿主與容器通過掛載目錄交換文件。

kernel.py還會在啟動后做health check,并把matplotlib后端配置成inline,以便抓取圖像輸出。

簡單來說,SWE-Vision不強迫模型每題都寫代碼,但給它一個隨時可用并且熟悉的「視覺工具庫」。

請求到底怎么流動

從看圖推理到帶圖循環(huán)驗證

SWE-Vision像一個會看圖的數據科學家,其完整工作流如下:

  1. 用戶給問題+圖片

  2. 模型先思考:這題能不能直接答?需不需要計算/驗證?

  3. 需要就調用execute_code:在Notebook里用PIL/NumPy/matplotlib等做分析

  4. 代碼輸出(數值/報錯/可視化圖)回流給模型

  5. 模型繼續(xù)迭代,直到調用finish給最終答案


它有幾個關鍵設計

  • 有狀態(tài)的執(zhí)行環(huán)境:變量、導入、圖片加載都能跨多次調用保留

  • Docker沙箱:確??煽匕踩h(huán)境+復現(xiàn)性;

  • Image-in/Image-out:意味著模型不僅能讀取輸入圖像,還能將自己生成的可視化結果回傳給自身進行驗證——這是實現(xiàn)自我糾錯的關鍵;

  • OpenAI function calling標準接口:保證了與主流模型的開箱即用兼容性。

這套設計的價值在于:允許模型像一個真正的科學家一樣,先做實驗再下結論

為何stateful notebook比一次性code executor更關鍵?

很多人第一次看SWE-Vision會覺得,它不過是在VLM外面加了個Python工具。

真正的差別其實在于stateful。

在SWE-Vision中,內核狀態(tài)會在多次調用間保留。

這意味著模型可以像人類分析師那樣分步工作:

  • 第一輪先讀圖、檢查尺寸;

  • 第二輪裁剪局部、看邊緣;

  • 第三輪統(tǒng)計顏色或測距離;

  • 第四輪畫輔助線做確認;

  • 最后再生成答案。

如果代碼執(zhí)行是無狀態(tài)的,這種多步分析會非常笨重:每一步都要重新導入庫、重載圖片、重建變量,模型也更難維護中間假設。

SWE-Vision通過持久化kernel,把「多輪工具調用」變成了「同一個notebook會話里的連續(xù)實驗」。

從工程實現(xiàn)上看,這也是它為什么能處理圖表測量、空間關系和復雜多步視覺任務,而不只是做一次性的OCR或檢測。

SWE-Vision的關鍵

在于「能驗證自己的視覺判斷」

在SWE-Vision「觀察科學圖表、總結規(guī)律」的案例中,我們看到了一種截然不同的行為模式。

如下圖所示,這是科研場景中常見的圖表分析任務:我們要求模型判斷,在Quarters=15時,哪一張子圖中紅色虛線與黑色實線之間的差距最大。

SWE-Vision智能體給出了一套極其嚴謹且可解釋的解法。

首先,它排除了不存在紅色虛線的子圖(d);

隨后,對每一張候選子圖在Quarters=15處精確繪制輔助線,定位紅線與黑線的交點;

接著,通過可執(zhí)行代碼精確計算兩條曲線在該位置的數值差距;

最終基于計算結果給出正確答案。

這種「先結構化分析、再程序化測量、最后數值驗證」的思維與行動閉環(huán),與傳統(tǒng)視覺語言模型依賴直覺式「瞪眼觀察」直接給出答案的方式形成鮮明對比。

它不僅顯著提升了結果的可靠性與可解釋性,也展示出更高的能力上限與更強的泛化潛力。


為什么極簡設計反而更強

SWE-Vision的一個重要結論是:對視覺任務而言,加入通用代碼工具,是提升前沿多模態(tài)模型視覺能力的一個有效test-time scaling方向。

它之所以有效,恰恰在于其極簡:

  • 工具數量少,決策邊界清晰;

  • 工具語義與模型已有能力高度一致;

  • 支持多輪迭代和狀態(tài)積累;

  • 中間結果可被再次觀察,而不是一次性返回文本;

  • 不綁定某個特定benchmark的專用手工策略。

這與很多「為了某類視覺任務單獨發(fā)明一套工具接口」的方法不同。

這些方法往往在某些窄任務上能提升,但泛化性不足。而SWE-Vision的目標,是提供一個盡可能通用的視覺增強框架,讓模型自己決定何時調用代碼、如何組織分析步驟。

五大基準全線提升

更加通用的「視覺能力增強器」

SWE-Vision在五個覆蓋面很廣的視覺基準上進行了評測(基礎感知、圖表、數學、空間、綜合多步推理),核心發(fā)現(xiàn)高度一致:引入代碼執(zhí)行能力,能系統(tǒng)性地抬升前沿模型的視覺表現(xiàn)上限。

在對比實驗中(同一模型vsSWE-Vision),SWE-Vision對兩個前沿的視覺語言模型(GPT-5.2,Seed-2.0)都帶來顯著提升



「反直覺」的一點是:提升幅度最大的,往往不是最復雜的高階推理任務,而是最基礎的感知和精確處理能力——例如BabyVision中的計數、顏色識別和空間關系判斷。

這類任務人類靠直覺加簡單工具就能穩(wěn)定完成,而模型僅憑「語言化視覺」則極易忽略細節(jié)、數錯個數、缺乏驗證手段。

SWE-Vision的結果也給我們揭示了另一種可能:

對于視覺來說,測試時擴展(test-time scaling,TTS)不一定只能靠「多想幾段文字」,也可以靠「多寫幾行代碼」來看得更精細。

未來,「代碼增強視覺」成視覺智能體原生能力

與用于訓練多模態(tài)LLMs的傳統(tǒng)數據(基本上是問題,圖片,答案三元組)不同,訓練視覺智能體模型需要多模態(tài)交錯的智能體軌跡。

它還需要一個交互式環(huán)境來支持強化學習、工具使用和評估,使模型不僅能學習回答問題,還能學習感知、行動和反思,要徹底釋放「工具增強視覺」的潛力,模型需要更多深度交織的視覺-編程SFT/RL數據與環(huán)境,來學會感知、行動和反思。

具體而言,下一步的關鍵方向包括:

  • 判斷時機:學會識別何時視覺推理需要代碼輔助,何時可以直接回答

  • 中間驗證:在多步推理過程中主動檢驗中間結果的正確性

  • 失敗恢復:在代碼方案無效時及時跳出,切換到替代策略

  • 原生融合:讓「觀察」與「計算」不再是兩個獨立步驟,而是深度融合,一體兩面

SWE-Vision的開源代碼已在GitHub發(fā)布。編程輔助的精確視覺理解是一個值得社區(qū)共同探索的方向——五百行代碼的極簡框架,也許是這段旅程一個不錯的起點。

官網: https://unipat.ai

Blog: https://unipat.ai/blog/SWE-Vision

開源地址: https://github.com/UniPat-AI/SWE-Vision

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“中園石化”被立案調查

“中園石化”被立案調查

每日經濟新聞
2026-03-25 11:13:18
何超瓊沒想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長臉

何超瓊沒想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長臉

往史過眼云煙
2026-03-26 20:33:55
猝死三件套:熬夜、咖啡、跑步——人生最后一課

猝死三件套:熬夜、咖啡、跑步——人生最后一課

水滴的聲音
2026-03-25 08:36:43
張雪峰湯建魏華等猝死引起重視,多地衛(wèi)健委推專題普及心源性疾病知識,國家衛(wèi)健委官微詳解:為何年輕男性發(fā)病風險高

張雪峰湯建魏華等猝死引起重視,多地衛(wèi)健委推專題普及心源性疾病知識,國家衛(wèi)健委官微詳解:為何年輕男性發(fā)病風險高

極目新聞
2026-03-26 20:56:20
女子空置房2個月用水1961噸,費用近1.2萬元,“水管封死水表仍走字”,水務公司拒回應

女子空置房2個月用水1961噸,費用近1.2萬元,“水管封死水表仍走字”,水務公司拒回應

觀威海
2026-03-26 10:39:05
“我用房子貸的款卻進了他們口袋”,佛山一男子稱遭遇套路貸;警方立案偵查,3人被批捕后取保候審

“我用房子貸的款卻進了他們口袋”,佛山一男子稱遭遇套路貸;警方立案偵查,3人被批捕后取保候審

大風新聞
2026-03-26 16:56:40
小雨!中雨!局地大雨或暴雨+雷暴大風冰雹!未來7天廣西有3輪降雨......

小雨!中雨!局地大雨或暴雨+雷暴大風冰雹!未來7天廣西有3輪降雨......

廣西氣象
2026-03-26 19:34:30
張雪峰去世事件升級!很多人連夜下單AED,有店鋪一天銷售100多臺

張雪峰去世事件升級!很多人連夜下單AED,有店鋪一天銷售100多臺

火山詩話
2026-03-26 07:32:38
A股:今天收3889.08,尾盤已明確,做好準備,明天周五,要變盤了

A股:今天收3889.08,尾盤已明確,做好準備,明天周五,要變盤了

虎哥閑聊
2026-03-26 15:09:13
“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現(xiàn)如何

“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現(xiàn)如何

觀察者海風
2026-03-24 23:04:30
越扒越猛!釋永信在少林寺有多爽,你根本想不到!終于落到這下場

越扒越猛!釋永信在少林寺有多爽,你根本想不到!終于落到這下場

林輕吟
2026-03-26 07:34:21
伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

參考消息
2026-03-26 11:02:08
伊朗外長:霍爾木茲海峽只對敵人關閉 中國、俄羅斯等國船只都安全通過了

伊朗外長:霍爾木茲海峽只對敵人關閉 中國、俄羅斯等國船只都安全通過了

閃電新聞
2026-03-26 10:48:55
A股“分紅王”來了,擬10股派70元

A股“分紅王”來了,擬10股派70元

數據寶
2026-03-26 22:16:46
52歲北京炒股冠軍罕見發(fā)聲:如果手里有10萬,建議死啃美人肩戰(zhàn)法

52歲北京炒股冠軍罕見發(fā)聲:如果手里有10萬,建議死啃美人肩戰(zhàn)法

股經縱橫談
2026-03-16 21:56:42
Manus終于喝下自己藏好的毒

Manus終于喝下自己藏好的毒

藍媒匯財經plus
2026-03-25 21:27:26
馬斯克最新回復來了

馬斯克最新回復來了

新浪財經
2026-03-26 19:29:33
為什么閑魚很多賣家只支持自提?網友:等你碰上到手刀的就老實了

為什么閑魚很多賣家只支持自提?網友:等你碰上到手刀的就老實了

另子維愛讀史
2026-03-22 22:34:48
“橄欖綠”今年爆火,太顯白了!

“橄欖綠”今年爆火,太顯白了!

超級數學建模
2026-03-25 22:39:01
“抱抱我,不炸了...” 極端分子去炸醫(yī)院,竟被路人大哥嘴炮感化,當場自首?!

“抱抱我,不炸了...” 極端分子去炸醫(yī)院,竟被路人大哥嘴炮感化,當場自首?!

英國那些事兒
2026-03-25 23:14:43
2026-03-26 23:48:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14821文章數 66721關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

時尚
教育
本地
數碼
旅游

400萬人愛過的女孩,被黃謠網暴180天后

教育要聞

天天學習|走進課堂的“大朋友”

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

數碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動,支持B70 / B65顯卡

旅游要聞

3月26日最佳情報|郊野公園楊柳依依,櫻花爛漫醉游人!恭喜

無障礙瀏覽 進入關懷版