国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源新王炸!10B多模態(tài)小模型屠榜,性能媲美20倍巨無霸

0
分享至


智東西
作者 程茜
編輯 李水青

智東西1月20日報(bào)道,今日下午,階躍星辰開源多模態(tài)模型Step3-VL-10B。該模型參數(shù)量為10B,在視覺感知、邏輯推理、數(shù)學(xué)競賽以及通用對話等一系列基準(zhǔn)測試中均達(dá)到同規(guī)模SOTA水平。

階躍星辰的多項(xiàng)測評顯示,Step3-VL-10B的性能可以媲美甚至超越規(guī)模大10-20倍的開源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及閉源旗艦?zāi)P,如Gemini 2.5 Pro、Seed-1.5-VL。


這一輕量級模型的性能表現(xiàn),也意味著手機(jī)、電腦、工業(yè)嵌入式設(shè)備也可以運(yùn)行GUI操作、復(fù)雜文檔解析、高精度計(jì)數(shù)等復(fù)雜多模態(tài)推理任務(wù)。

從技術(shù)層面看,Step3-VL-10B的性能突破得益于三個(gè)關(guān)鍵設(shè)計(jì),分別是高質(zhì)量多模態(tài)語料庫上進(jìn)行統(tǒng)一預(yù)訓(xùn)練、縮放多模態(tài)強(qiáng)化學(xué)習(xí)、并行協(xié)調(diào)推理機(jī)制。

目前,階躍星辰已開源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face開源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope開源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

體驗(yàn)地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技術(shù)報(bào)告鏈接:https://arxiv.org/pdf/2601.09668

一、從GUI感知到視覺識別和推理,Step3-VL-10B思路清晰

階躍星辰在官方公眾號里放出了Step3-VL-10B在多模推理能力方面的真實(shí)案例。

首先是關(guān)于摩爾斯編碼的推理,可以看到模型的思考過程思路清晰,先拆解字母再逐個(gè)查表,最后拼接,流程正確,并且對大部分字母如S、T、E、F、U、N的定位和編碼描述準(zhǔn)確。


其次是GUI感知能力,模型需要識別標(biāo)簽頁中以章節(jié)開頭.tex結(jié)尾的文件標(biāo)簽,可以看到其思考過程采用了識別標(biāo)簽、排除非目標(biāo)、統(tǒng)計(jì)數(shù)量的步驟進(jìn)行了準(zhǔn)確分析,并有效規(guī)避了干擾選項(xiàng)。


第三個(gè)是關(guān)于圖推理的案例,模型需要在連線非常復(fù)雜的圖片中準(zhǔn)確識別中長度最短的圖有幾條,從思考過程可以看到,其先確認(rèn)了最小權(quán)重的邊長度是1,然后再統(tǒng)計(jì)所有權(quán)重為1的邊。


二、拿下開源SOTA,數(shù)學(xué)競賽測試題超94分

Step3-VL-10B具備三大核心亮點(diǎn):

視覺感知精度更高:在同參數(shù)量級中展現(xiàn)出頂尖的識別與感知精度,研究人員為其引入PaCoRe(并行協(xié)調(diào)推理)機(jī)制,模型在復(fù)雜計(jì)數(shù)、高精度OCR及空間拓?fù)淅斫獾雀唠y度任務(wù)上的可靠性提升。

深層邏輯推演與長程推理:得益于規(guī);瘡(qiáng)化學(xué)習(xí)(RL)的持續(xù)迭代,Step3-VL-10B在10B規(guī)模上能應(yīng)對競賽級數(shù)學(xué)難題、真實(shí)編程環(huán)境、視覺邏輯謎題。

端側(cè)Agent交互:基于海量GUI(圖形用戶界面)專用預(yù)訓(xùn)練數(shù)據(jù),模型能夠精準(zhǔn)識別并操作復(fù)雜界面。

階躍星辰公開的多模態(tài)基準(zhǔn)測試結(jié)果顯示,Step3-VL-10B是10B參數(shù)類別中最強(qiáng)大的開源模型。


具體來看,在多模態(tài)推理能力上,Step3-VL-10B在部分測試集上超越了GLM-4.6V、Qwen3-VL等模型,其性能優(yōu)于10倍至20倍大的模型。


數(shù)學(xué)能力方面,該模型在AIME 25/24等數(shù)學(xué)競賽測試題上得分超過94分,這意味著其在邏輯嚴(yán)密性上甚至優(yōu)于許多千億級模型。


2D、3D空間推理能力上,模型在BLINK上表現(xiàn)出66.79%的涌現(xiàn)式空間意識,在All-Angles-Bench上達(dá)到57.21%,意味著該模型在具身智能應(yīng)用方面具有強(qiáng)大的潛力。


最后是編程能力,在真實(shí)、動態(tài)編程環(huán)境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。


此外,該模型的開源主頁顯示,研究人員在Qwen3VL-8B相關(guān)的基準(zhǔn)測試中出現(xiàn)了不準(zhǔn)確數(shù)據(jù),例如AIME、HMMT、LCB,目前正在修復(fù)。這些錯(cuò)誤是由于其在大規(guī)模評估過程中max_tokens設(shè)置錯(cuò)誤造成,他們將重新運(yùn)行測試,并在下一版技術(shù)報(bào)告中提供修正后的數(shù)據(jù)。

三、從感知到推理雙提升,三大關(guān)鍵設(shè)計(jì)加持

該模型的論文提到,Step3-VL-10B的性能突破得益于三個(gè)關(guān)鍵設(shè)計(jì):

一是在高質(zhì)量多模態(tài)語料庫上進(jìn)行統(tǒng)一預(yù)訓(xùn)練:研究人員采用單階段、完全解凍的訓(xùn)練策略,在1.2T token的多模態(tài)語料庫上進(jìn)行訓(xùn)練,重點(diǎn)關(guān)注兩大基礎(chǔ)能力:推理和感知,例如通用知識和教育中心任務(wù)等推理能力,定位、計(jì)數(shù)、OCR和GUI交互等感知能力。

通過聯(lián)合優(yōu)化感知編碼器和Qwen3-8B解碼器,STEP3-VL-10B建立了內(nèi)在的視覺-語言協(xié)同效應(yīng)。

二是縮放多模態(tài)強(qiáng)化學(xué)習(xí):通過一個(gè)嚴(yán)格的后訓(xùn)練流程解鎖了前沿能力,該流程包括兩階段監(jiān)督微調(diào)(SFT)以及超過1400次的強(qiáng)化學(xué)習(xí)迭代,結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)和人類反饋(RLHF)。

三是并行協(xié)調(diào)推理機(jī)制:研究人員采用并行協(xié)調(diào)推理(PaCoRe),支持推理階段的動態(tài)算力擴(kuò)展。通過并行探索多個(gè)感知假設(shè)并進(jìn)行多維證據(jù)聚合,該機(jī)制顯著提升了模型在競賽級數(shù)學(xué)、復(fù)雜OCR識別、精準(zhǔn)物體計(jì)數(shù)及空間拓?fù)渫评碇械臏?zhǔn)確度。

階躍星辰的官方公眾號提到,得益于“三位一體”架構(gòu),Step3-VL-10B證明智能水平并不完全取決于參數(shù)規(guī)模。這也意味著:世界一流的多模態(tài)能力有望以更低成本、更少算力獲得;與此同時(shí),過去主要集中在云端超級智能將逐步向端側(cè)下沉,推動終端走向“主動理解與可執(zhí)行交互”。

結(jié)語:Step3-VL-10B或成端側(cè)AI新選擇

從Step3-VL-10B的實(shí)測可以看出,該模型憑借10B輕量化參數(shù)體量,通過高質(zhì)量多模態(tài)語料統(tǒng)一預(yù)訓(xùn)練、千余次強(qiáng)化學(xué)習(xí)迭代及并行協(xié)調(diào)推理機(jī)制,實(shí)現(xiàn)了對超大規(guī)模模型的跨級性能追趕。

并且具體到GUI交互、精準(zhǔn)計(jì)數(shù)、競賽級數(shù)學(xué)推理等任務(wù),該模型也展現(xiàn)出較大應(yīng)用潛力,未來有望降低在工業(yè)質(zhì)檢、本地文檔分析、基層醫(yī)療輔助等場景的部署門檻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
漲價(jià)300%,瀾起科技,喜迎潑天富貴!

漲價(jià)300%,瀾起科技,喜迎潑天富貴!

投研邦V
2026-01-20 19:40:06
越媒:除了防守中國U23并無太多特別之處;中國防守主要靠后場堆人

越媒:除了防守中國U23并無太多特別之處;中國防守主要靠后場堆人

懂球帝
2026-01-20 12:06:39
無緣爭冠!韓國球迷意難平!不止因?yàn)?-1日本,更多在于以下5點(diǎn)

無緣爭冠!韓國球迷意難平!不止因?yàn)?-1日本,更多在于以下5點(diǎn)

劉哥談體育
2026-01-21 00:23:30
大坂直美驚險(xiǎn)晉級!四屆大滿貫冠軍2-1險(xiǎn)勝,艱難躋身澳網(wǎng)第2輪

大坂直美驚險(xiǎn)晉級!四屆大滿貫冠軍2-1險(xiǎn)勝,艱難躋身澳網(wǎng)第2輪

全景體育V
2026-01-20 20:32:13
“國民神車”連續(xù)兩個(gè)月 0 銷量之后,搞了個(gè)騷操作

“國民神車”連續(xù)兩個(gè)月 0 銷量之后,搞了個(gè)騷操作

藍(lán)字計(jì)劃
2026-01-20 15:13:01
重慶馬拉松一跑友在賽道上倒地離世,離全馬終點(diǎn)不到200米,他在圈內(nèi)被稱為大神,一周前剛在廈門“破三”

重慶馬拉松一跑友在賽道上倒地離世,離全馬終點(diǎn)不到200米,他在圈內(nèi)被稱為大神,一周前剛在廈門“破三”

極目新聞
2026-01-20 15:52:23
俄柬菲免簽了,明星們卻扎堆北海道

俄柬菲免簽了,明星們卻扎堆北海道

生活時(shí)尚導(dǎo)刊
2026-01-19 22:00:12
終結(jié)3連敗!新疆大勝雙殺江蘇 阿不都16+5龐崢麟11中2

終結(jié)3連敗!新疆大勝雙殺江蘇 阿不都16+5龐崢麟11中2

醉臥浮生
2026-01-20 21:41:00
馬斯克預(yù)言成真!繼芯片后又一東西遭瘋搶,中方或成最大贏家

馬斯克預(yù)言成真!繼芯片后又一東西遭瘋搶,中方或成最大贏家

燕梳樓頻道
2026-01-20 19:50:51
滿滿的都是回憶,武磊在社媒曬出自己收藏的西班牙人球衣

滿滿的都是回憶,武磊在社媒曬出自己收藏的西班牙人球衣

懂球帝
2026-01-20 19:47:31
U23國足變陣戰(zhàn)越南:換6人,向余望首發(fā),王鈺棟替補(bǔ)

U23國足變陣戰(zhàn)越南:換6人,向余望首發(fā),王鈺棟替補(bǔ)

小皷拍客在北漂
2026-01-21 00:18:18
澳網(wǎng)正賽首勝!吳易昺四盤激戰(zhàn)勝出,2年半后再次在大滿貫贏球

澳網(wǎng)正賽首勝!吳易昺四盤激戰(zhàn)勝出,2年半后再次在大滿貫贏球

全景體育V
2026-01-20 14:33:44
U23國足決戰(zhàn)越南!董路:我看好中國隊(duì) 越南不可能5連勝 他們飄了

U23國足決戰(zhàn)越南!董路:我看好中國隊(duì) 越南不可能5連勝 他們飄了

風(fēng)過鄉(xiāng)
2026-01-20 07:00:02
李亞鵬事件再升級,房東助理揭內(nèi)情,暗指忘恩負(fù)義,當(dāng)?shù)鼐用癜l(fā)聲

李亞鵬事件再升級,房東助理揭內(nèi)情,暗指忘恩負(fù)義,當(dāng)?shù)鼐用癜l(fā)聲

冷紫葉
2026-01-20 13:26:51
武大;愨藓谌苏煞騾s被迫輪流接客,父親解救失敗后自縊

武大;愨,嫁黑人丈夫卻被迫輪流接客,父親解救失敗后自縊

談史論天地
2026-01-19 17:40:00
賣不動了?鉆石價(jià)格大跌,巨頭宣布:降價(jià)!十年前1.8萬元買的鉆戒,如今只能賣180元,同期黃金價(jià)格漲超400%

賣不動了?鉆石價(jià)格大跌,巨頭宣布:降價(jià)!十年前1.8萬元買的鉆戒,如今只能賣180元,同期黃金價(jià)格漲超400%

每日經(jīng)濟(jì)新聞
2026-01-20 16:22:28
“每次在歐洲吃飯都感覺自己像來上供的。”

“每次在歐洲吃飯都感覺自己像來上供的!

窮游網(wǎng)
2026-01-20 11:11:24
云南羅平一4個(gè)多月女嬰在母嬰店泡藥浴后離世, 母親發(fā)聲

云南羅平一4個(gè)多月女嬰在母嬰店泡藥浴后離世, 母親發(fā)聲

觀威海
2026-01-20 09:02:03
酒色人間,才是生命鮮活的來頭

酒色人間,才是生命鮮活的來頭

青蘋果sht
2026-01-16 05:36:37
向華炎追悼會!向華強(qiáng)夫婦現(xiàn)身,4000多江湖兄弟,多位猛人亮相

向華炎追悼會!向華強(qiáng)夫婦現(xiàn)身,4000多江湖兄弟,多位猛人亮相

裕豐娛間說
2026-01-19 21:36:23
2026-01-21 01:40:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11095文章數(shù) 116943關(guān)注度
往期回顧 全部

科技要聞

收藏|這可能是CES2026最清醒一份復(fù)盤

頭條要聞

特朗普改口:英國做法愚蠢至極

頭條要聞

特朗普改口:英國做法愚蠢至極

體育要聞

勇士遭暴擊!巴特勒重傷賽季報(bào)銷

娛樂要聞

網(wǎng)紅版閆學(xué)晶!600萬粉博主阿爆翻車

財(cái)經(jīng)要聞

李迅雷:2026買房不如租房

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點(diǎn)終結(jié)者

態(tài)度原創(chuàng)

房產(chǎn)
旅游
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

中旅?三亞藍(lán)灣發(fā)布會揭秘自貿(mào)港好房子高階形態(tài)

旅游要聞

寒假怎么玩?來四川解鎖通往未來的彩蛋

數(shù)碼要聞

行業(yè)唯一!紅魔電競平板3 Pro GOLDEN SAGA發(fā)布:鍍金VC、24GB+1TB存儲

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

德軍13人前腳剛走 荷蘭2名軍人也撤離格陵蘭島

無障礙瀏覽 進(jìn)入關(guān)懷版