国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

商湯發(fā)布多模態(tài)“效率怪獸”,開源即SOTA!最小僅8B,比肩商用

0
分享至


智東西
作者 江宇
編輯 漠影

當(dāng)GPT images 2.0又再一次搶占頭條,人們對多模態(tài)模型的關(guān)注也在悄然變化:“畫得好”已經(jīng)不再是問題了,我們還想要“速度快、效率高、成本低”。

過去很長一段時(shí)間里,視覺理解與圖像生成,往往被拆分為兩套體系:前者負(fù)責(zé)“看懂”,后者負(fù)責(zé)“畫出”,中間通過不同模塊進(jìn)行銜接。這種在底層邏輯上的割裂,是阻礙模型效率的核心。

商湯這次的思路,是從架構(gòu)層面直接處理這個(gè)問題。

他們剛剛開源了原生理解生成統(tǒng)一模型SenseNova U1,便基于自研的NEO-unify架構(gòu),將圖像與文本的理解與生成能力統(tǒng)一到同一體系中,沒有了“中間商”之后,效率得到大幅提升。

在圖像理解與生成的多項(xiàng)基準(zhǔn)測試中,SenseNova U1 Lite在同量級開源模型中達(dá)到SOTA水平,并在多項(xiàng)指標(biāo)上逼近商業(yè)閉源模型表現(xiàn)。以8B參數(shù)規(guī)模,實(shí)現(xiàn)接近更大模型的能力,得到“以小搏大”的表現(xiàn)。


▲高密度信息圖(en)


▲高密度信息圖(zh)

目前,用戶可以在Hugging Face、GitHub獲取開源模型。同時(shí),商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1,用戶可直接體驗(yàn)相關(guān)能力。

一、不靠堆參數(shù),靠效率取勝:8B模型拿下開源SOTA

本次開源包含兩個(gè)版本:SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT,均基于統(tǒng)一的多模態(tài)理解、推理與生成架構(gòu),面向圖文理解、生成及復(fù)雜交互任務(wù)。

如果從測評結(jié)果來看,SenseNova U1最突出的優(yōu)勢,在于整體效率——在理解、生成、推理與圖文交錯(cuò)多個(gè)維度上,用更小的模型規(guī)模,跑出了接近甚至逼近商業(yè)閉源模型的表現(xiàn)。

在理解側(cè),SenseNova-U1-8B-MoT在AI2D、IFBench等基準(zhǔn)上均取得領(lǐng)先表現(xiàn),例如在AI2D上達(dá)到91.7分。結(jié)合空間理解相關(guān)測試,可以看到模型在復(fù)雜結(jié)構(gòu)與關(guān)系判斷等任務(wù)中表現(xiàn)穩(wěn)定,具備一定的邏輯推理能力。


在生成側(cè),模型在GenEval、OneIG、LongTextBench等任務(wù)中表現(xiàn)穩(wěn)定,能夠同時(shí)兼顧復(fù)雜結(jié)構(gòu)生成與文本一致性。尤其是在信息圖生成(Infographics)任務(wù)中,平均得分達(dá)到50.7,是開源模型最強(qiáng),媲美部分閉源商業(yè)模型。


進(jìn)一步看編輯與圖文交錯(cuò)能力,在Editing、Visual Reasoning等任務(wù)中,SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現(xiàn)突出。例如在OpenING相關(guān)任務(wù)中達(dá)到91分,在視覺推理任務(wù)中也明顯優(yōu)于傳統(tǒng)圖像生成模型。


但相比這些分項(xiàng)成績,更關(guān)鍵的是它的“性能—效率比”。

從對比結(jié)果來看,在信息圖生成與長文本等任務(wù)中,SenseNova U1在約15秒延遲下即可取得接近60分的平均成績,整體屬于“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型,其在生成質(zhì)量接近商業(yè)閉源模型的同時(shí),響應(yīng)速度更快。


▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench


▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

這些性能表現(xiàn)背后,主要還是來自底層架構(gòu)的優(yōu)勢。SenseNova U1基于商湯自研的NEO-unify原生統(tǒng)一架構(gòu),在設(shè)計(jì)上減少了中間環(huán)節(jié)帶來的信息損耗,因此在數(shù)據(jù)利用效率和推理開銷上更有優(yōu)勢。

最終呈現(xiàn)出來的,才得以是“以小搏大”的優(yōu)勢:僅用8B參數(shù)規(guī)模,在多個(gè)維度達(dá)到同量級開源模型SOTA,并在部分任務(wù)上逼近商業(yè)閉源模型。

從測評結(jié)果來看,這種優(yōu)勢已經(jīng)比較清晰。至于落到真實(shí)使用場景中,SenseNova U1是否同樣穩(wěn)定、好用,我們來實(shí)測一番。

二、一手實(shí)測揭秘:從立體排版到“言出法隨”

智東西選取了多個(gè)不同類型的任務(wù)進(jìn)行測試,覆蓋高密度信息圖、趣味創(chuàng)意圖以及技術(shù)流程圖等典型場景。

創(chuàng)作信息圖可以說是最能“精準(zhǔn)擊中”職場人的能力。用戶只需要輸入文章、資料或文字說明,模型就能將其中的關(guān)鍵信息提煉出來,并生成一張具備結(jié)構(gòu)、層級和視覺重點(diǎn)的信息圖。

在“蘇超出圈之路”這一案例中,模型就生成了一張多層蛋糕式信息圖。不同階段以立體分層形式呈現(xiàn),文字隨著結(jié)構(gòu)自然分布在不同空間層級中,而不是簡單平鋪。


這背后其實(shí)反映的是模型對結(jié)構(gòu)的理解能力。更關(guān)鍵的是,在這種復(fù)雜排版下,整張圖沒有出現(xiàn)明顯的文字錯(cuò)位、遮擋或渲染錯(cuò)誤,整體可讀性很高。

換一個(gè)更復(fù)雜的文本場景來看,模型對富文本結(jié)構(gòu)的理解能力,體現(xiàn)得更明顯:哪些信息需要突出,哪些適合做流程,哪些更適合用圖表表達(dá),哪些需要用圖標(biāo)輔助理解。

龍蝦使用指南”這個(gè)案例,就更能體現(xiàn)細(xì)節(jié)處理能力。


這一任務(wù)中包含大量中英文混排、不同字號文本以及情緒化表達(dá)。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了,還自動(dòng)匹配了對應(yīng)的圖標(biāo)和帶情緒的畫面,比如龍蝦被“壓榨”、被“投喂指令”等。

不同模塊之間的文字大小、間距和布局都處理得較為合理,沒有擠在一起,已經(jīng)達(dá)到直接商用的水準(zhǔn)了。

在人物與指令理解方面,“馬斯克vs奧特曼”這一案例更具代表性。


在提示詞中僅輸入“奧特曼”這一昵稱,模型直接生成了一個(gè)穿西裝的“奧特曼形象”,與旁邊的馬斯克形成對比,既符合語義又帶有明顯的趣味性。與此同時(shí),馬斯克的表情、動(dòng)作以及整個(gè)對峙氛圍也都比較到位,可見模型在人物理解和場景構(gòu)建上具備較強(qiáng)的語義對齊能力。

到了技術(shù)表達(dá)這一步,難度其實(shí)更高。在“SenseNova U1技術(shù)解讀”這一案例中,模型需要生成的是一張邏輯清晰的技術(shù)流程圖。


從結(jié)果來看,整體結(jié)構(gòu)層級清晰,信息分區(qū)明確、表達(dá)直觀,對于非技術(shù)讀者也較為友好。

一輪實(shí)測下來,另一個(gè)比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內(nèi)完成,有點(diǎn)接近“言出法隨”的感覺。

在這樣的生成效率下,各種應(yīng)用場景也不在話下。目前,SenseNova U1可生成信息圖譜、專業(yè)簡歷、生活指南、產(chǎn)品說明、百科知識、漫畫創(chuàng)作等多種內(nèi)容。對營銷、辦公、設(shè)計(jì)、商業(yè)分析等場景來說,這類能力直接對應(yīng)的是內(nèi)容生產(chǎn)效率提升。

三、告別“縫合”,NEO-unify架構(gòu)如何成為理解與生成的“通才”?

測評集成績有優(yōu)勢,實(shí)測效果也毫不遜色,這個(gè)原生框架究竟好在哪里,我們來拆解一下。

過去,多模態(tài)模型的工作方式更像是“分工協(xié)作”:視覺編碼器負(fù)責(zé)理解圖像,變分自編碼器負(fù)責(zé)生成圖像。前者看圖,后者畫圖,中間再通過不同模塊完成銜接。

理解與生成更像兩條并行的流程,能配合,但很難真正融合,所以SenseNova U1這次選擇直接推倒重建,從底層架構(gòu)上直接改掉這套“拼接式”體系。

其采用的自研NEO-unify架構(gòu),不再把語言和視覺當(dāng)作需要中間轉(zhuǎn)換的兩種信號,而是從一開始就把它們當(dāng)作同一類信息來建模。


換句話說,語言與視覺不再各走各路,在同一套表征體系里共同參與理解、推理和生成。

這種設(shè)計(jì)本質(zhì)上回到了“多模態(tài)AI第一性原理”:不同模態(tài)之間本來就是內(nèi)在關(guān)聯(lián)的。

在具體實(shí)現(xiàn)上,模型盡量減少中間壓縮與轉(zhuǎn)換環(huán)節(jié),直接從接近原始的像素和文本信息中學(xué)習(xí),讓信息在傳遞過程中損耗更小。

同時(shí),它的數(shù)據(jù)和推理效率也更高。這也是SenseNova U1值得關(guān)注的地方:并不是單純靠堆參數(shù)規(guī)模換效果,而是在底層架構(gòu)上重新處理多模態(tài)模型的協(xié)作方式。

四、當(dāng)AI學(xué)會(huì)“帶圖思考”,展開空間智能更多想象

不同于GPT-image2單純圖像上的“卷王體質(zhì)”,SenseNova U1也展示了另一種可能:讓圖像成為邏輯的一部分,并在推理過程中引入對空間結(jié)構(gòu)的理解。

這也是其“連續(xù)性圖文創(chuàng)作輸出”的能力核心。

SenseNova U1是業(yè)內(nèi)首個(gè)能夠在單一模型上進(jìn)行連貫圖文交錯(cuò)生成的模型。這意味著,在處理復(fù)雜任務(wù)時(shí),模型可以一邊解釋邏輯,一邊生成對應(yīng)的示意圖、流程圖、草圖或設(shè)計(jì)圖。

例如在教程、在繪本故事等場景中,它可以讓文字?jǐn)⑹隆⒉鍒D風(fēng)格、人物事件等保持一致性與連貫。


同時(shí),SenseNova-U1并不是先生成一段完整文字,再去“補(bǔ)圖”,而是從材料準(zhǔn)備或構(gòu)圖草稿開始,一步步輸出關(guān)鍵操作,并同步生成對應(yīng)畫面。

整個(gè)生成過程是連續(xù)的:步驟之間有承接關(guān)系,圖像之間保持風(fēng)格一致,文字和視覺內(nèi)容也始終圍繞同一上下文展開。這種連貫性,在過去依賴多模型串聯(lián)的方案中很難穩(wěn)定實(shí)現(xiàn),往往會(huì)出現(xiàn)風(fēng)格漂移或信息斷裂。

本質(zhì)上,這得益于SenseNova U1所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號完整的保留上下文中,在統(tǒng)一表征空間進(jìn)行高效連貫思考。

這也讓它和空間智能產(chǎn)生了更直接的聯(lián)系??臻g智能關(guān)注的是模型如何理解位置、方向、布局、關(guān)系和結(jié)構(gòu),而這些能力恰恰會(huì)在圖像生成、高密度信息圖排版、流程圖構(gòu)建和場景示意中反復(fù)出現(xiàn)。

如果繼續(xù)往后看,這類能力也可能成為具身智能的重要基礎(chǔ)。機(jī)器人要在真實(shí)環(huán)境中完成任務(wù),不僅要“看見”物體,還要理解物體之間的關(guān)系、判斷行動(dòng)路徑,并根據(jù)任務(wù)目標(biāo)做出連續(xù)決策。

從這個(gè)角度看,SenseNova U1的意義不只是生成更好看的圖,而是在單一模型中嘗試打通理解、推理和視覺表達(dá)。它距離真正成為機(jī)器人的“具身大腦”還有距離,但這類統(tǒng)一架構(gòu),至少提供了一條更接近多模態(tài)閉環(huán)的技術(shù)路徑。

結(jié)語:理解與生成走向統(tǒng)一,多模態(tài)模型進(jìn)入分岔口

從底層架構(gòu)的NEO-unify創(chuàng)新,到應(yīng)用層面的原生圖文交錯(cuò)與高密度信息圖生成,商湯的全面開源,不僅是參數(shù)規(guī)模上的“以小搏大”,更是對多模態(tài)第一性原理的深度回歸。

當(dāng)行業(yè)還在討論生圖模型的真實(shí)邊界時(shí),SenseNova U1已經(jīng)通過理解與生成的統(tǒng)一,為AGI的到來鋪就了一條更具效率的路徑。

開源的力量將讓這種原生多模態(tài)能力迅速滲透進(jìn)每一個(gè)垂直行業(yè),我們正在見證的是一個(gè)“圖文同構(gòu)、思畫合一”的全新時(shí)代的開啟。

在大模型全球競賽的下半場,國產(chǎn)模型正在輸出屬于自己的硬核解法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國國務(wù)院宣布:批準(zhǔn)向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會(huì)審查

美國國務(wù)院宣布:批準(zhǔn)向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會(huì)審查

魯中晨報(bào)
2026-05-02 18:03:06
聞泰科技“帶帽”首日一字跌停 封單超41億元

聞泰科技“帶帽”首日一字跌停 封單超41億元

財(cái)聞
2026-05-06 11:08:36
1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

阿器談史
2026-04-26 14:13:38
新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機(jī)”

新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機(jī)”

發(fā)現(xiàn)新西蘭
2026-05-06 13:20:33
提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認(rèn)為他跟廷貝爾差太遠(yuǎn)

提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認(rèn)為他跟廷貝爾差太遠(yuǎn)

雪狼侃體育
2026-05-06 19:18:33
蔣介石在他的日記里坦言:重慶談判時(shí)放走毛澤東,全是因?yàn)檫@2點(diǎn)

蔣介石在他的日記里坦言:重慶談判時(shí)放走毛澤東,全是因?yàn)檫@2點(diǎn)

倫倫媽愛歷史
2026-05-02 10:01:48
斯洛伐克擬派F-16戰(zhàn)機(jī)參加北約防空任務(wù),從2028年起計(jì)劃參與北約輪換式防空任務(wù),并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

斯洛伐克擬派F-16戰(zhàn)機(jī)參加北約防空任務(wù),從2028年起計(jì)劃參與北約輪換式防空任務(wù),并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

魯中晨報(bào)
2026-05-06 19:54:03
1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

興趣知識
2026-05-05 17:43:16
牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

柏銘銳談
2026-05-04 20:40:53
小鹿好局痛失,淚灑賽場,中韓女團(tuán)五強(qiáng)對決,韓國3:1獲勝

小鹿好局痛失,淚灑賽場,中韓女團(tuán)五強(qiáng)對決,韓國3:1獲勝

月滿大江流
2026-05-06 16:58:31
妻子升副局長跟我離婚,半年后我去開會(huì),見她在門口等我2小時(shí)

妻子升副局長跟我離婚,半年后我去開會(huì),見她在門口等我2小時(shí)

千秋文化
2026-03-25 21:49:57
估值數(shù)億美元,A.O.史密斯中國要賣了

估值數(shù)億美元,A.O.史密斯中國要賣了

融資中國
2026-05-05 09:59:32
以色列死局已定,無人能救!

以色列死局已定,無人能救!

大國觀察眼
2026-04-28 06:05:05
賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

熱搜摘要官
2026-05-05 18:09:18
內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

夜白侃球
2026-05-06 15:19:02
伊斯蘭革命衛(wèi)隊(duì):如果美國再犯錯(cuò)誤,就燒毀報(bào)廢他們的巨型戰(zhàn)艦!

伊斯蘭革命衛(wèi)隊(duì):如果美國再犯錯(cuò)誤,就燒毀報(bào)廢他們的巨型戰(zhàn)艦!

混沌錄
2026-04-30 00:12:11
“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

美芽
2026-05-06 18:30:49
森林狼主帥:文班至少4個(gè)蓋帽是干擾球 沒必要申訴那是浪費(fèi)時(shí)間

森林狼主帥:文班至少4個(gè)蓋帽是干擾球 沒必要申訴那是浪費(fèi)時(shí)間

羅說NBA
2026-05-06 05:52:40
官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

北青網(wǎng)-北京青年報(bào)
2026-05-06 19:59:03
吳宜澤:奧沙利文在決賽關(guān)鍵時(shí)刻給我發(fā)短信,讓我試著打出自己的風(fēng)格

吳宜澤:奧沙利文在決賽關(guān)鍵時(shí)刻給我發(fā)短信,讓我試著打出自己的風(fēng)格

懂球帝
2026-05-05 21:25:07
2026-05-06 20:35:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

最新GDP!全國30強(qiáng)城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
本地
房產(chǎn)
軍事航空

夏天的白裙,可以像赫本那樣穿

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

本地新聞

用青花瓷的方式,打開西溪濕地

房產(chǎn)要聞

遙遙領(lǐng)先!這個(gè)澄邁頂流紅盤,憑什么持續(xù)霸榜

軍事要聞

實(shí)施不到48小時(shí) 特朗普緊急喊停"霍爾木茲自由計(jì)劃"

無障礙瀏覽 進(jìn)入關(guān)懷版