国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

原生理解生成統(tǒng)一:商湯SenseNova U1,用統(tǒng)一架構(gòu)終結(jié)縫合怪多模態(tài)

0
分享至



機(jī)器之心編輯部

就在每次大家剛摸熟玩法時(shí),新花樣又來了。

最近,全網(wǎng)集體上頭的是 OpenAI 發(fā)布的 GPT Image 2。它不只會(huì)生成好看的圖片,更是把「信息圖生成」帶火了:知識(shí)卡片、數(shù)據(jù)圖解、攻略長(zhǎng)圖、科普海報(bào)…… 只要一句話,就能生成一張排版精致、信息清晰、質(zhì)感在線的圖片。這波出圈速度,絲毫不亞于當(dāng)年的吉卜力風(fēng)格刷屏。

但對(duì)于國內(nèi)用戶來說,想體驗(yàn) GPT Image 2 還是有些難度的。那有沒有一個(gè)更低門檻、更適合國內(nèi)用戶的選擇?

好巧,還真有。

剛剛,我們發(fā)現(xiàn)了一款國產(chǎn)開源模型,正好踩中了這個(gè)需求 —— 來自商湯的日日新 SenseNova U1 系列原生理解生成統(tǒng)一模型

那些超大參數(shù)模型的玩法,它都能做,以前特別費(fèi)腦、費(fèi)時(shí)間的內(nèi)容,現(xiàn)在只需要把需求說清楚,它就能自動(dòng)完成信息整理、版式設(shè)計(jì)和視覺呈現(xiàn),直接給你「看起來很專業(yè)」的成品圖。

而且它完全開源,也不受次數(shù)束縛。

就像這樣:





SenseNova U1 不只是會(huì)「畫圖」,它采用了NEO-unify 理解生成統(tǒng)一的全新架構(gòu),能夠真正讓語言和視覺信息協(xié)同。所以它只需8B 的小參數(shù),就能實(shí)現(xiàn)很多商業(yè)閉源模型同樣的效果,效率拉滿。

由于能夠把視覺信息直接納入思考鏈路中,它還在行業(yè)首創(chuàng)了連續(xù)性圖文創(chuàng)作輸出的模式。

另外,值得說明的是,商湯這次開源的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite,包含SenseNova-U1-8B-MoTSenseNova-U1-A3B-MoT兩個(gè)版本。

  • GitHub:https://github.com/OpenSenseNova/SenseNova-U1
  • Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1

雖然身板小,但它在多個(gè)測(cè)評(píng)維度上性能領(lǐng)先。

在圖像理解與生成基準(zhǔn)測(cè)試中,SenseNova-U1-8B-MoT 的表現(xiàn)相當(dāng)亮眼。雖然它只是 8B 級(jí)模型,但在通用理解、空間理解等多個(gè)測(cè)試中都取得了領(lǐng)先成績(jī),甚至超過了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大規(guī)模模型。簡(jiǎn)單說,SenseNova-U1-8B-MoT 并不是靠堆參數(shù)取勝,而是在較小體量下做出了更高效的多模態(tài)理解能力。



在圖像生成基準(zhǔn)測(cè)試上,SenseNova U1 Lite 在信息圖生成(Infographics)的其中一項(xiàng)拿到了 39.8 的高分,領(lǐng)先 Qwen-Image 等模型。這說明在處理高難度、高密度信息轉(zhuǎn)化為圖表時(shí),SenseNova U1 具備行業(yè)領(lǐng)先的邏輯重組能力。

在文字渲染(Text Rendering)這一維度下,SenseNova U1 Lite 的成績(jī)幾乎全面領(lǐng)先。AI 生圖最怕文字崩壞,這一測(cè)試結(jié)果證明了 SenseNova U1 Lite 在視覺化文字上的精準(zhǔn)度。



視覺推理是 AI 最容易「翻車」的地方,因?yàn)樗竽P筒粌H要看懂圖像,還要進(jìn)行復(fù)雜的邏輯推理。SenseNova U1 (VBVR (UMM) 得分)拿到了 60.5 的高分,超過對(duì)比模型(如 Nano-Banana 的 49.6)。這意味著在處理復(fù)雜的視覺關(guān)系推理時(shí),它比同類模型表現(xiàn)得更加「聰明」。

在 WISE 維度上取得了 69.0 的優(yōu)異成績(jī),領(lǐng)先于 Qwen-Image(63.0)以及其他一眾模型。這表明在執(zhí)行基于人類意圖的視覺修改時(shí),它對(duì)「指令」的解析與「像素」的操控結(jié)合得更加緊密。

GEdit-Bench 得分 7.47,在同量級(jí)開源模型中處于頂尖位置,甚至優(yōu)于一些參數(shù)規(guī)模更大的閉源替代方案。



實(shí)測(cè)后發(fā)現(xiàn),這才是你急需的提效利器

光看榜單當(dāng)然不過癮。

SenseNova U1 Lite 在業(yè)內(nèi)首個(gè)實(shí)現(xiàn)連續(xù)性的圖文創(chuàng)作輸出

傳統(tǒng)模型的工作方式是:先用文字把問題想清楚,再調(diào)用外部工具把圖生出來,這是兩個(gè)步驟,兩套系統(tǒng),中間還有中間商負(fù)責(zé)牽線。SenseNova U1 Lite 打破的,正是這道墻,它能在同一套推理過程中,讓圖像和文字同步生長(zhǎng),示意圖、流程圖、草圖,在它推理的同時(shí)就已經(jīng)出現(xiàn)了,而不是等推理結(jié)束后再配上去。

我們來看幾個(gè)實(shí)際效果。

讓它生成一幅小白兔和大灰狼的故事連環(huán)畫。

從結(jié)果可以看出,SenseNova U1 Lite 可以一邊推進(jìn)故事情節(jié),一邊同步生成對(duì)應(yīng)場(chǎng)景的插圖,圖和文本來自同一套思維過程,邏輯連貫、風(fēng)格統(tǒng)一。





想學(xué)習(xí)電影運(yùn)鏡,也可以向 SenseNova U1 Lite 提問,它會(huì)把文字解釋和視覺圖同步給你,并且保持人物角色的高度一致性。這比單純的文字教程好懂得多,也比純圖示來得有邏輯。



這種帶圖思考的能力,正是 SenseNova U1 的原生圖文理解生成能力。它能把圖像與文本從底層進(jìn)行融合,實(shí)現(xiàn)高效、連貫的思考和圖文交錯(cuò)輸出。不但效率高,也更接近人類的理解與表達(dá)模式。

我們還用 SenseNova U1 Lite 嘗試了復(fù)雜高密度信息圖(infographic)的生成

信息圖要解決的是一個(gè)真實(shí)的表達(dá)困境:一篇論文、一份研報(bào)、一個(gè)操作流程、一個(gè)知識(shí)點(diǎn),原始形態(tài)往往密度過高、結(jié)構(gòu)不清,大多數(shù)人看到就想關(guān)掉。而一張好的信息圖,能把同樣的內(nèi)容重新組織,讓讀者在幾秒鐘內(nèi)抓住核心。

首先,我們讓模型生成了一張適合可愛女生的短發(fā)造型信息圖,SenseNova U1 Lite 完成度依然在線。



在接下來的案例中,SenseNova U1 Lite 生成的占星術(shù)與塔羅牌占卜圖片風(fēng)格華麗,充滿了神秘主義元素,如果你對(duì)星座感興趣,不放也試著做一份屬于自己的星座圖。



讀不下去的論文,交給它。

最近,谷歌 DeepMind 發(fā)布了一篇頗受關(guān)注的論文《Image Generators are Generalist Vision Learners》,內(nèi)容密度高,需要反復(fù)閱讀才能理清脈絡(luò)。我們把摘要丟給 SenseNova U1 Lite,讓它生成一份圖解。它不只是把文字重新排了一遍,而是真正提取出了論文的核心主張、方法邏輯和關(guān)鍵結(jié)論,用更直觀的視覺結(jié)構(gòu)把這些內(nèi)容呈現(xiàn)出來,讓一篇需要沉下心來讀的學(xué)術(shù)文章,變得可以快速上手。



論文地址:https://arxiv.org/abs/2604.20329v1

接著,我們又換了一個(gè)完全不同的題材:讓模型生成一張「武俠江湖禁忌」信息圖。

這類內(nèi)容看似輕松,其實(shí)很考驗(yàn)?zāi)P偷慕Y(jié)構(gòu)化表達(dá)能力。因?yàn)樗纫薪叮忠屪x者一眼看懂規(guī)則。

SenseNova U1 Lite 的完成效果依然很有意思。它把江湖禁忌拆成了幾個(gè)清晰板塊:比如勿偷學(xué)武功,勿背后放冷箭暗器等。



金庸江湖生存指南:



接下來,我們又讓模型生成了一張「檸檬的萬能指南」信息圖。SenseNova U1 Lite 的處理方式比較聰明。它把檸檬的用途拆成了幾個(gè)清晰模塊:烹飪、家居清潔、心身療愈。



生成詹姆斯 · 喬治 · 弗雷澤名著「金枝」(The Golden Bough)信息圖:



刺繡入門指南:



城市明信片:



從以上結(jié)果可以看出,對(duì)于高信息密度場(chǎng)景,SenseNova U1 Lite 處理起來相當(dāng)游刃有余。

高效統(tǒng)一架構(gòu),讓小模型跑出大模型效果

看完這些效果,一個(gè)問題自然會(huì)浮現(xiàn):它為什么能做到這些?

過去,多模態(tài) AI 幾乎被一個(gè)固定范式所統(tǒng)治:視覺編碼器負(fù)責(zé)感知理解,把圖像壓縮成特征向量喂給語言模型;變分自編碼器負(fù)責(zé)生成圖像,把語言模型的意圖解碼成像素。兩套系統(tǒng)各司其職,看似分工明確,卻在理解與生成之間埋下了一道天然的斷層。

問題出在壓縮這個(gè)動(dòng)作上。視覺編碼器把圖像變成特征向量,本質(zhì)是一次有損的信息篩選,它預(yù)先決定了哪些視覺細(xì)節(jié)值得保留、哪些可以舍棄。而這個(gè)決定,早在模型真正開始思考之前就已經(jīng)做完了。生成側(cè)同樣如此:解碼器只能從語言模型的理解結(jié)果中重建圖像,而不是從原始像素出發(fā)。兩端都在用二手信息工作,斷層由此而來。

這種路線并不是沒有價(jià)值。相反,它是過去幾年多模態(tài)模型快速發(fā)展的重要基礎(chǔ)。但它的問題也很明顯:每多經(jīng)過一個(gè)模塊,信息就多一次轉(zhuǎn)換;每多一次轉(zhuǎn)換,就可能帶來一次損耗。尤其是圖像這種信息密度很高的模態(tài),一旦被過度壓縮,細(xì)節(jié)、空間關(guān)系、局部結(jié)構(gòu)都可能被弱化。到了生成階段,模型再想把這些信息完整還原出來,就會(huì)變得更困難。

這也是為什么很多多模態(tài)模型會(huì)出現(xiàn)一種割裂感:它可能能說清楚圖里有什么,卻不一定能準(zhǔn)確畫出復(fù)雜結(jié)構(gòu);它可能能生成一張好看的圖片,卻不一定真正理解文字里的邏輯關(guān)系;它也可能能完成單張圖生成,但一旦要求連續(xù)輸出多張風(fēng)格一致、邏輯連貫的圖文內(nèi)容,就容易出現(xiàn)前后不一致、細(xì)節(jié)漂移、版式混亂等問題。

SenseNova U1 Lite 的答案,是一套叫做 NEO-Unify 的原生多模態(tài)架構(gòu),解決這種理解和生成之間的斷層

其思路是把這些原本分開的環(huán)節(jié)盡可能收攏到一個(gè)統(tǒng)一架構(gòu)里。它不再把視覺和語言當(dāng)成兩個(gè)需要互相翻譯的系統(tǒng),而是讓圖像信息和文本信息在同一個(gè)內(nèi)部空間中共同參與計(jì)算。這樣一來,模型處理圖文任務(wù)時(shí),不需要在看圖系統(tǒng)、語言系統(tǒng)、生成系統(tǒng)之間來回傳遞,而是可以在同一套模型內(nèi)部完成感知、理解、推理和表達(dá)。

這樣做帶來的第一個(gè)好處,是信息路徑更短。

傳統(tǒng)架構(gòu)里,模型完成一次復(fù)雜圖文任務(wù),可能要經(jīng)歷看圖 — 理解 — 規(guī)劃 — 生成 — 修正等多個(gè)階段,而且每個(gè)階段之間都存在對(duì)齊成本。SenseNova U1 Lite 的統(tǒng)一架構(gòu)則更像是把這些環(huán)節(jié)壓縮進(jìn)同一個(gè)大腦里,讓模型可以一邊理解內(nèi)容,一邊組織畫面,一邊保持語義和視覺的一致性。少了中間轉(zhuǎn)譯,模型就能把更多計(jì)算用于真正的理解和生成,而不是消耗在模塊之間的銜接上。

第二個(gè)好處,是效率更高。

通過架構(gòu)上的統(tǒng)一,減少不必要的信息損耗和流程開銷,讓較小規(guī)模的模型也能釋放出更高的有效能力。

這也是 SenseNova-U1-8B-MoT 值得單獨(dú)拿出來看的原因。8B 級(jí)別的模型規(guī)模并不算大,但它在圖像生成、圖像編輯、復(fù)雜信息圖、視覺推理等任務(wù)中,能夠接近甚至追上部分大型商業(yè)模型。背后的關(guān)鍵,并不是簡(jiǎn)單小參數(shù)逆襲大模型,而是統(tǒng)一架構(gòu)讓計(jì)算利用率更高,模型不需要花太多能力去彌補(bǔ)模塊割裂帶來的損耗。

這可以通過一些實(shí)驗(yàn)結(jié)果來說明:

如下圖所示,SenseNova-U1-8B-MoT 位于相當(dāng)靠左的位置,延遲大約只有 15 秒 / 2K 圖,是所有對(duì)比模型中生成速度最突出的一個(gè)。同時(shí),它的平均得分接近 67 分,已經(jīng)進(jìn)入主流商業(yè)模型所在的中高分區(qū)間。

這意味著,SenseNova-U1-8B-MoT 的優(yōu)勢(shì)主要體現(xiàn)在效率上:它沒有依賴更長(zhǎng)的生成時(shí)間去換取性能,而是在低延遲條件下保持了較高的生成質(zhì)量。相比一些得分更高但耗時(shí)達(dá)到 30 秒、70 秒甚至更久的商業(yè)模型,它更接近實(shí)際生產(chǎn)中需要的狀態(tài),快速出圖、質(zhì)量可用、響應(yīng)穩(wěn)定。

換句話說,如果只看最高分,GPT-Image-2.0、Nano Banana Pro 等模型仍然處在第一梯隊(duì);但如果把速度也納入考量,SenseNova-U1-8B-MoT 的位置就變得非常突出。它用更短的時(shí)間完成了接近主流商業(yè)模型的生成效果,體現(xiàn)出很強(qiáng)的單位時(shí)間產(chǎn)出能力。



Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench



Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

結(jié)語

在 AI 領(lǐng)域,開源兩個(gè)字正在被嚴(yán)重稀釋。有的開源只是權(quán)重開放,卻不開放代碼;還有的干脆設(shè)了各種商用限制,開源不過是蹭熱度的說法。

商湯此次選擇將兩個(gè)參數(shù)模型全面開源,代碼托管于 GitHub,模型權(quán)重在 Hugging Face 平臺(tái)同步提供下載,完整技術(shù)報(bào)告也將在近期公布。

在當(dāng)前多模態(tài)大模型格局下,開源一個(gè)在架構(gòu)層面有實(shí)質(zhì)創(chuàng)新、且跑通了理解 - 生成 - 統(tǒng)一路線的模型,意味著這套方法可以被學(xué)術(shù)界反復(fù)審視、被開發(fā)者社區(qū)持續(xù)打磨,同時(shí)也為產(chǎn)業(yè)伙伴提供了直接可用的基礎(chǔ)設(shè)施。

尤其是它的小身材、大能量、高效率,能幫助開發(fā)者即便在資源受限的環(huán)境下,也能享受高效率的能力,發(fā)揮越級(jí)的實(shí)力。

當(dāng)整個(gè)行業(yè)都在追趕 GPT Image 2 的生圖質(zhì)量時(shí),商湯押注的是統(tǒng)一本身。而隨著全面開源的放出,這條路徑,現(xiàn)在屬于所有人。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
悲催!網(wǎng)傳遼寧一70歲老人腦梗成植物人,家屬商量直接拔管等斷氣

悲催!網(wǎng)傳遼寧一70歲老人腦梗成植物人,家屬商量直接拔管等斷氣

火山詩話
2026-04-29 11:55:36
美國拉攏一眾拉美國家就涉巴拿馬港口問題指責(zé)中國,外交部:完全是無中生有、顛倒黑白

美國拉攏一眾拉美國家就涉巴拿馬港口問題指責(zé)中國,外交部:完全是無中生有、顛倒黑白

環(huán)球網(wǎng)資訊
2026-04-29 15:39:07
魯超夏雨荷,被群嘲了

魯超夏雨荷,被群嘲了

大張的自留地
2026-04-29 10:17:47
石油巨震!阿聯(lián)酋退出歐佩克,引爆金融核彈,人民幣砍出致命一刀

石油巨震!阿聯(lián)酋退出歐佩克,引爆金融核彈,人民幣砍出致命一刀

丁丁鯉史紀(jì)
2026-04-29 10:53:25
躺平網(wǎng)紅受境外勢(shì)力資助?孫玉良:少年強(qiáng)則國強(qiáng),少年躺平則國亡

躺平網(wǎng)紅受境外勢(shì)力資助?孫玉良:少年強(qiáng)則國強(qiáng),少年躺平則國亡

孫玉良
2026-04-29 10:43:37
越野車憑什么也能家用?

越野車憑什么也能家用?

虎嗅APP
2026-04-28 17:48:06
車越造越大,我被卡在停車位出不來了......

車越造越大,我被卡在停車位出不來了......

樓市前線
2026-04-27 21:26:22
一季度GDP十強(qiáng)城市出爐,廣州超過重慶重回第四

一季度GDP十強(qiáng)城市出爐,廣州超過重慶重回第四

第一財(cái)經(jīng)資訊
2026-04-29 16:52:14
特朗普威脅伊朗“放聰明點(diǎn)”,同時(shí)配發(fā)持槍造型圖片:他們就是搞不明白,不知道怎么簽署無核協(xié)議;“不再有好好先生”

特朗普威脅伊朗“放聰明點(diǎn)”,同時(shí)配發(fā)持槍造型圖片:他們就是搞不明白,不知道怎么簽署無核協(xié)議;“不再有好好先生”

都市快報(bào)橙柿互動(dòng)
2026-04-29 17:26:35
Agent能力成DeepSeek-V4新亮點(diǎn),楓清科技加速大模型落地千行百業(yè)

Agent能力成DeepSeek-V4新亮點(diǎn),楓清科技加速大模型落地千行百業(yè)

科技talk
2026-04-28 15:48:27
印度一男子為取姐姐留下的1400元,挖出姐姐尸骨背到銀行取款,只因銀行要求必須本人到場(chǎng)

印度一男子為取姐姐留下的1400元,挖出姐姐尸骨背到銀行取款,只因銀行要求必須本人到場(chǎng)

觀威海
2026-04-29 10:32:12
東方風(fēng)起2030:東風(fēng)汽車變革為“體系競(jìng)爭(zhēng)型”企業(yè)的行動(dòng)綱領(lǐng)

東方風(fēng)起2030:東風(fēng)汽車變革為“體系競(jìng)爭(zhēng)型”企業(yè)的行動(dòng)綱領(lǐng)

汽車人傳媒
2026-04-28 08:38:16
14.99萬起!東風(fēng)日產(chǎn)NX8攜71項(xiàng)標(biāo)配登場(chǎng),選車只需做兩道選擇題

14.99萬起!東風(fēng)日產(chǎn)NX8攜71項(xiàng)標(biāo)配登場(chǎng),選車只需做兩道選擇題

掌尚車市
2026-04-28 17:38:18
網(wǎng)傳Meta收購Manus交易已全部交割完成

網(wǎng)傳Meta收購Manus交易已全部交割完成

小星球探索
2026-04-29 11:38:17
煽動(dòng)躺平之后,要警惕敵對(duì)勢(shì)力換賽道!

煽動(dòng)躺平之后,要警惕敵對(duì)勢(shì)力換賽道!

常識(shí)群
2026-04-29 11:19:04
萬科暗倉分贓錄:揭王石和郁亮是如何玩弄百億掏空術(shù)的

萬科暗倉分贓錄:揭王石和郁亮是如何玩弄百億掏空術(shù)的

六子吃涼粉
2026-04-29 11:28:00
霸王茶姬奶茶中喝出水銀?官方通報(bào):奶茶中異物系購買人投放

霸王茶姬奶茶中喝出水銀?官方通報(bào):奶茶中異物系購買人投放

界面新聞
2026-04-29 17:41:51
常住人口220多萬的馬鞍山市,一季度只有914名新生兒,同比暴跌67.4%

常住人口220多萬的馬鞍山市,一季度只有914名新生兒,同比暴跌67.4%

小蘿卜絲
2026-04-29 17:08:19
暗示退役?41歲卡索拉:一切都有始有終,未來幾天會(huì)宣布決定

暗示退役?41歲卡索拉:一切都有始有終,未來幾天會(huì)宣布決定

懂球帝
2026-04-29 17:58:16
重磅:烏克蘭三攻俄最大的圖阿普謝港!噴發(fā)百米火球濃煙

重磅:烏克蘭三攻俄最大的圖阿普謝港!噴發(fā)百米火球濃煙

項(xiàng)鵬飛
2026-04-28 20:18:11
2026-04-29 18:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12890文章數(shù) 142640關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

俄首富超級(jí)游艇穿越霍爾木茲海峽:6層甲板 25米長(zhǎng)泳池

頭條要聞

俄首富超級(jí)游艇穿越霍爾木茲海峽:6層甲板 25米長(zhǎng)泳池

體育要聞

一場(chǎng)九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

曾經(jīng)的新能源首富,希望又破了!

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

時(shí)尚
家居
本地
藝術(shù)
公開課

除了“薄底鞋”,今年最流行這5雙鞋,怎么搭都好看!

家居要聞

寂然無界 簡(jiǎn)潔風(fēng)格

本地新聞

用青花瓷的方式,打開西溪濕地

藝術(shù)要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復(fù)古作品!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版