国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源版的 GPT Image 2,信息圖、連續(xù)圖文、本地部署全拿下|商湯SenseNova U1實(shí)測

0
分享至


最近 GPT Image 2 火了之后,網(wǎng)上都是那些徹底以假亂真的 AI 生成圖片。大模型在視覺這條路上越走越遠(yuǎn),讓人興奮又讓人敬畏。

而 GPT Image 2 在眼下的 AI 生圖領(lǐng)域,幾乎是沒什么好爭的。但如果說云端閉源收費(fèi)的最好模型是 GPT Image 2,那能部署在本地的,免費(fèi)開源模型或許會是 SenseNova U1


▲由 SenseNova U1 生成

SenseNova U1 是商湯最新發(fā)布的一個(gè)開源的多模態(tài)模型,它的 Lite 系列 8B 和 A3B 參數(shù)版本,目前已經(jīng)在 Hugging Face 和 GitHub 上開源。

從模型參數(shù)和選擇開源的路線上,我們就能看到它和 GPT Image 2 是不太一樣的方向。

APPSO 也提前拿到了測試資格,我們發(fā)現(xiàn)商湯這款新一代原生理解生成統(tǒng)一模型,就開源模型來說,已經(jīng)做到了最好水平。

它帶來了大模型行業(yè)首創(chuàng)的連續(xù)圖文生成輸出,就是用單一模型就能連貫輸出圖片和文字,這個(gè)新鮮很值得去試一試。

目前 SenseNova U1 開源模型的權(quán)重已經(jīng)在 Hugging Face 和 GitHub 上開放下載。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

帶著圖片的思考

我們可能遇到過這樣的需求,想讓 AI 解釋一個(gè)復(fù)雜概念,同時(shí)配上示意圖,而且圖要跟著文字的邏輯走,解釋到第幾步,圖里就畫到第幾步。

一般的模型可能會直接采用生成代碼的方式來解決這個(gè)問題,像 Claude 使用的流式構(gòu)圖,或者一些 Vibe Coding 的網(wǎng)頁,包含文字和配圖。

但是要完全用一個(gè)模型同時(shí)在回復(fù)流里面,生成文字和圖片,并且不借助外部工具的調(diào)用,基本上現(xiàn)有的模型做不到這一點(diǎn)。因?yàn)槲淖稚珊蛨D像生成在模型底層,往往是兩件事。

SenseNova U1 的第一項(xiàng)特點(diǎn),就是在單一模型上進(jìn)行連續(xù)的圖文創(chuàng)作輸出。

比如我們試了一個(gè)場景,讓他生成一份簡單的繪本故事,講述一只小熊歷經(jīng)四季的變化。


▲ 提示詞:請創(chuàng)作一個(gè)圖文繪本故事,主角是一只棕色的小熊,故事講述它經(jīng)歷四季變化。

生成的連續(xù)圖文不僅理解到位,有一定的故事性,而且能很好的保持一致性,同時(shí)圖片的文字渲染全部準(zhǔn)確,小熊也在冬天穿上了毛衣,戴上了帽子。

實(shí)測中發(fā)現(xiàn)用 SenseNova U1 來進(jìn)行一些創(chuàng)意性的工作也非常有意思。

在官方的測試案例里,上傳一張大頭貼給模型,然后要求它設(shè)計(jì)幾款不同的發(fā)型??梢钥吹?,在生成連續(xù)圖文的完整過程中,人物的一致性,以及結(jié)構(gòu)、細(xì)節(jié),SenseNova U1 都做到了精準(zhǔn)保持。


▲ 提示詞:幫我設(shè)計(jì)幾款合適的發(fā)型,希望好看的同時(shí)比較有特色,然后幫我選一款最適合我的

還能直接讓他設(shè)計(jì)一個(gè)游戲角色,展示從整體視覺基調(diào)、核心交互細(xì)節(jié),再到環(huán)境敘事和性格刻畫的邏輯迭代過程。


更有意思的是,基于時(shí)序性的回答,用 SenseNova U1 創(chuàng)作是再合適不過。我們要求他生成一顆牛油果變成一顆室內(nèi)盆栽的過程,連續(xù)圖文的形式很好地呈現(xiàn)了完整的生長過程。


▲ 提示詞:怎么把一顆普通的牛油果種成一棵室內(nèi)盆栽

一番測試下來,圖片從來沒有離開過文字的邏輯,推理的思路走到哪里,圖片就跟到哪。

以前的圖文結(jié)合或許是調(diào)用不同模型,和對應(yīng)工具的寫作,確?;貜?fù)的內(nèi)容里,圖文是在說同一件事?,F(xiàn)在這項(xiàng)寫作從底層直接發(fā)生在模型內(nèi)部,無論是工具還是軟件,都不需要參與對齊的過程了,我們也只需要看到最后的結(jié)果。

對內(nèi)容創(chuàng)作者、設(shè)計(jì)師和營銷人員來說,SenseNova U1 的出現(xiàn),開始解決了一個(gè)長久以來的痛點(diǎn),即如何讓 AI 邊寫邊畫,而且圖文邏輯嚴(yán)絲合縫。

量大管飽的最強(qiáng)開源

確認(rèn)了它的原生理解生成統(tǒng)一能力后,我們要看 SenseNova U1 能否在復(fù)雜信息圖生成方面,達(dá)到開源模型的最好水平。

信息圖是把一大段復(fù)雜的文字或數(shù)據(jù),壓縮成一張一眼能看懂的圖。這件事其實(shí)比「畫一張漂亮的圖」難得多,需要理解內(nèi)容,知道哪些是核心,哪些是輔助,信息之間的邏輯關(guān)系,以及文字渲染等,都是難題。

閉源的 GPT Image 2 在這方面已經(jīng)做得很好了,我們在測試的時(shí)候一開始也沒有抱著太大的希望,會比 GPT Image 2 還要更好。但 SenseNova U1 的表現(xiàn),拿下開源 SOTA 的稱號也確實(shí)是當(dāng)之無愧。

我們先是就用一句話「用一張信息圖解釋一下 DeepSeek V4」,沒有任何附加的提示詞,看看它生成的信息圖表現(xiàn)如何。


▲ 由 SenseNova U1 生成

能看得出來 SenseNova U1 有聯(lián)網(wǎng)搜索到和 DeepSeek V4 相關(guān)的信息,像是原生多模態(tài),還有萬億參數(shù),以及百萬的上下文 Token。

而除了簡單的提示詞,還可以直接發(fā)送一個(gè)鏈接給它,SenseNova U1 也有對應(yīng)的網(wǎng)頁抓取工具,提取網(wǎng)頁內(nèi)容,來進(jìn)行信息圖的生成。

這些知識科普類的信息圖,SenseNova U1 的表現(xiàn)基本上都能駕馭。更簡單的像是「一張什么是電子煙的 3D 拆解科普」,它也能很快生成。


▲由 SenseNova U1 生成

而如果提示詞稍微詳細(xì)一點(diǎn),它也能完全照著提示詞的內(nèi)容,把這些文字準(zhǔn)確渲染成可視化程度較高的信息圖。


還有像是最近很火的武漢三鮮豆皮,直接告訴 SenseNova U1,生成一張三鮮豆皮完整制作流程的步驟圖。


還有夏天來了,挑選不同的防曬霜,也是一張信息圖,就能把 SPF 和 PA 值這些復(fù)雜的挑選參數(shù)講清楚。


甚至是要它畫一張 AI 大模型從訓(xùn)練到推理的工作原理圖,適合完全不懂技術(shù)的人看懂;SenseNova U1 也能用輕松有趣的風(fēng)格,簡單的描述 AI 大模型的工作過程。


在其他場景的應(yīng)用,像是營銷、辦公、設(shè)計(jì)參考和商業(yè)分析,我們都用不同的例子來測試了 SenseNova U1 的表現(xiàn)。

一般來說,營銷場景對視覺風(fēng)格的要求最高,也是最能看出模型有沒有真正理解「用戶想傳遞什么感受」的地方。一張好的營銷圖片,放在文章中間,甚至有可能直接被我們誤認(rèn)為是微信的文章內(nèi)廣告。

就像這張 SenseNova U1 生成的上海旅行信息圖,不僅把地圖描繪出來了,還列舉了上海的特色。


在辦公場景里,好看又要比準(zhǔn)確和高效更重要。我們測試了它對信息處理的能力,把一份五頁的會議紀(jì)要壓縮成一張一屏能看完的總結(jié)圖,要求邏輯清晰、重點(diǎn)突出,適合直接轉(zhuǎn)發(fā)給沒參會的同事。


復(fù)雜的信息之外,SenseNova U1 也能做到很好的視覺風(fēng)格參考,給它一段品牌的調(diào)性描述,要求生成一張包含配色建議、排版建議、氛圍關(guān)鍵詞的風(fēng)格參考圖,結(jié)果居然也還不錯(cuò)。


在一些數(shù)據(jù)分析的任務(wù)上,我們也測試了 SenseNova U1 數(shù)據(jù)可視化的能力,用圖表的方式來呈現(xiàn)更合理的信息圖。


可以看到,SenseNova U1 在信息提煉這一步做得不錯(cuò),它確實(shí)讀懂了內(nèi)容,知道什么重要什么次要。

但是在視覺表達(dá)上還有提升空間,有時(shí)候一些文字的渲染,還是會出現(xiàn)錯(cuò)誤,對于需要快速出圖、不想花時(shí)間在設(shè)計(jì)工具上反復(fù)調(diào)整的場景,已經(jīng)完全夠用。

下一個(gè)多模態(tài)模型的樣子

實(shí)測完 SenseNova U1,我們發(fā)現(xiàn)它的意義,在于它是第一個(gè)把「理解和生成統(tǒng)一」這件事認(rèn)真做出來的開源模型。而這,或許是整個(gè)多模態(tài)領(lǐng)域下一步要走的方向。

GPT Image 2 的刷屏,說明圖像生成的「生成質(zhì)量」這條線已經(jīng)被閉源模型拉得很高了。開源模型如果繼續(xù)在同一個(gè)維度繼續(xù)追,大概需要很長的時(shí)間才能趕上,并且開源的價(jià)值也會被壓縮到只剩下「便宜」。

SenseNova U1 提供了一個(gè)不同的技術(shù)路徑,對于整個(gè)開源社區(qū)的方向都有著重要意義。它除了在解決「怎么生成更好的圖」,也在告訴我們多模態(tài)模型的下一步會是什么樣子。


▲ SenseNova U1 采用了行業(yè)首創(chuàng)的 NEO-unify 原生架構(gòu),實(shí)現(xiàn)多模態(tài)理解生成的高效統(tǒng)一

過去的多模態(tài)模型,理解圖和生成圖是兩套系統(tǒng)在協(xié)作。一套負(fù)責(zé)看懂輸入,一套負(fù)責(zé)畫出輸出,中間靠接口傳遞信息。兩套系統(tǒng)各有各的內(nèi)部語言,信息在傳遞過程中會有損耗,就像兩個(gè)人用翻譯軟件溝通,意思大體到了,但總有點(diǎn)什么沒傳過去。

SenseNova U1 則是從底層把這兩件事,合進(jìn)了同一個(gè)表征空間。他們今年 3 月的技術(shù)博客里,就重點(diǎn)講解了 NEO-unify 這一項(xiàng)架構(gòu)。

目前大模型行業(yè)的慣例是,多模態(tài) AI 看圖要靠一個(gè)叫「視覺編碼器(VE)」的東西壓縮處理,然后再交給生成器。在 NEO-unify 架構(gòu)里,商湯把這套臃腫的傳統(tǒng)范式直接扔了。

結(jié)合 NEO-unify 結(jié)構(gòu)的 SenseNova U1,所使用的視覺接口是近似無損的,它直接把圖像分塊(Patch)吃進(jìn)去,不經(jīng)過任何預(yù)訓(xùn)練編碼器壓縮;然后在同一個(gè)主干網(wǎng)絡(luò)里,讓文本和視覺的訓(xùn)練端到端統(tǒng)一進(jìn)行。

在理解與生成各項(xiàng)基準(zhǔn)測試上,SenseNova U1 的表現(xiàn)也達(dá)到同量級開源模型的 SOTA 水平,甚至在多項(xiàng)指標(biāo)上的表現(xiàn)能和 Nano Banana 這些閉源模型相媲美。


▲ 分別是圖像理解、圖像生成,和視覺推理基準(zhǔn)測試結(jié)果

它回歸了多模態(tài)的第一性原理,從底層的像素和文字開始,自己構(gòu)建內(nèi)部的認(rèn)知。

這也能解釋為什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的參數(shù)的版本,也能打出超強(qiáng)的極致性價(jià)比。

本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite,目前它有兩個(gè)版本:8B 參數(shù)的 SenseNova-U1-8B-MoT,可以在邊緣設(shè)備上跑;38B 總參數(shù)但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更強(qiáng)能力,同時(shí)將推理成本控制得很低。


▲SenseNova U1 已經(jīng)在 GitHub 和 Hugging Face上開源,鏈接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

兩個(gè)版本都可以本地部署、可以微調(diào)、可以接進(jìn)自己的數(shù)據(jù)管道。對需要把圖像生成能力嵌進(jìn)自己產(chǎn)品的開發(fā)者來說,能夠?qū)δP托袨橛型耆目刂茩?quán),數(shù)據(jù)也不用出去。

如果你需要一個(gè)能夠高效實(shí)現(xiàn)理解與生成的模型,作為開源模型里的最強(qiáng)代表,SenseNova U1 確實(shí)值得嘗試。

商湯還在 GitHub 上開源了面向 Agent 運(yùn)行時(shí)的 AIGC 技能庫 SenseNova-Skills。我們可以直接把SenseNova U1這種強(qiáng)大的能力,接入到自己的智能體(Agent)工作流中。

利用這個(gè)工具包,我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平臺中一鍵調(diào)用。模型會自動評估我們的提示詞,選擇合適的版式,經(jīng)過多輪生成,輸出最佳的專業(yè)信息圖結(jié)果。


▲ Skills 鏈接:https://github.com/OpenSenseNova/SenseNova-Skills

回顧整個(gè)測試,SenseNova U1 這次交出了一份不錯(cuò)的答卷,它是目前我們能拿到手里的同量級最強(qiáng)開源模型。

對創(chuàng)作者來說,它行業(yè)首創(chuàng)的連續(xù)圖文創(chuàng)作輸出能力,打破了過去文字與配圖割裂的窘境,真正讓邊思考、邊寫作、邊配圖的連貫創(chuàng)作成為現(xiàn)實(shí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
iPhone Ultra渲染圖曝光,這設(shè)計(jì)有點(diǎn)刺激

iPhone Ultra渲染圖曝光,這設(shè)計(jì)有點(diǎn)刺激

搞機(jī)小帝
2026-04-29 20:36:46
2026年4月北京各區(qū)老破小房價(jià)最新出爐!

2026年4月北京各區(qū)老破小房價(jià)最新出爐!

說故事的阿襲
2026-04-29 18:34:02
25歲小伙連續(xù)3次跑步到同一地點(diǎn)就發(fā)病 嚴(yán)重到休克送進(jìn)搶救室 同伴都沒事

25歲小伙連續(xù)3次跑步到同一地點(diǎn)就發(fā)病 嚴(yán)重到休克送進(jìn)搶救室 同伴都沒事

閃電新聞
2026-04-29 13:45:25
羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

懂球帝
2026-04-28 23:17:24
開拓者3將身價(jià)暴跌!格蘭特低能,阿夫迪亞單一,克林根攻守被虐

開拓者3將身價(jià)暴跌!格蘭特低能,阿夫迪亞單一,克林根攻守被虐

籃球資訊達(dá)人
2026-04-29 13:09:55
高端奢華,內(nèi)馬爾購置了一架價(jià)值3700萬歐元的私人飛機(jī)

高端奢華,內(nèi)馬爾購置了一架價(jià)值3700萬歐元的私人飛機(jī)

懂球帝
2026-04-29 09:51:17
美股即將暴跌?

美股即將暴跌?

路財(cái)主
2026-04-29 11:45:56
廣東首敗面臨大清洗:或裁薩林杰奎因,打包送走杜潤旺張皓嘉3人

廣東首敗面臨大清洗:或裁薩林杰奎因,打包送走杜潤旺張皓嘉3人

林子說事
2026-04-29 12:54:23
海牙國際刑事法院就杜特爾特案作出終審裁定,莎拉出訪多國

海牙國際刑事法院就杜特爾特案作出終審裁定,莎拉出訪多國

百科密碼
2026-04-29 16:43:50
世乒賽還沒打 世界第一超級巨星孫穎莎發(fā)生意外又火了 看完讓人揪心

世乒賽還沒打 世界第一超級巨星孫穎莎發(fā)生意外又火了 看完讓人揪心

蘭亭墨未干
2026-04-29 16:31:04
姚高員任浙江省政府黨組成員

姚高員任浙江省政府黨組成員

汲古知新
2026-04-28 14:30:38
日本首先發(fā)言,28國在聯(lián)合國接連圍攻,中方仇當(dāng)場報(bào),審判已開始

日本首先發(fā)言,28國在聯(lián)合國接連圍攻,中方仇當(dāng)場報(bào),審判已開始

歸史
2026-04-29 03:20:52
5月1日起廣州早茶正式立法!去茶樓飲茶,這幾件事一定要留心

5月1日起廣州早茶正式立法!去茶樓飲茶,這幾件事一定要留心

房產(chǎn)衫哥
2026-04-26 03:13:51
為什么加速扒萬科?

為什么加速扒萬科?

魯八兩
2026-04-28 15:18:51
阿sa和教練老公泰國完婚,容祖兒關(guān)智斌等到場見證!阿sa近照老了

阿sa和教練老公泰國完婚,容祖兒關(guān)智斌等到場見證!阿sa近照老了

娛樂團(tuán)長
2026-04-29 11:18:27
美媒重排NBA歷史前十:奧尼爾墊底,科比第3,庫里排名飆升

美媒重排NBA歷史前十:奧尼爾墊底,科比第3,庫里排名飆升

寒律
2026-04-29 16:58:23
大阪酒吧店員往咖啡里口吐鮮奶,欲宣傳店內(nèi)“特色服務(wù)”?日網(wǎng):第一次希望視頻由AI生成…

大阪酒吧店員往咖啡里口吐鮮奶,欲宣傳店內(nèi)“特色服務(wù)”?日網(wǎng):第一次希望視頻由AI生成…

日本通
2026-04-28 10:33:22
開國十大武林高手,許世友只能排第八?

開國十大武林高手,許世友只能排第八?

祁州校尉
2026-04-15 17:30:14
美國終于下場,牽頭南美6國聲援巴拿馬!誓要清除中國影響力?

美國終于下場,牽頭南美6國聲援巴拿馬!誓要清除中國影響力?

近史博覽
2026-04-29 13:05:00
美國媒體預(yù)警:危險(xiǎn)!安徽合肥狂造芯片,逼退歐美巨頭

美國媒體預(yù)警:危險(xiǎn)!安徽合肥狂造芯片,逼退歐美巨頭

徐竦解說
2026-04-28 20:09:21
2026-04-29 21:16:49
愛范兒 incentive-icons
愛范兒
消費(fèi)科技第一媒體
38789文章數(shù) 2601582關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

男子詐騙熟人350萬 朋友圈發(fā)文"我跑路了 你們報(bào)案吧"

頭條要聞

男子詐騙熟人350萬 朋友圈發(fā)文"我跑路了 你們報(bào)案吧"

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

蘇州,率先進(jìn)入牛市

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

藝術(shù)
親子
手機(jī)
公開課
軍事航空

藝術(shù)要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復(fù)古作品!

親子要聞

這個(gè)#戶外大足球 真的是超推,爸爸跟娃今天都玩瘋了,運(yùn)動指拉滿了,對視力也很好,真的是孩子開心,媽媽...

手機(jī)要聞

手機(jī)版DLSS!三星ENSS跑分超競品15%:卻無游戲適配

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進(jìn)入關(guān)懷版