国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開源版的 GPT Image 2,信息圖、連續(xù)圖文、本地部署全拿下|商湯SenseNova U1實(shí)測(cè)

0
分享至


最近 GPT Image 2 火了之后,網(wǎng)上都是那些徹底以假亂真的 AI 生成圖片。大模型在視覺這條路上越走越遠(yuǎn),讓人興奮又讓人敬畏。

而 GPT Image 2 在眼下的 AI 生圖領(lǐng)域,幾乎是沒什么好爭(zhēng)的。但如果說云端閉源收費(fèi)的最好模型是 GPT Image 2,那能部署在本地的,免費(fèi)開源模型或許會(huì)是 SenseNova U1。


▲由 SenseNova U1 生成

SenseNova U1 是商湯最新發(fā)布的一個(gè)開源的多模態(tài)模型,它的 Lite 系列 8B 和 A3B 參數(shù)版本,目前已經(jīng)在 Hugging Face 和 GitHub 上開源。

從模型參數(shù)和選擇開源的路線上,我們就能看到它和 GPT Image 2 是不太一樣的方向。

APPSO 也提前拿到了測(cè)試資格,我們發(fā)現(xiàn)商湯這款新一代原生理解生成統(tǒng)一模型,就開源模型來說,已經(jīng)做到了最好水平。

它帶來了大模型行業(yè)首創(chuàng)的連續(xù)圖文生成輸出,就是用單一模型就能連貫輸出圖片和文字,這個(gè)新鮮很值得去試一試。

目前 SenseNova U1 開源模型的權(quán)重已經(jīng)在 Hugging Face 和 GitHub 上開放下載。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

帶著圖片的思考

我們可能遇到過這樣的需求,想讓 AI 解釋一個(gè)復(fù)雜概念,同時(shí)配上示意圖,而且圖要跟著文字的邏輯走,解釋到第幾步,圖里就畫到第幾步。

一般的模型可能會(huì)直接采用生成代碼的方式來解決這個(gè)問題,像 Claude 使用的流式構(gòu)圖,或者一些 Vibe Coding 的網(wǎng)頁,包含文字和配圖。

但是要完全用一個(gè)模型同時(shí)在回復(fù)流里面,生成文字和圖片,并且不借助外部工具的調(diào)用,基本上現(xiàn)有的模型做不到這一點(diǎn)。因?yàn)槲淖稚珊蛨D像生成在模型底層,往往是兩件事。

SenseNova U1 的第一項(xiàng)特點(diǎn),就是在單一模型上進(jìn)行連續(xù)的圖文創(chuàng)作輸出。

比如我們?cè)嚵艘粋(gè)場(chǎng)景,讓他生成一份簡(jiǎn)單的繪本故事,講述一只小熊歷經(jīng)四季的變化。


▲ 提示詞:請(qǐng)創(chuàng)作一個(gè)圖文繪本故事,主角是一只棕色的小熊,故事講述它經(jīng)歷四季變化。

生成的連續(xù)圖文不僅理解到位,有一定的故事性,而且能很好的保持一致性,同時(shí)圖片的文字渲染全部準(zhǔn)確,小熊也在冬天穿上了毛衣,戴上了帽子。

實(shí)測(cè)中發(fā)現(xiàn)用 SenseNova U1 來進(jìn)行一些創(chuàng)意性的工作也非常有意思。

在官方的測(cè)試案例里,上傳一張大頭貼給模型,然后要求它設(shè)計(jì)幾款不同的發(fā)型?梢钥吹剑谏蛇B續(xù)圖文的完整過程中,人物的一致性,以及結(jié)構(gòu)、細(xì)節(jié),SenseNova U1 都做到了精準(zhǔn)保持。


▲ 提示詞:幫我設(shè)計(jì)幾款合適的發(fā)型,希望好看的同時(shí)比較有特色,然后幫我選一款最適合我的

還能直接讓他設(shè)計(jì)一個(gè)游戲角色,展示從整體視覺基調(diào)、核心交互細(xì)節(jié),再到環(huán)境敘事和性格刻畫的邏輯迭代過程。


更有意思的是,基于時(shí)序性的回答,用 SenseNova U1 創(chuàng)作是再合適不過。我們要求他生成一顆牛油果變成一顆室內(nèi)盆栽的過程,連續(xù)圖文的形式很好地呈現(xiàn)了完整的生長(zhǎng)過程。


▲ 提示詞:怎么把一顆普通的牛油果種成一棵室內(nèi)盆栽

一番測(cè)試下來,圖片從來沒有離開過文字的邏輯,推理的思路走到哪里,圖片就跟到哪。

以前的圖文結(jié)合或許是調(diào)用不同模型,和對(duì)應(yīng)工具的寫作,確保回復(fù)的內(nèi)容里,圖文是在說同一件事。現(xiàn)在這項(xiàng)寫作從底層直接發(fā)生在模型內(nèi)部,無論是工具還是軟件,都不需要參與對(duì)齊的過程了,我們也只需要看到最后的結(jié)果。

對(duì)內(nèi)容創(chuàng)作者、設(shè)計(jì)師和營(yíng)銷人員來說,SenseNova U1 的出現(xiàn),開始解決了一個(gè)長(zhǎng)久以來的痛點(diǎn),即如何讓 AI 邊寫邊畫,而且圖文邏輯嚴(yán)絲合縫。

量大管飽的最強(qiáng)開源

確認(rèn)了它的原生理解生成統(tǒng)一能力后,我們要看 SenseNova U1 能否在復(fù)雜信息圖生成方面,達(dá)到開源模型的最好水平。

信息圖是把一大段復(fù)雜的文字或數(shù)據(jù),壓縮成一張一眼能看懂的圖。這件事其實(shí)比「畫一張漂亮的圖」難得多,需要理解內(nèi)容,知道哪些是核心,哪些是輔助,信息之間的邏輯關(guān)系,以及文字渲染等,都是難題。

閉源的 GPT Image 2 在這方面已經(jīng)做得很好了,我們?cè)跍y(cè)試的時(shí)候一開始也沒有抱著太大的希望,會(huì)比 GPT Image 2 還要更好。但 SenseNova U1 的表現(xiàn),拿下開源 SOTA 的稱號(hào)也確實(shí)是當(dāng)之無愧。

我們先是就用一句話「用一張信息圖解釋一下 DeepSeek V4」,沒有任何附加的提示詞,看看它生成的信息圖表現(xiàn)如何。


▲ 由 SenseNova U1 生成

能看得出來 SenseNova U1 有聯(lián)網(wǎng)搜索到和 DeepSeek V4 相關(guān)的信息,像是原生多模態(tài),還有萬億參數(shù),以及百萬的上下文 Token。

而除了簡(jiǎn)單的提示詞,還可以直接發(fā)送一個(gè)鏈接給它,SenseNova U1 也有對(duì)應(yīng)的網(wǎng)頁抓取工具,提取網(wǎng)頁內(nèi)容,來進(jìn)行信息圖的生成。

這些知識(shí)科普類的信息圖,SenseNova U1 的表現(xiàn)基本上都能駕馭。更簡(jiǎn)單的像是「一張什么是電子煙的 3D 拆解科普」,它也能很快生成。


▲由 SenseNova U1 生成

而如果提示詞稍微詳細(xì)一點(diǎn),它也能完全照著提示詞的內(nèi)容,把這些文字準(zhǔn)確渲染成可視化程度較高的信息圖。


還有像是最近很火的武漢三鮮豆皮,直接告訴 SenseNova U1,生成一張三鮮豆皮完整制作流程的步驟圖。


還有夏天來了,挑選不同的防曬霜,也是一張信息圖,就能把 SPF 和 PA 值這些復(fù)雜的挑選參數(shù)講清楚。


甚至是要它畫一張 AI 大模型從訓(xùn)練到推理的工作原理圖,適合完全不懂技術(shù)的人看懂;SenseNova U1 也能用輕松有趣的風(fēng)格,簡(jiǎn)單的描述 AI 大模型的工作過程。


在其他場(chǎng)景的應(yīng)用,像是營(yíng)銷、辦公、設(shè)計(jì)參考和商業(yè)分析,我們都用不同的例子來測(cè)試了 SenseNova U1 的表現(xiàn)。

一般來說,營(yíng)銷場(chǎng)景對(duì)視覺風(fēng)格的要求最高,也是最能看出模型有沒有真正理解「用戶想傳遞什么感受」的地方。一張好的營(yíng)銷圖片,放在文章中間,甚至有可能直接被我們誤認(rèn)為是微信的文章內(nèi)廣告。

就像這張 SenseNova U1 生成的上海旅行信息圖,不僅把地圖描繪出來了,還列舉了上海的特色。


在辦公場(chǎng)景里,好看又要比準(zhǔn)確和高效更重要。我們測(cè)試了它對(duì)信息處理的能力,把一份五頁的會(huì)議紀(jì)要壓縮成一張一屏能看完的總結(jié)圖,要求邏輯清晰、重點(diǎn)突出,適合直接轉(zhuǎn)發(fā)給沒參會(huì)的同事。


復(fù)雜的信息之外,SenseNova U1 也能做到很好的視覺風(fēng)格參考,給它一段品牌的調(diào)性描述,要求生成一張包含配色建議、排版建議、氛圍關(guān)鍵詞的風(fēng)格參考圖,結(jié)果居然也還不錯(cuò)。


在一些數(shù)據(jù)分析的任務(wù)上,我們也測(cè)試了 SenseNova U1 數(shù)據(jù)可視化的能力,用圖表的方式來呈現(xiàn)更合理的信息圖。


可以看到,SenseNova U1 在信息提煉這一步做得不錯(cuò),它確實(shí)讀懂了內(nèi)容,知道什么重要什么次要。

但是在視覺表達(dá)上還有提升空間,有時(shí)候一些文字的渲染,還是會(huì)出現(xiàn)錯(cuò)誤,對(duì)于需要快速出圖、不想花時(shí)間在設(shè)計(jì)工具上反復(fù)調(diào)整的場(chǎng)景,已經(jīng)完全夠用。

下一個(gè)多模態(tài)模型的樣子

實(shí)測(cè)完 SenseNova U1,我們發(fā)現(xiàn)它的意義,在于它是第一個(gè)把「理解和生成統(tǒng)一」這件事認(rèn)真做出來的開源模型。而這,或許是整個(gè)多模態(tài)領(lǐng)域下一步要走的方向。

GPT Image 2 的刷屏,說明圖像生成的「生成質(zhì)量」這條線已經(jīng)被閉源模型拉得很高了。開源模型如果繼續(xù)在同一個(gè)維度繼續(xù)追,大概需要很長(zhǎng)的時(shí)間才能趕上,并且開源的價(jià)值也會(huì)被壓縮到只剩下「便宜」。

SenseNova U1 提供了一個(gè)不同的技術(shù)路徑,對(duì)于整個(gè)開源社區(qū)的方向都有著重要意義。它除了在解決「怎么生成更好的圖」,也在告訴我們多模態(tài)模型的下一步會(huì)是什么樣子。


▲ SenseNova U1 采用了行業(yè)首創(chuàng)的 NEO-unify 原生架構(gòu),實(shí)現(xiàn)多模態(tài)理解生成的高效統(tǒng)一

過去的多模態(tài)模型,理解圖和生成圖是兩套系統(tǒng)在協(xié)作。一套負(fù)責(zé)看懂輸入,一套負(fù)責(zé)畫出輸出,中間靠接口傳遞信息。兩套系統(tǒng)各有各的內(nèi)部語言,信息在傳遞過程中會(huì)有損耗,就像兩個(gè)人用翻譯軟件溝通,意思大體到了,但總有點(diǎn)什么沒傳過去。

SenseNova U1 則是從底層把這兩件事,合進(jìn)了同一個(gè)表征空間。他們今年 3 月的技術(shù)博客里,就重點(diǎn)講解了 NEO-unify 這一項(xiàng)架構(gòu)。

目前大模型行業(yè)的慣例是,多模態(tài) AI 看圖要靠一個(gè)叫「視覺編碼器(VE)」的東西壓縮處理,然后再交給生成器。在 NEO-unify 架構(gòu)里,商湯把這套臃腫的傳統(tǒng)范式直接扔了。

結(jié)合 NEO-unify 結(jié)構(gòu)的 SenseNova U1,所使用的視覺接口是近似無損的,它直接把圖像分塊(Patch)吃進(jìn)去,不經(jīng)過任何預(yù)訓(xùn)練編碼器壓縮;然后在同一個(gè)主干網(wǎng)絡(luò)里,讓文本和視覺的訓(xùn)練端到端統(tǒng)一進(jìn)行。

在理解與生成各項(xiàng)基準(zhǔn)測(cè)試上,SenseNova U1 的表現(xiàn)也達(dá)到同量級(jí)開源模型的 SOTA 水平,甚至在多項(xiàng)指標(biāo)上的表現(xiàn)能和 Nano Banana 這些閉源模型相媲美。


▲ 分別是圖像理解、圖像生成,和視覺推理基準(zhǔn)測(cè)試結(jié)果

它回歸了多模態(tài)的第一性原理,從底層的像素和文字開始,自己構(gòu)建內(nèi)部的認(rèn)知。

這也能解釋為什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的參數(shù)的版本,也能打出超強(qiáng)的極致性價(jià)比。

本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite,目前它有兩個(gè)版本:8B 參數(shù)的 SenseNova-U1-8B-MoT,可以在邊緣設(shè)備上跑;38B 總參數(shù)但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更強(qiáng)能力,同時(shí)將推理成本控制得很低。


▲SenseNova U1 已經(jīng)在 GitHub 和 Hugging Face上開源,鏈接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

兩個(gè)版本都可以本地部署、可以微調(diào)、可以接進(jìn)自己的數(shù)據(jù)管道。對(duì)需要把圖像生成能力嵌進(jìn)自己產(chǎn)品的開發(fā)者來說,能夠?qū)δP托袨橛型耆目刂茩?quán),數(shù)據(jù)也不用出去。

如果你需要一個(gè)能夠高效實(shí)現(xiàn)理解與生成的模型,作為開源模型里的最強(qiáng)代表,SenseNova U1 確實(shí)值得嘗試。

商湯還在 GitHub 上開源了面向 Agent 運(yùn)行時(shí)的 AIGC 技能庫 SenseNova-Skills。我們可以直接把SenseNova U1這種強(qiáng)大的能力,接入到自己的智能體(Agent)工作流中。

利用這個(gè)工具包,我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平臺(tái)中一鍵調(diào)用。模型會(huì)自動(dòng)評(píng)估我們的提示詞,選擇合適的版式,經(jīng)過多輪生成,輸出最佳的專業(yè)信息圖結(jié)果。


▲ Skills 鏈接:https://github.com/OpenSenseNova/SenseNova-Skills

回顧整個(gè)測(cè)試,SenseNova U1 這次交出了一份不錯(cuò)的答卷,它是目前我們能拿到手里的同量級(jí)最強(qiáng)開源模型。

對(duì)創(chuàng)作者來說,它行業(yè)首創(chuàng)的連續(xù)圖文創(chuàng)作輸出能力,打破了過去文字與配圖割裂的窘境,真正讓邊思考、邊寫作、邊配圖的連貫創(chuàng)作成為現(xiàn)實(shí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本“一天一頓飯”!求助無門,開始呼叫中國(guó)?

日本“一天一頓飯”!求助無門,開始呼叫中國(guó)?

混沌錄
2026-04-29 19:36:05
1954年我國(guó)正籌備核彈,猶太人好心送來濃縮鈾,周總理:查明真?zhèn)?>
    </a>
        <h3>
      <a href=房產(chǎn)衫哥
2026-04-29 05:02:52
伊朗突發(fā)暗殺事件

伊朗突發(fā)暗殺事件

第一財(cái)經(jīng)資訊
2026-04-29 19:09:32
斯基,制裁以色列!

斯基,制裁以色列!

牛牛說金融
2026-04-30 13:49:07
看完鐘漢良《蜜語紀(jì)》,再看唐嫣新劇,我想說沒有比較就沒有傷害

看完鐘漢良《蜜語紀(jì)》,再看唐嫣新劇,我想說沒有比較就沒有傷害

秋姐居
2026-04-28 22:06:22
被港媒騙了20多年!那張泳池照,藏著張柏芝最冤的黑歷史

被港媒騙了20多年!那張泳池照,藏著張柏芝最冤的黑歷史

有品設(shè)計(jì)
2026-04-28 16:50:06
緬北電詐分子找到新?lián)c(diǎn):帶水上樂園、人造沙灘的高端樓盤

緬北電詐分子找到新?lián)c(diǎn):帶水上樂園、人造沙灘的高端樓盤

紅星新聞
2026-04-29 18:19:15
5月1日起煙花新國(guó)標(biāo)落地!行業(yè)大洗牌,普通人過年放煙花變了

5月1日起煙花新國(guó)標(biāo)落地!行業(yè)大洗牌,普通人過年放煙花變了

老特有話說
2026-04-30 13:19:55
蔣萬安發(fā)出強(qiáng)硬警告,"中國(guó)臺(tái)灣。⒆呦驀(guó)際,10國(guó)選擇明智應(yīng)對(duì)

蔣萬安發(fā)出強(qiáng)硬警告,"中國(guó)臺(tái)灣。⒆呦驀(guó)際,10國(guó)選擇明智應(yīng)對(duì)

混沌錄
2026-04-29 20:17:16
逼近1700元,登頂A股“股王”!寒武紀(jì)再創(chuàng)歷史新高,市值突破7100億元

逼近1700元,登頂A股“股王”!寒武紀(jì)再創(chuàng)歷史新高,市值突破7100億元

和訊網(wǎng)
2026-04-30 14:35:05
A股:剛剛,證監(jiān)會(huì)發(fā)布,新任官員到位,周四,將迎來更大的變化

A股:剛剛,證監(jiān)會(huì)發(fā)布,新任官員到位,周四,將迎來更大的變化

云鵬敘事
2026-04-30 00:00:08
大比分2-3!湖人次節(jié) 被轟30-19 火箭客場(chǎng)續(xù)命成功 能4-3翻盤嗎?

大比分2-3!湖人次節(jié) 被轟30-19 火箭客場(chǎng)續(xù)命成功 能4-3翻盤嗎?

Emily說個(gè)球
2026-04-30 12:47:41
這是李鴻章妻妾的真實(shí)樣貌,個(gè)個(gè)美艷身材修長(zhǎng),顏值不輸當(dāng)代女星

這是李鴻章妻妾的真實(shí)樣貌,個(gè)個(gè)美艷身材修長(zhǎng),顏值不輸當(dāng)代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
珍寶島戰(zhàn)敗后蘇聯(lián)計(jì)劃4路侵中國(guó),一周到北京,為何最終不敢打?

珍寶島戰(zhàn)敗后蘇聯(lián)計(jì)劃4路侵中國(guó),一周到北京,為何最終不敢打?

鶴羽說個(gè)事
2026-04-27 22:57:54
網(wǎng)傳古天樂隱婚10年育有一子,女方身份曝光,更多戀愛細(xì)節(jié)被扒出

網(wǎng)傳古天樂隱婚10年育有一子,女方身份曝光,更多戀愛細(xì)節(jié)被扒出

叨嘮
2026-04-29 22:45:51
Shams:若火箭追至搶七KD有望復(fù)出;東契奇或缺席次輪初期

Shams:若火箭追至搶七KD有望復(fù)出;東契奇或缺席次輪初期

懂球帝
2026-04-30 10:43:08
卡西三粒爆米花引爆伯納烏:13年后,穆帥鐵腕再臨皇馬更衣室?

卡西三粒爆米花引爆伯納烏:13年后,穆帥鐵腕再臨皇馬更衣室?

落夜足球
2026-04-29 21:49:36
鞏俐巴黎街頭與丈夫爭(zhēng)執(zhí)摔花,77歲老公一個(gè)摸頭殺,全網(wǎng)破防

鞏俐巴黎街頭與丈夫爭(zhēng)執(zhí)摔花,77歲老公一個(gè)摸頭殺,全網(wǎng)破防

茶余飯好
2026-04-27 20:20:50
1951年,戴笠獨(dú)子被處決的消息傳到臺(tái)灣,蔣介石給毛人鳳下了一條命令

1951年,戴笠獨(dú)子被處決的消息傳到臺(tái)灣,蔣介石給毛人鳳下了一條命令

曉張說
2026-04-27 07:18:18
誰說印度能取代中國(guó)?美國(guó)人一句“以后或許”,捅破印度大國(guó)夢(mèng)

誰說印度能取代中國(guó)?美國(guó)人一句“以后或許”,捅破印度大國(guó)夢(mèng)

好賢觀史記
2026-04-30 14:06:58
2026-04-30 15:03:00
愛范兒 incentive-icons
愛范兒
消費(fèi)科技第一媒體
38792文章數(shù) 2601587關(guān)注度
往期回顧 全部

科技要聞

四巨頭財(cái)報(bào)齊發(fā):AI已經(jīng)不只是風(fēng)口

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

體育要聞

騎士天王山:哈登、莫布里和……施羅德?

娛樂要聞

孫楊媽媽被曝!過往言行被扒大開眼界

財(cái)經(jīng)要聞

醫(yī)美偷稅手法曝光 借免稅優(yōu)惠來避稅被封堵

汽車要聞

上汽一季報(bào)出爐 在低增長(zhǎng)周期里守住基本盤

態(tài)度原創(chuàng)

本地
旅游
時(shí)尚
藝術(shù)
手機(jī)

本地新聞

用青花瓷的方式,打開西溪濕地

旅游要聞

Vlog丨來福泉 赴一場(chǎng)600年的古城之約

春季穿衣千萬別太暗沉!試試藍(lán)白配色、選基礎(chǔ)款褲子,大方得體

藝術(shù)要聞

安東·愛德華·基爾德魯普:19世紀(jì)丹麥風(fēng)景畫家

手機(jī)要聞

OPPO Find X9 Ultra非衛(wèi)星通信版開售,16GB+1TB版售價(jià)9299元

無障礙瀏覽 進(jìn)入關(guān)懷版