国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

劍指世界模型!商湯發(fā)多模態(tài)理解生成一體化架構(gòu),無需編碼器“玩轉(zhuǎn)”圖像

0
分享至


智東西
作者 陳駿達
編輯 李水青

智東西3月6日報道,今天,商湯科技發(fā)布最新技術(shù)博客——《NEO-unify:原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型》。NEO-unify是一個從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構(gòu),在保留抽象語義與細粒度表征的同時,展現(xiàn)更高數(shù)據(jù)訓練效率。

當前,多模態(tài)模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。

能否更進一步,讓AI像人一樣,直接從最原始的像素和文字中,統(tǒng)一地進行學習、理解與生成?這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統(tǒng)的VE與VAE,首次構(gòu)建了一個真正的端到端原生統(tǒng)一模型,在同一個架構(gòu)內(nèi)直接處理像素與文本,并在此基礎(chǔ)上協(xié)同完成理解與生成任務(wù)。

初步研究成果顯示,該設(shè)計在保持強大語義理解與細節(jié)恢復能力的同時,顯著提升了訓練與計算效率。

博客地址(英文):

https://huggingface.co/blog/sensenova/neo-unify

博客地址(中文):

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

一、不需要VE也不需要VAE,模型表現(xiàn)打平Qwen3-VL

長期以來,多模態(tài)研究已形成一種默認范式:視覺編碼器(Vision Encoder, VE)負責感知與理解,而變分自編碼器(Variational Autoencoder, VAE)則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計權(quán)衡。

由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學,提出一種全新的架構(gòu)范式:NEO-unify(preview),一個原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當前視覺表征的爭論,也擺脫了預訓練先驗和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要VE,也不需要VAE。

NEO-unify則是一個端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學習,并由模型自身塑造內(nèi)部表征空間。

它首先引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進行。

最終,通過統(tǒng)一學習框架實現(xiàn)跨模態(tài)訓練:文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優(yōu)化。


實驗結(jié)果顯示,采用NEO-unify架構(gòu)的模型在多項基準測試上的表現(xiàn)超過同尺寸的前沿視覺語言模型,排進了同尺寸模型的第一梯隊,基本與Qwen3-VL模型打了平手。


二、無編碼器同時保留抽象語義與細粒度表征,展現(xiàn)更高數(shù)據(jù)訓練效率

那么,這一模型背后究竟有哪些關(guān)鍵技術(shù)發(fā)現(xiàn)呢?

商湯此前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習到豐富的語義表征。在此基礎(chǔ)上,商湯進一步觀察到一個有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節(jié)。

基于這一發(fā)現(xiàn),商湯訓練了NEO-unify(2B)。在初步9萬步預訓練后,模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,而Flux VAE的對應指標為32.65和0.91。這一結(jié)果表明,即使不依賴預訓練VE或VAE,近似無損的原生輸入仍能夠同時支持高質(zhì)量的語義理解與像素級細節(jié)保真。

據(jù)此,商湯進一步開展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負責生成新的圖像。

在凍結(jié)理解分支的情況下,NEO-unify(2B)仍展現(xiàn)出較強的圖像編輯能力,同時顯著減少了輸入圖像token的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進行初步6萬步混合訓練后,模型在ImgEdit基準上取得3.32的成績,且理解分支在整個訓練過程中保持凍結(jié)。

借助預訓練的理解分支與生成分支,NEO-unify使用相同的中期訓練(MT)與監(jiān)督微調(diào)(SFT)數(shù)據(jù)進行聯(lián)合訓練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在MoT主干中協(xié)同提升,整體沖突極小。


此外,商湯首先進行web-scale預訓練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語料上依次進行中期訓練(MT)和監(jiān)督微調(diào)(SFT)。與7BBagel模型相比,NEO-unify展現(xiàn)出更高的數(shù)據(jù)訓練效率,在使用更少訓練token的情況下取得了更優(yōu)的性能。


結(jié)語:多模態(tài)理解與生成一體化或成世界模型基礎(chǔ)

NEO-unify團隊認為,隨著多模態(tài)理解生成一體化的模型出現(xiàn),模型不再在模態(tài)之間進行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài)AI不再只是連接不同系統(tǒng),而是構(gòu)建一個從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。

理解生成一體化是AI大模型領(lǐng)域的前沿方向之一,被認為是更接近人類智能的一種模型形式。目前,業(yè)界已經(jīng)基本完成文字理解生成一體化模型的探索,而多模態(tài)理解生成一體化模型,則有望成為全模態(tài)推理、視覺推理、空間智能乃至世界模型的重要基礎(chǔ)。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
電訊報評英超歷史TOP10:亨利第1、C羅第7、薩拉赫第8

電訊報評英超歷史TOP10:亨利第1、C羅第7、薩拉赫第8

懂球帝
2026-03-26 00:23:06
7.12大戰(zhàn)后,我國為何要用火焰噴射器將戰(zhàn)場上的越軍尸體全燒掉?

7.12大戰(zhàn)后,我國為何要用火焰噴射器將戰(zhàn)場上的越軍尸體全燒掉?

冰語歷史
2026-03-26 11:40:47
面對伊朗同歸于盡打法,美軍亮出王炸底牌:如果戰(zhàn)敗,就爆核武器

面對伊朗同歸于盡打法,美軍亮出王炸底牌:如果戰(zhàn)敗,就爆核武器

半壁胭脂色
2026-03-24 16:09:17
張雪峰去世,日媒用了這樣一句話評價他...

張雪峰去世,日媒用了這樣一句話評價他...

今日日本
2026-03-25 11:10:15
歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進了

歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進了

西樓知趣雜談
2026-03-24 14:38:30
1978年,邱清泉之子邱國渭,以螞蟻搬家方式將全家送往美國

1978年,邱清泉之子邱國渭,以螞蟻搬家方式將全家送往美國

老謝談史
2026-03-20 10:24:19
古代皇帝的龍袍禁止水洗,那臟了臭了咋辦?真是貧窮限制咱的想象

古代皇帝的龍袍禁止水洗,那臟了臭了咋辦?真是貧窮限制咱的想象

銘記歷史呀
2026-03-24 08:08:14
唏噓!張雪峰去世真相+遺囑公布!巨額財產(chǎn)受益人竟然是她?

唏噓!張雪峰去世真相+遺囑公布!巨額財產(chǎn)受益人竟然是她?

魔都囡
2026-03-26 02:41:36
存在串通投標行為!中鐵廣州工程局集團被住建部門公示

存在串通投標行為!中鐵廣州工程局集團被住建部門公示

南方都市報
2026-03-25 19:59:11
為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

情感藝術(shù)家
2026-03-08 22:07:38
你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
主力資金爆買化工股!600800,二連板!

主力資金爆買化工股!600800,二連板!

證券時報e公司
2026-03-26 12:26:30
張雪峰病倒才知妻是隱藏大佬!40天閃婚,這眼光比報志愿還準

張雪峰病倒才知妻是隱藏大佬!40天閃婚,這眼光比報志愿還準

陳意小可愛
2026-03-26 12:18:09
哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

小樾說歷史
2026-03-25 12:16:16
克什米爾,印度與巴基斯坦為何爭奪八十年?

克什米爾,印度與巴基斯坦為何爭奪八十年?

地圖帝
2026-03-25 09:17:39
特朗普萬萬沒想到!第一個敢掀桌子的,竟然是馬來西亞

特朗普萬萬沒想到!第一個敢掀桌子的,竟然是馬來西亞

黑鷹觀軍事
2026-03-25 17:12:13
俄軍三大教訓告訴中國:別全靠導彈,別小看美國,最重要的是啥?

俄軍三大教訓告訴中國:別全靠導彈,別小看美國,最重要的是啥?

花顏蘊韻
2026-03-26 11:09:47
有網(wǎng)友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

有網(wǎng)友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

畫夕
2026-03-26 01:20:12
內(nèi)幕曝光:10名主力被抽走,U23國足被逼到絕境,他卻笑了!

內(nèi)幕曝光:10名主力被抽走,U23國足被逼到絕境,他卻笑了!

體育熱點看臺
2026-03-26 10:02:01
教育徹底變天!2026屆初中生注意,這是最后一屆只拼分數(shù)的一屆

教育徹底變天!2026屆初中生注意,這是最后一屆只拼分數(shù)的一屆

老特有話說
2026-03-25 15:22:58
2026-03-26 12:59:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11433文章數(shù) 117015關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

親子
教育
時尚
數(shù)碼
旅游

親子要聞

躺平的孩子意外覺醒了,在父母學會當“烏龜”!

教育要聞

太管用了!高考俄語二輪復習聽力模塊得分要點!

2026年了,最好看的還是“這件針織”!

數(shù)碼要聞

海盜船MAKR PRO 75霍爾效應磁軸鍵盤國行上市,1999元

旅游要聞

人不算多風景極美 清明假期去這7座寶藏小城

無障礙瀏覽 進入關(guān)懷版