国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

劍指世界模型!商湯發(fā)多模態(tài)理解生成一體化架構(gòu),無需編碼器“玩轉(zhuǎn)”圖像

0
分享至


智東西
作者 陳駿達(dá)
編輯 李水青

智東西3月6日?qǐng)?bào)道,今天,商湯科技發(fā)布最新技術(shù)博客——《NEO-unify:原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型》。NEO-unify是一個(gè)從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構(gòu),在保留抽象語(yǔ)義與細(xì)粒度表征的同時(shí),展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率。

當(dāng)前,多模態(tài)模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計(jì)。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。

能否更進(jìn)一步,讓AI像人一樣,直接從最原始的像素和文字中,統(tǒng)一地進(jìn)行學(xué)習(xí)、理解與生成?這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統(tǒng)的VE與VAE,首次構(gòu)建了一個(gè)真正的端到端原生統(tǒng)一模型,在同一個(gè)架構(gòu)內(nèi)直接處理像素與文本,并在此基礎(chǔ)上協(xié)同完成理解與生成任務(wù)。

初步研究成果顯示,該設(shè)計(jì)在保持強(qiáng)大語(yǔ)義理解與細(xì)節(jié)恢復(fù)能力的同時(shí),顯著提升了訓(xùn)練與計(jì)算效率。

博客地址(英文):

https://huggingface.co/blog/sensenova/neo-unify

博客地址(中文):

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

一、不需要VE也不需要VAE,模型表現(xiàn)打平Qwen3-VL

長(zhǎng)期以來,多模態(tài)研究已形成一種默認(rèn)范式:視覺編碼器(Vision Encoder, VE)負(fù)責(zé)感知與理解,而變分自編碼器(Variational Autoencoder, VAE)則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計(jì)權(quán)衡。

由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué),提出一種全新的架構(gòu)范式:NEO-unify(preview),一個(gè)原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當(dāng)前視覺表征的爭(zhēng)論,也擺脫了預(yù)訓(xùn)練先驗(yàn)和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要VE,也不需要VAE。

NEO-unify則是一個(gè)端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學(xué)習(xí),并由模型自身塑造內(nèi)部表征空間。

它首先引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進(jìn)行。

最終,通過統(tǒng)一學(xué)習(xí)框架實(shí)現(xiàn)跨模態(tài)訓(xùn)練:文本采用自回歸交叉熵目標(biāo),視覺通過像素流匹配進(jìn)行優(yōu)化。


實(shí)驗(yàn)結(jié)果顯示,采用NEO-unify架構(gòu)的模型在多項(xiàng)基準(zhǔn)測(cè)試上的表現(xiàn)超過同尺寸的前沿視覺語(yǔ)言模型,排進(jìn)了同尺寸模型的第一梯隊(duì),基本與Qwen3-VL模型打了平手。


二、無編碼器同時(shí)保留抽象語(yǔ)義與細(xì)粒度表征,展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

那么,這一模型背后究竟有哪些關(guān)鍵技術(shù)發(fā)現(xiàn)呢?

商湯此前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習(xí)到豐富的語(yǔ)義表征。在此基礎(chǔ)上,商湯進(jìn)一步觀察到一個(gè)有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨(dú)立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。

基于這一發(fā)現(xiàn),商湯訓(xùn)練了NEO-unify(2B)。在初步9萬(wàn)步預(yù)訓(xùn)練后,模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,而Flux VAE的對(duì)應(yīng)指標(biāo)為32.65和0.91。這一結(jié)果表明,即使不依賴預(yù)訓(xùn)練VE或VAE,近似無損的原生輸入仍能夠同時(shí)支持高質(zhì)量的語(yǔ)義理解與像素級(jí)細(xì)節(jié)保真。

據(jù)此,商湯進(jìn)一步開展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負(fù)責(zé)生成新的圖像。

在凍結(jié)理解分支的情況下,NEO-unify(2B)仍展現(xiàn)出較強(qiáng)的圖像編輯能力,同時(shí)顯著減少了輸入圖像token的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步6萬(wàn)步混合訓(xùn)練后,模型在ImgEdit基準(zhǔn)上取得3.32的成績(jī),且理解分支在整個(gè)訓(xùn)練過程中保持凍結(jié)。

借助預(yù)訓(xùn)練的理解分支與生成分支,NEO-unify使用相同的中期訓(xùn)練(MT)與監(jiān)督微調(diào)(SFT)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在MoT主干中協(xié)同提升,整體沖突極小。


此外,商湯首先進(jìn)行web-scale預(yù)訓(xùn)練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語(yǔ)料上依次進(jìn)行中期訓(xùn)練(MT)和監(jiān)督微調(diào)(SFT)。與7BBagel模型相比,NEO-unify展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率,在使用更少訓(xùn)練token的情況下取得了更優(yōu)的性能。


結(jié)語(yǔ):多模態(tài)理解與生成一體化或成世界模型基礎(chǔ)

NEO-unify團(tuán)隊(duì)認(rèn)為,隨著多模態(tài)理解生成一體化的模型出現(xiàn),模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài)AI不再只是連接不同系統(tǒng),而是構(gòu)建一個(gè)從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。

理解生成一體化是AI大模型領(lǐng)域的前沿方向之一,被認(rèn)為是更接近人類智能的一種模型形式。目前,業(yè)界已經(jīng)基本完成文字理解生成一體化模型的探索,而多模態(tài)理解生成一體化模型,則有望成為全模態(tài)推理、視覺推理、空間智能乃至世界模型的重要基礎(chǔ)。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普:“澤連斯基是與俄達(dá)成協(xié)議的障礙”

特朗普:“澤連斯基是與俄達(dá)成協(xié)議的障礙”

參考消息
2026-03-06 15:16:04
他舍身堵槍眼,內(nèi)臟和骨頭全部打穿,為何70年后才被認(rèn)定為烈士?

他舍身堵槍眼,內(nèi)臟和骨頭全部打穿,為何70年后才被認(rèn)定為烈士?

珺瑤婉史
2026-03-06 19:10:03
原來,高市早苗說,日本石油儲(chǔ)備254天,算法是這么搞笑的

原來,高市早苗說,日本石油儲(chǔ)備254天,算法是這么搞笑的

生活新鮮市
2026-03-07 00:07:14
周杰倫突然發(fā)文:給我等著

周杰倫突然發(fā)文:給我等著

觀察者網(wǎng)
2026-03-07 07:33:08
1955年他只是團(tuán)級(jí)干部,授銜時(shí),周總理卻說道:授予你少將軍銜!

1955年他只是團(tuán)級(jí)干部,授銜時(shí),周總理卻說道:授予你少將軍銜!

冰雅憶史
2026-03-07 09:17:05
俄羅斯為伊朗提供定位情報(bào)?給美軍造成重創(chuàng)!報(bào)俄烏沖突一箭之仇

俄羅斯為伊朗提供定位情報(bào)?給美軍造成重創(chuàng)!報(bào)俄烏沖突一箭之仇

毛豆新鮮
2026-03-07 08:18:18
中國(guó)向全世界披露:美國(guó)4400顆衛(wèi)星,包圍中國(guó)空間站,這是要做啥

中國(guó)向全世界披露:美國(guó)4400顆衛(wèi)星,包圍中國(guó)空間站,這是要做啥

丁丁鯉史紀(jì)
2026-03-06 17:20:34
特朗普:要“讓伊朗再次偉大!”伊朗:決不投降,僅250年歷史的國(guó)家想要對(duì)擁有3000年歷史的國(guó)家發(fā)號(hào)施令,絕對(duì)不可能

特朗普:要“讓伊朗再次偉大!”伊朗:決不投降,僅250年歷史的國(guó)家想要對(duì)擁有3000年歷史的國(guó)家發(fā)號(hào)施令,絕對(duì)不可能

新民晚報(bào)
2026-03-07 09:36:34
越來越離譜的顯示器市場(chǎng)行情

越來越離譜的顯示器市場(chǎng)行情

電腦吧評(píng)測(cè)室
2026-03-06 22:10:19
OpenClaw一戰(zhàn)封神,給大家分享6種官方不會(huì)告訴你的神級(jí)技巧。

OpenClaw一戰(zhàn)封神,給大家分享6種官方不會(huì)告訴你的神級(jí)技巧。

數(shù)字生命卡茲克
2026-02-04 10:13:32
足以碾壓《斯巴達(dá)克斯》的5部黃暴美劇,尺度逆天、全程高能

足以碾壓《斯巴達(dá)克斯》的5部黃暴美劇,尺度逆天、全程高能

小微看電影
2026-02-27 05:50:03
OpenClaw又多了一個(gè)手機(jī)版,這次是把App當(dāng)Skills用了

OpenClaw又多了一個(gè)手機(jī)版,這次是把App當(dāng)Skills用了

卡爾的AI沃茨
2026-03-05 17:11:56
國(guó)家發(fā)展改革委主任:“十五五”時(shí)期普通高中將增加學(xué)位200萬(wàn)個(gè)以上

國(guó)家發(fā)展改革委主任:“十五五”時(shí)期普通高中將增加學(xué)位200萬(wàn)個(gè)以上

界面新聞
2026-03-06 17:27:07
從日銷萬(wàn)單到日銷5單!麻六記的“涼”,是民意給的最響亮耳光!

從日銷萬(wàn)單到日銷5單!麻六記的“涼”,是民意給的最響亮耳光!

天氣觀察站
2026-03-07 00:06:32
一份“煮熟的三文魚”火了,原來低認(rèn)知的家長(zhǎng),真能搞出人命!

一份“煮熟的三文魚”火了,原來低認(rèn)知的家長(zhǎng),真能搞出人命!

妍妍教育日記
2026-03-07 08:45:06
中國(guó)造價(jià)最高大樓:買地花費(fèi)63億,奢華程度超乎想象

中國(guó)造價(jià)最高大樓:買地花費(fèi)63億,奢華程度超乎想象

聚焦真實(shí)瞬間
2026-03-06 06:41:19
央視怒批,目不識(shí)丁、洋相百出,難怪兩會(huì)上馮遠(yuǎn)征建議演員多學(xué)習(xí)

央視怒批,目不識(shí)丁、洋相百出,難怪兩會(huì)上馮遠(yuǎn)征建議演員多學(xué)習(xí)

傲傲講歷史
2026-03-05 16:08:43
湖北單親媽媽嫁65歲美國(guó)老頭,帶兒子移民美國(guó),婚后14年老頭去世

湖北單親媽媽嫁65歲美國(guó)老頭,帶兒子移民美國(guó),婚后14年老頭去世

哄動(dòng)一時(shí)啊
2026-02-09 16:56:31
周杰倫社交賬號(hào)曬老婆昆凌,“JH戀”CP粉破防了

周杰倫社交賬號(hào)曬老婆昆凌,“JH戀”CP粉破防了

話娛論影
2026-03-06 09:28:56
黃金都要靠邊站!2026年真正“瘋漲”的,竟是你隨手扔的舊東西?

黃金都要靠邊站!2026年真正“瘋漲”的,竟是你隨手扔的舊東西?

南宗歷史
2026-03-05 13:29:16
2026-03-07 10:19:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11320文章數(shù) 116988關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

牛彈琴:伊朗怒火外溢 中國(guó)須為4種更糟糕情況做準(zhǔn)備

頭條要聞

牛彈琴:伊朗怒火外溢 中國(guó)須為4種更糟糕情況做準(zhǔn)備

體育要聞

中國(guó)象棋,正在被一個(gè)越南人攻陷?

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

親子
游戲
房產(chǎn)
教育
藝術(shù)

親子要聞

全體家長(zhǎng)拿起筆學(xué)習(xí)過敏性鼻炎

大話西游手游聯(lián)動(dòng)絕了!游園驚夢(mèng)外觀坐等升值,種花還能拿泳裝

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

教育要聞

越是超短學(xué)期,越要重視“健康第一”

藝術(shù)要聞

一個(gè)電影編劇水平是如何評(píng)判的?

無障礙瀏覽 進(jìn)入關(guān)懷版