国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

新技術(shù):無需編解碼器,NEO-unify如何打造原生視覺語言理解與生成

0
分享至

當(dāng)前多模態(tài)智能架構(gòu)困境

長(zhǎng)期以來,多模態(tài)研究已形成一種默認(rèn)范式:視覺編碼器(Vision Encoder, VE) 負(fù)責(zé)感知與理解,而變分自編碼器(Variational Autoencoder, VAE) 則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計(jì)權(quán)衡。

由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué),提出一種全新的架構(gòu)范式:NEO-unify(preview),一個(gè)原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當(dāng)前視覺表征的爭(zhēng)論,也擺脫了預(yù)訓(xùn)練先驗(yàn)和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要 VE,也不需要 VAE。

我們正擴(kuò)大規(guī)模、持續(xù)迭代。更多模型與開源成果,將很快與大家見面。

NEO-unify原生一體化架構(gòu)新范式


NEO-unify 第一次邁向真正的端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學(xué)習(xí),并由模型自身塑造內(nèi)部表征空間。首先,引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進(jìn)行;最終,通過統(tǒng)一學(xué)習(xí)框架實(shí)現(xiàn)跨模態(tài)訓(xùn)練:文本采用自回歸交叉熵目標(biāo),視覺通過像素流匹配進(jìn)行優(yōu)化。

模型效果

1. 定量結(jié)果分析



2. 生圖效果展示



技術(shù)發(fā)現(xiàn)

1. 無編碼器設(shè)計(jì)能夠同時(shí)保留抽象語義與細(xì)粒度表征

[圖像重建任務(wù)]

我們先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習(xí)到豐富的語義表征。在此基礎(chǔ)上,我們進(jìn)一步觀察到一個(gè)有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨(dú)立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。

基于這一發(fā)現(xiàn),我們訓(xùn)練了 NEO-unify(2B)。在初步 9 萬步預(yù)訓(xùn)練后,模型在 MS COCO 2017 上取得 31.56 PSNR0.85 SSIM,而 Flux VAE 的對(duì)應(yīng)指標(biāo)為 32.650.91。這一結(jié)果表明,即使不依賴預(yù)訓(xùn)練 VEVAE,近似無損的原生輸入仍能夠同時(shí)支持高質(zhì)量的語義理解與像素級(jí)細(xì)節(jié)保真。

域外圖像重建(2B NEO-unify,理解分支凍結(jié))


[圖像編輯任務(wù)]

據(jù)此,我們進(jìn)一步開展探索:NEO-unify 將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負(fù)責(zé)生成新的圖像。

即使在凍結(jié)理解分支的情況下,NEO-unify(2B) 仍展現(xiàn)出強(qiáng)大的圖像編輯能力,同時(shí)顯著減少了輸入圖像令牌的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步 6 萬步混合訓(xùn)練后,模型在 ImgEdit 基準(zhǔn)上取得 3.32 的成績(jī),且理解分支在整個(gè)訓(xùn)練過程中保持凍結(jié)

小規(guī)模數(shù)據(jù)驗(yàn)證(2B NEO-unify,理解分支凍結(jié))


ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結(jié))


2. 無編碼器架構(gòu)與 MoT 主干高度協(xié)同大幅降低內(nèi)在沖突

借助預(yù)訓(xùn)練的理解分支與生成分支,NEO-unify 使用相同的中期訓(xùn)練(MT)與 監(jiān)督微調(diào)(SFT) 數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在 MoT 主干中協(xié)同提升,整體沖突極小。


3. 無編碼器架構(gòu),展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

此外,我們首先進(jìn)行 web-scale 預(yù)訓(xùn)練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語料上依次進(jìn)行中期訓(xùn)練(MT) 和 監(jiān)督微調(diào)(SFT)。與 Bagel 模型相比,NEO-unify 展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率,在使用更少訓(xùn)練 token 的情況下取得了更優(yōu)的性能。


未來展望

這不僅僅是一種模型架構(gòu)探索,更是邁向下一代智能形態(tài)的一步:

? 感知與生成交織的閉環(huán)

? 全模態(tài)推理

? 視覺推理

? 空間智能

? 世界模型

? …

一條新的路線圖正在展開:模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài) AI 不再只是連接不同系統(tǒng),而是構(gòu)建一個(gè)從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

財(cái)聯(lián)社
2026-04-19 17:41:04
廣東簽約拉科塞維奇內(nèi)幕!朱芳雨接觸多位NBA球員,嫌棄報(bào)價(jià)太低

廣東簽約拉科塞維奇內(nèi)幕!朱芳雨接觸多位NBA球員,嫌棄報(bào)價(jià)太低

籃球大陸
2026-04-19 22:15:01
美媒:特朗普最新信號(hào)——結(jié)束戰(zhàn)爭(zhēng),轉(zhuǎn)向經(jīng)濟(jì)

美媒:特朗普最新信號(hào)——結(jié)束戰(zhàn)爭(zhēng),轉(zhuǎn)向經(jīng)濟(jì)

參考消息
2026-04-18 16:23:05
揭開“白左圣母”的真面目

揭開“白左圣母”的真面目

名人茍或
2026-04-20 07:08:34
金像獎(jiǎng)爆冷!古天樂一人占倆影帝提名,成龍、林峯、章子怡、馬麗淪為陪跑工具人……

金像獎(jiǎng)爆冷!古天樂一人占倆影帝提名,成龍、林峯、章子怡、馬麗淪為陪跑工具人……

毒舌八卦
2026-04-20 09:13:03
黃圣依“消失”2個(gè)月后現(xiàn)身,曬瑞士游學(xué)照,網(wǎng)友:實(shí)驗(yàn)室出鏡像女大

黃圣依“消失”2個(gè)月后現(xiàn)身,曬瑞士游學(xué)照,網(wǎng)友:實(shí)驗(yàn)室出鏡像女大

動(dòng)物奇奇怪怪
2026-04-20 00:47:39
皇馬棄將11分鐘打崩巴黎,租借條款埋了什么雷

皇馬棄將11分鐘打崩巴黎,租借條款埋了什么雷

賽場(chǎng)速報(bào)局
2026-04-20 08:19:48
黑粉攻擊何潤(rùn)東風(fēng)波升級(jí)!博主怒撕:蹭熱度該適可而止,又老又丑

黑粉攻擊何潤(rùn)東風(fēng)波升級(jí)!博主怒撕:蹭熱度該適可而止,又老又丑

小徐講八卦
2026-04-19 15:19:03
從20元地?cái)偟?00億帝國,只因崇拜許家印,女首富輸光了一切

從20元地?cái)偟?00億帝國,只因崇拜許家印,女首富輸光了一切

顧史
2026-04-19 08:25:51
金庸給了她最難聽的名字,小時(shí)候覺得好聽,30歲后讀出來都會(huì)臉紅

金庸給了她最難聽的名字,小時(shí)候覺得好聽,30歲后讀出來都會(huì)臉紅

耳東文史
2026-04-04 00:02:10
直接下跪!泰倫盧你真能整活!!

柚子說球
2026-04-19 22:02:18

這是李鴻章妻妾的真實(shí)樣貌,個(gè)個(gè)美艷身材修長(zhǎng),顏值不輸當(dāng)代女星

這是李鴻章妻妾的真實(shí)樣貌,個(gè)個(gè)美艷身材修長(zhǎng),顏值不輸當(dāng)代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
他撞人后連夜辭職,入職信息也是假的!他到底是誰?

他撞人后連夜辭職,入職信息也是假的!他到底是誰?

BRTV新聞
2026-04-19 20:36:35
一級(jí)惡意犯規(guī),太陽隊(duì)狄龍·布魯克斯因掌摑雷霆隊(duì)切特面部被判

一級(jí)惡意犯規(guī),太陽隊(duì)狄龍·布魯克斯因掌摑雷霆隊(duì)切特面部被判

好火子
2026-04-20 04:58:38
女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
恒大0.69%清償率:一個(gè)時(shí)代神話的墓志銘

恒大0.69%清償率:一個(gè)時(shí)代神話的墓志銘

流蘇晚晴
2026-04-17 18:20:43
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

干史人
2026-04-14 21:10:03
原來失業(yè)后都是這樣熬過來的!網(wǎng)友:脫去昔日的長(zhǎng)衫

原來失業(yè)后都是這樣熬過來的!網(wǎng)友:脫去昔日的長(zhǎng)衫

另子維愛讀史
2026-03-19 19:58:58
周定洋跑死也白跑!嚴(yán)鼎皓無效運(yùn)動(dòng),古斯塔沃“跑路榜”第一

周定洋跑死也白跑!嚴(yán)鼎皓無效運(yùn)動(dòng),古斯塔沃“跑路榜”第一

刀鋒體育
2026-04-20 08:54:42
他有上將的能力,更有上將資歷:兩任首長(zhǎng)都不看好他,最后成中將

他有上將的能力,更有上將資歷:兩任首長(zhǎng)都不看好他,最后成中將

浩渺青史
2026-04-20 02:35:41
2026-04-20 09:55:00
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7698文章數(shù) 34535關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:日本近期一系列危險(xiǎn)動(dòng)作挑釁中國 中國需警惕

頭條要聞

媒體:日本近期一系列危險(xiǎn)動(dòng)作挑釁中國 中國需警惕

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

時(shí)尚
親子
健康
手機(jī)
公開課

今年最流行的衣服竟然是它?高級(jí)又氣質(zhì)!

親子要聞

這睡眠質(zhì)量也太高了

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

手機(jī)要聞

紅米K100系列再次曝光:BOSE揚(yáng)聲器+超強(qiáng)馬達(dá),沖高不靠風(fēng)扇!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版