国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Lumina-mGPT 2.0:自回歸模型華麗復(fù)興,媲美頂尖擴(kuò)散模型

0
分享至



上海人工智能實(shí)驗(yàn)室等團(tuán)隊(duì)提出Lumina-mGPT 2.0 —— 一款獨(dú)立的、僅使用解碼器的自回歸模型,統(tǒng)一了包括文生圖、圖像對(duì)生成、主體驅(qū)動(dòng)生成、多輪圖像編輯、可控生成和密集預(yù)測(cè)在內(nèi)的廣泛任務(wù)。

本文第一作者辛毅為南京大學(xué) & 上海創(chuàng)智學(xué)院博士生,現(xiàn)于上海人工智能實(shí)驗(yàn)室實(shí)習(xí),研究方向?yàn)閳D像 / 視頻生成、多模態(tài)生成與理解統(tǒng)一等。通訊作者為上海人工智能實(shí)驗(yàn)室青年科學(xué)家 — 高鵬。本文其他作者來(lái)自上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)、上海交通大學(xué)、上海創(chuàng)智學(xué)院、浙江工業(yè)大學(xué)等。



  • 論文標(biāo)題:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
  • 論文鏈接:arxiv.org/pdf/2507.17801
  • GitHub 地址:Alpha-VLLM/Lumina-mGPT-2.0
  • 關(guān)鍵詞:圖像生成、自回歸模型、基座模型。

核心技術(shù)與突破

完全獨(dú)立的訓(xùn)練架構(gòu)

不同于依賴(lài)預(yù)訓(xùn)練權(quán)重的傳統(tǒng)方案,Lumina-mGPT 2.0 采用純解碼器 Transformer 架構(gòu),從參數(shù)初始化開(kāi)始完全獨(dú)立訓(xùn)練。這帶來(lái)三大優(yōu)勢(shì):架構(gòu)設(shè)計(jì)不受限制(提供了 20 億和 70 億參數(shù)兩個(gè)版本)、規(guī)避授權(quán)限制(如Chameleon的版權(quán)問(wèn)題)、減少預(yù)訓(xùn)練模型帶來(lái)的固有偏差。



圖像分詞器方面,通過(guò)對(duì)比 VQGAN、ViT-VQGAN 等多種方案,最終選擇在 MS-COCO 數(shù)據(jù)集上重建質(zhì)量最優(yōu)的 SBER-MoVQGAN,為高質(zhì)量生成奠定基礎(chǔ)。



統(tǒng)一多任務(wù)處理框架

創(chuàng)新地采用統(tǒng)一的圖像分詞方案,將圖生圖任務(wù)通過(guò)上下拼接視為一張圖像,并通過(guò)提示描述進(jìn)行控制,實(shí)現(xiàn)多任務(wù)訓(xùn)練與文生圖訓(xùn)練的一致性。使得單一模型能夠無(wú)縫支持以下任務(wù):

  • 文生圖
  • 主體驅(qū)動(dòng)生成
  • 圖像編輯
  • 可控生成(如基于輪廓 / 深度的生成)
  • 密集預(yù)測(cè)

這種設(shè)計(jì)避免了傳統(tǒng)模型需切換不同框架的繁瑣,通過(guò)系統(tǒng)提示詞即可靈活控制任務(wù)類(lèi)型。



高效的推理策略

為了解決自回歸模型生成速度慢的痛點(diǎn),團(tuán)隊(duì)引入兩種優(yōu)化:

  • 模型量化:將模型權(quán)重量化為 4 位整數(shù),同時(shí)保持激活張量為 bfloat16,通過(guò) PyTorch 2.0 中的原生編譯工具和 torch.compile 的 reduce-overhead 模式實(shí)現(xiàn)無(wú)需改變模型架構(gòu)的優(yōu)化。

  • 推測(cè)式 Jacobi 采樣:通過(guò)靜態(tài) KV 緩存和靜態(tài)因果注意掩碼的方案,使 SJD 兼容于靜態(tài)編譯框架,從而實(shí)現(xiàn)加速采樣,同時(shí)避免動(dòng)態(tài)調(diào)整緩存。結(jié)合 4 位量化技術(shù),減少 60% GPU 顯存消耗,同時(shí)通過(guò)并行解碼加速生成。

實(shí)驗(yàn)顯示,優(yōu)化后模型在保持質(zhì)量的前提下,生成效率顯著提升。



實(shí)驗(yàn)結(jié)果

文生圖實(shí)驗(yàn)結(jié)果

在文本到圖像生成領(lǐng)域,Lumina-mGPT 2.0 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,與 SANA 和Janus Pro等擴(kuò)散模型和自回歸模型相當(dāng)甚至超越,特別是在 “兩個(gè)物體” 和 “顏色屬性” 測(cè)試中表現(xiàn)卓越,以 0.80 的GenEval 分?jǐn)?shù)躋身頂級(jí)生成模型之列。



此外,在實(shí)際生成效果上,Lumina-mGPT 2.0 在真實(shí)感、細(xì)節(jié)和連貫性方面優(yōu)于前代 Lumina-mGPT 和 Janus Pro,更具視覺(jué)吸引力和自然美感。



多任務(wù)實(shí)驗(yàn)結(jié)果

在 Graph200K 多任務(wù)基準(zhǔn)中(可控生成、物體驅(qū)動(dòng)生成),Lumina-mGPT 2.0 表現(xiàn)優(yōu)異,證明了純自回歸模型在單一框架下完成多模態(tài)生成任務(wù)的可能性。



此外,團(tuán)隊(duì)與其他的多任務(wù)生成模型進(jìn)行了實(shí)際比較,Lumina-mGPT 2.0 在可控生成和主題驅(qū)動(dòng)生成任務(wù)中表現(xiàn)突出,與 Lumina-mGPT、OneDiffusion和 OmniGen 等模型相比,展示了卓越的生成能力和靈活性。



未來(lái)方向

Lumina-mGPT 2.0 在優(yōu)化推理后,仍面臨采樣時(shí)間長(zhǎng)的問(wèn)題,與其他基于自回歸的生成模型相似,這影響了用戶(hù)體驗(yàn),后續(xù)將進(jìn)一步優(yōu)化。當(dāng)前 Lumina-mGPT 2.0 的重點(diǎn)在多模態(tài)生成, 但計(jì)劃更新擴(kuò)展至多模態(tài)理解,以提高其整體功能和性能,這將使 Lumina-mGPT 2.0 在滿(mǎn)足用戶(hù)需求方面更加全面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
謝逸楓:顫抖吧!前十一月全國(guó)賣(mài)地收入史無(wú)前例下跌,怎么辦?

謝逸楓:顫抖吧!前十一月全國(guó)賣(mài)地收入史無(wú)前例下跌,怎么辦?

謝逸楓看樓市
2025-12-19 10:25:32
今年“無(wú)痕褲”又火了!闊腿褲反而下崗,配羽絨服保暖與時(shí)尚兼顧

今年“無(wú)痕褲”又火了!闊腿褲反而下崗,配羽絨服保暖與時(shí)尚兼顧

何有強(qiáng)
2025-12-19 08:27:06
荷蘭不給晶圓,聞泰有新招

荷蘭不給晶圓,聞泰有新招

觀察者網(wǎng)
2025-12-20 08:36:14
津媒:津門(mén)虎個(gè)別球員的傷病康復(fù)比較復(fù)雜,甚至?xí)绊懙蕉?xùn)

津媒:津門(mén)虎個(gè)別球員的傷病康復(fù)比較復(fù)雜,甚至?xí)绊懙蕉?xùn)

懂球帝
2025-12-20 09:50:13
一篇內(nèi)參讓領(lǐng)導(dǎo)人反思,中央由此取消副總理級(jí)專(zhuān)機(jī),她究竟寫(xiě)了什么

一篇內(nèi)參讓領(lǐng)導(dǎo)人反思,中央由此取消副總理級(jí)專(zhuān)機(jī),她究竟寫(xiě)了什么

瑾瑜聊情感
2025-08-23 09:43:36
茅臺(tái)動(dòng)真格了!1169元飛天無(wú)限量供應(yīng),百萬(wàn)黃牛徹底慌了

茅臺(tái)動(dòng)真格了!1169元飛天無(wú)限量供應(yīng),百萬(wàn)黃牛徹底慌了

時(shí)間最美的安排
2025-12-19 11:01:48
日哈14項(xiàng)協(xié)議簽訂,高市早苗萬(wàn)萬(wàn)沒(méi)想到,托卡耶夫竟然還留了一手

日哈14項(xiàng)協(xié)議簽訂,高市早苗萬(wàn)萬(wàn)沒(méi)想到,托卡耶夫竟然還留了一手

靚仔情感
2025-12-20 09:38:40
“臺(tái)灣永遠(yuǎn)都不會(huì)是中國(guó)的一部分”,她被全民唾罵,被明星扇耳光

“臺(tái)灣永遠(yuǎn)都不會(huì)是中國(guó)的一部分”,她被全民唾罵,被明星扇耳光

春秋論娛
2025-12-20 07:09:56
大鵬受趙本山邀請(qǐng)主持活動(dòng),卻把酬勞上交趙本山:我不值這么多錢(qián)

大鵬受趙本山邀請(qǐng)主持活動(dòng),卻把酬勞上交趙本山:我不值這么多錢(qián)

攬星河的筆記
2025-12-19 20:25:08
苗原:足協(xié)第二批處罰名單都是大佬!李平康:郝偉處罰年限被公布

苗原:足協(xié)第二批處罰名單都是大佬!李平康:郝偉處罰年限被公布

耀眼的星火
2025-12-20 05:55:49
全民漲工資,即將進(jìn)入落實(shí)階段…

全民漲工資,即將進(jìn)入落實(shí)階段…

大碗樓市
2025-12-20 08:08:42
泰國(guó)軍方發(fā)言人:鏟平所有電詐園區(qū)

泰國(guó)軍方發(fā)言人:鏟平所有電詐園區(qū)

Ck的蜜糖
2025-12-16 15:25:09
南京博物院與兩條人命

南京博物院與兩條人命

常識(shí)群
2025-12-19 15:13:01
“阿詩(shī)瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

“阿詩(shī)瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

小熊侃史
2025-12-19 11:04:19
15:00,央視不播!中國(guó)男足vs韓國(guó),1-0=首勝,平局將造殘酷一幕

15:00,央視不播!中國(guó)男足vs韓國(guó),1-0=首勝,平局將造殘酷一幕

侃球熊弟
2025-12-20 00:20:03
杰倫布朗30+9+7懷特9記三分,熱火雙核啞火,凱爾特人主場(chǎng)雪恥

杰倫布朗30+9+7懷特9記三分,熱火雙核啞火,凱爾特人主場(chǎng)雪恥

釘釘陌上花開(kāi)
2025-12-20 10:32:39
斯諾克賽程:11局6勝產(chǎn)生決賽名額,常冰玉PK小鋼炮,新王誕生?

斯諾克賽程:11局6勝產(chǎn)生決賽名額,常冰玉PK小鋼炮,新王誕生?

劉姚堯的文字城堡
2025-12-20 06:46:39
2025最慘大撤退:18萬(wàn)家快遞驛站,快把所有人得罪光了

2025最慘大撤退:18萬(wàn)家快遞驛站,快把所有人得罪光了

金錯(cuò)刀
2025-12-14 15:34:35
愛(ài)德華茲:庫(kù)里總是堅(jiān)持不懈,他總會(huì)在大家最需要的時(shí)候挺身而出

愛(ài)德華茲:庫(kù)里總是堅(jiān)持不懈,他總會(huì)在大家最需要的時(shí)候挺身而出

懂球帝
2025-12-20 09:09:06
一屋子科班演員,演不過(guò)一個(gè)跨界主持人?被罵出戲不是沒(méi)有原因的

一屋子科班演員,演不過(guò)一個(gè)跨界主持人?被罵出戲不是沒(méi)有原因的

一娛三分地
2025-12-17 18:18:38
2025-12-20 11:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

媒體:日本惡意滋擾遼寧艦編隊(duì) 還挑撥中國(guó)與越南關(guān)系

頭條要聞

媒體:日本惡意滋擾遼寧艦編隊(duì) 還挑撥中國(guó)與越南關(guān)系

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

日本加息落地:暴跌沒(méi)有,麻煩在后頭

汽車(chē)要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

旅游
家居
游戲
時(shí)尚
軍事航空

旅游要聞

新聞1+1丨冰雪旅游,今冬如何添新意?

家居要聞

高端私宅 理想隱居圣地

《料理模擬器2》延期至4月1日發(fā)售 好評(píng)烹飪模擬

今年冬天流行的“露襪”穿法,時(shí)髦又減齡!

軍事要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版