国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NextStep-1:一次在圖像生成上自回歸范式的探索

0
分享至



機器之心發(fā)布

機器之心編輯部

自回歸模型,是 AIGC 領域一塊迷人的基石。開發(fā)者們一直在探索它在視覺生成領域的邊界,從經(jīng)典的離散序列生成,到結(jié)合強大擴散模型的混合范式,每一步都凝聚了社區(qū)的智慧。

這些工作,比如 MAR、Fluid、LatentLM 等,為我們帶來了巨大的啟發(fā),也讓我們看到了進一步優(yōu)化的空間:比如,如何避免離散化帶來的信息損失?如何讓模型的架構(gòu)更輕盈、更強大?

帶著這些問題,階躍星辰團隊進行了新的嘗試,并分享了階段性成果:NextStep-1

階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑。NextStep-1 的核心思想是直接在連續(xù)的視覺空間中,以自回歸方式進行生成

為實現(xiàn)這一點,團隊采用了一個輕量的「流匹配頭」(Flow Matching Head)。它讓模型能夠:

  • 學會在連續(xù)的視覺空間中直接生成單個圖像 Patch,從根本上繞開了作為信息瓶頸的離散化步驟。
  • 模型以自回歸的方式,逐一生成所有 patches,最終完成一幅完整的圖像。

這一設計帶來了另一個顯著優(yōu)勢:架構(gòu)的簡潔與純粹。由于不再需要外部大型擴散模型的 「輔助」,NextStep-1 的整體架構(gòu)變得高度統(tǒng)一,實現(xiàn)了真正意義上的端到端訓練。

階躍星辰團隊認為,NextStep-1 的探索指向了一個有趣且充滿潛力的方向。它證明了在不犧牲連續(xù)性的前提下,構(gòu)建一個簡潔、高效的自回歸模型是完全可行的。

這只是探索的第一步。階躍星辰選擇將 NextStep-1 開源,衷心期待它能引發(fā)更多有價值的討論,并希望能與社區(qū)的研究者一起,繼續(xù)推動生成技術(shù)的演進



  • 論文鏈接:https://arxiv.org/abs/2508.10711
  • GitHub 鏈接:https://github.com/stepfun-ai/NextStep-1
  • Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

動因探究:背后的技術(shù)支撐

整體架構(gòu)

NextStep-1 的架構(gòu)如圖 1 所示,其核心是一個強大的 Transformer 骨干網(wǎng)絡(14B 參數(shù)),輔以一個輕量級的流匹配頭(Flow Matching Head,157M 參數(shù)),用于直接生成連續(xù)的圖像 Patch。



圖 1 NextStep-1 的架構(gòu)圖

這一結(jié)構(gòu)極其簡潔、純粹,它帶來了兩大解放:

  • 解放了對離散化的依賴:不再需要圖像 Tokenizer 進行離散化,直接在連續(xù)空間操作。
  • 解放了對外部擴散模型的依賴:不再需要外接大型擴散模型作為 「解碼器」,實現(xiàn)了端到端的自回歸訓練。

核心發(fā)現(xiàn)

在探索 NextStep-1 的過程中,階躍星辰團隊獲得了兩個關鍵發(fā)現(xiàn),它們不僅解釋了模型為何高效,也為未來的研究提供了新的思路。

發(fā)現(xiàn)一:真正的「藝術(shù)家」 是 Transformer

在階躍星辰的框架中,Transformer 是 「主創(chuàng)」,流匹配頭更像是「畫筆」。團隊通過實驗發(fā)現(xiàn),流匹配頭的尺寸大?。?157M -> 528M),對最終圖像質(zhì)量影響很小。這有力地證明了,核心的生成建模與邏輯推理等 「重活」,完全由 Transformer 承擔。流匹配頭則作為一個高效輕量的采樣器,忠實地將 Transformer 的潛在預測 「翻譯」 成圖像 Patch。

發(fā)現(xiàn)二:Tokenizer 的「煉金術(shù)」—— 穩(wěn)定與質(zhì)量的關鍵

在連續(xù)視覺 Token 上的操作帶來了獨特的穩(wěn)定性挑戰(zhàn),團隊發(fā)現(xiàn)兩個關鍵 「煉金術(shù)」:

  • 通道歸一化 (Channel-Wise Normalization) 是穩(wěn)定性的「壓艙石」:通過引入簡單的通道歸一化,極其有效地穩(wěn)定了 Token 的統(tǒng)計特性,即使在高 CFG 指導強度下,也能確保生成清晰、無偽影的圖像。
  • 「更多噪聲」 竟能帶來「更好質(zhì)量」:一個反直覺的發(fā)現(xiàn)是,訓練 Tokenizer 時加入更多噪聲正則化,反而能顯著提升最終生成圖像的質(zhì)量。階躍星辰團隊推斷,這有助于塑造一個更魯棒、分布更均勻的潛在空間,為自回歸主模型提供更理想的工作平臺。

眼見為實:高保真的視覺生成和編輯能力

NextStep-1 實現(xiàn)了高保真的文生圖的生成,同時具有強大的圖像編輯能力,覆蓋多種編輯操作(如物體增刪、背景修改、動作修改、風格遷移等),并能理解用戶的日常語言指令,實現(xiàn)形式自由的圖像編輯。



圖 2 展示 NextStep-1 全面的圖像生成和編輯能力

硬核實力:權(quán)威 Benchmark 下的表現(xiàn)

除了直觀的視覺效果,階躍星辰團隊也在多個行業(yè)公認的 Benchmark 上對 NextStep-1 進行了嚴格的評估。結(jié)果表明,

  • 綜合性能在自回歸模型中達到了新的 SOTA(State-of-the-Art)水平
  • 在多個 benchmark 上已能與頂尖的擴散模型(Diffusion Models)直接競爭



表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能



表 2 NextStep-1 在 OneIG 上的性能



表 3 NextStep-1 在 WISE 上的性能



表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性與未來展望

NextStep-1 是階躍星辰團隊對構(gòu)建簡潔的高保真生成模型的一次真誠探索。它證明了,在不犧牲連續(xù)性的前提下,構(gòu)建一個純粹的端到端自回歸模型是完全可行的。階躍星辰相信,這條 「簡潔」 的道路,為多模態(tài)生成領域提供了有價值的新視角。

階躍星辰團隊深知這只是探索的開始,前路依然廣闊。作為一個對新范式的初步探索,NextStep-1 在展現(xiàn)出巨大潛力的同時,也讓團隊識別出了一些亟待解決的挑戰(zhàn)。我們在此坦誠地列出這些觀察,并視其為未來工作的重要方向。

生成過程中不穩(wěn)定

NextStep-1 成功證明了自回歸模型可以在高維連續(xù)潛在空間中運行,并達到媲美擴散模型的生成質(zhì)量,但這條路徑也帶來了獨特的穩(wěn)定性挑戰(zhàn)。觀察到,當模型的潛在空間從低維(如 4 通道)擴展到更高維(如 16 通道)時,盡管后者能表達更豐富的細節(jié),但也偶發(fā)性地出現(xiàn)了一些生成 「翻車」的情況(如圖 3 所示)。



圖 3 失敗的例子,展示圖像生成過程中一些暴露出的問題

雖然其根本原因仍有待進一步探究,但團隊推測可能存在以下因素:

  • 局部噪聲 / 塊狀偽影: 可能源于生成后期出現(xiàn)的數(shù)值不穩(wěn)定性。
  • 全局噪聲: 可能反映了模型尚未完全收斂,需要更多的訓練來優(yōu)化。
  • 網(wǎng)格狀偽影: 可能揭示了當前一維位置編碼在精確捕捉二維空間關系上的局限性。

順序解碼帶來的推理延遲

自回歸模型的順序解碼特性,是其推理速度的主要瓶頸。研究團隊對單個 Token 在 H100 GPU 上的延遲進行了理論分析(如表 5 所示),結(jié)果表明:

  • 主要瓶頸在于大模型(LLM)骨干網(wǎng)絡的順序解碼
  • 流匹配頭(Flow Matching Head)的多步采樣過程也構(gòu)成了不可忽視的開銷



表 5 H100 上生成每個 token 的理論延遲速度 ( batch size 為 1 )

這一觀察指明了兩個明確的加速方向:

  • 優(yōu)化流匹配頭:通過減小其參數(shù)量、應用模型蒸餾以實現(xiàn)少步生成,或采用更先進的少步采樣器。
  • 加速自回歸主干:借鑒大語言模型領域的最新進展,如將多 Token 預測等技術(shù),適配到圖像 Token 的生成中。

高分辨率生成的挑戰(zhàn)

在擴展到高分辨率圖像生成方面,與技術(shù)生態(tài)已相當成熟的擴散模型相比,階躍星辰團隊的框架面臨兩大挑戰(zhàn):

  • 收斂效率:自回歸模型的嚴格順序生成特性,在更高分辨率下需要更多的訓練步數(shù)才能收斂。相比之下,擴散模型在每次迭代中并行地優(yōu)化整張圖像,能更直接地利用二維空間歸納偏置。
  • 技術(shù)遷移難度:為高分辨率擴散模型開發(fā)的先進技術(shù)(如 timestep shift)難以直接遷移。其根本原因在于,流匹配頭主要扮演一個輕量級采樣器的角色,而核心的生成建模由 Transformer 骨干網(wǎng)絡完成,因此單純修改采樣過程對最終輸出的影響有限。

因此,基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個重要探索方向。

監(jiān)督微調(diào)(SFT)的獨特挑戰(zhàn)

團隊觀察到,當使用小規(guī)模、高質(zhì)量的數(shù)據(jù)集進行微調(diào)時,訓練動態(tài)會變得極不穩(wěn)定

擴散模型通常僅需數(shù)千個樣本,就能穩(wěn)定地適應目標數(shù)據(jù)分布,同時保持良好的泛化生成能力。相比之下,階躍星辰的 SFT 過程:

  • 依賴大規(guī)模數(shù)據(jù):只有在百萬樣本規(guī)模的數(shù)據(jù)集上訓練時,才能觀察到顯著且穩(wěn)定的提升。
  • 在小數(shù)據(jù)集上表現(xiàn)脆弱:當使用小規(guī)模數(shù)據(jù)集時,模型會陷入一種 「岌岌可?!?的平衡狀態(tài)。它要么收效甚微,幾乎沒有變化;要么突然 「崩潰」,完全過擬合到目標數(shù)據(jù)分布上,喪失了原有的泛化能力。

因此,如何在一個小規(guī)模數(shù)據(jù)集上,找到一個既能對齊目標風格、又能保留通用生成能力的 「甜蜜點」(sweet spot)檢查點,對階躍星辰團隊而言仍然是一個重大的挑戰(zhàn)。

階躍星辰團隊相信,坦誠地面對這些挑戰(zhàn),是推動領域前進的第一步。

NextStep-1 的開源是團隊為此付出的努力,也希望能成為社區(qū)進一步研究的基石。階躍星辰團隊期待與全球的研究者和開發(fā)者交流與合作,共同推動自回歸生成技術(shù)向前發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被拐30年兒子認親14小時就走,全程冷臉,網(wǎng)友:窮家標簽太刺眼

被拐30年兒子認親14小時就走,全程冷臉,網(wǎng)友:窮家標簽太刺眼

老特有話說
2025-12-06 17:31:27
舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
 《阿凡達3》在德國殺瘋了!

《阿凡達3》在德國殺瘋了!

仙味少女心
2025-12-23 17:50:24
行動已開始,日本包機降落臺島,機上人身份特殊,中方刪掉2個字

行動已開始,日本包機降落臺島,機上人身份特殊,中方刪掉2個字

聞識
2025-12-24 12:44:16
《老舅》原著大結(jié)局:劉達暴富,崔國明向狗腸子報恩,宏偉最意外

《老舅》原著大結(jié)局:劉達暴富,崔國明向狗腸子報恩,宏偉最意外

阿廢冷眼觀察所
2025-12-24 07:39:45
冷空氣夜襲申城 今天或?qū)l(fā)起入冬沖刺

冷空氣夜襲申城 今天或?qū)l(fā)起入冬沖刺

看看新聞Knews
2025-12-24 10:01:06
絕了!17歲年齡差,姆巴佩情場沖頂配,伊萬卡成足壇超跑終極目標

絕了!17歲年齡差,姆巴佩情場沖頂配,伊萬卡成足壇超跑終極目標

羅氏八卦
2025-12-23 23:20:03
乒乓球選手不滿獎金:世界羽聯(lián)獎金是24萬美元,WTT只有8萬

乒乓球選手不滿獎金:世界羽聯(lián)獎金是24萬美元,WTT只有8萬

懂球帝
2025-12-24 12:26:29
三位6旬老人坦言:老伴去世后,我反而覺得日子越過越舒心

三位6旬老人坦言:老伴去世后,我反而覺得日子越過越舒心

人間百態(tài)大全
2025-12-24 06:45:03
軍艦開到家門口,炮口快懟臉上,第一反應竟是:有多少錢賠人家!

軍艦開到家門口,炮口快懟臉上,第一反應竟是:有多少錢賠人家!

百態(tài)人間
2025-12-17 16:30:23
北平站長徐宗堯坐擁巨額財富,拒隨老蔣赴臺,49年他抉擇有何隱情

北平站長徐宗堯坐擁巨額財富,拒隨老蔣赴臺,49年他抉擇有何隱情

磊子講史
2025-12-22 16:49:21
意外的慘敗!央視嘆息:1勝4負,昔日CBA沖冠勁旅,何以如此落寞

意外的慘?。⊙胍晣@息:1勝4負,昔日CBA沖冠勁旅,何以如此落寞

話體壇
2025-12-23 22:02:58
梅西妹妹遭遇嚴重車禍!全身多處骨折+燒傷,明年1月婚禮推遲

梅西妹妹遭遇嚴重車禍!全身多處骨折+燒傷,明年1月婚禮推遲

全景體育V
2025-12-23 19:28:38
大連蛇島上的蛇越來越兇猛,而且還在進化,為啥不把這個島消滅?

大連蛇島上的蛇越來越兇猛,而且還在進化,為啥不把這個島消滅?

詩意世界
2025-11-15 20:26:32
網(wǎng)易不忍了,旗下游戲正逐漸與安卓渠道決裂

網(wǎng)易不忍了,旗下游戲正逐漸與安卓渠道決裂

三易生活
2025-12-23 19:21:16
定了!北京新增9大新地標!

定了!北京新增9大新地標!

美麗大北京
2025-12-24 10:48:34
Spears:追夢對每晚都要防比他重20多公斤的中鋒感到郁悶

Spears:追夢對每晚都要防比他重20多公斤的中鋒感到郁悶

北青網(wǎng)-北京青年報
2025-12-24 07:23:03
美國“全面封鎖”受制裁油輪,一艘油輪狂發(fā)75次求救信號!委內(nèi)瑞拉:這是盜竊和劫持

美國“全面封鎖”受制裁油輪,一艘油輪狂發(fā)75次求救信號!委內(nèi)瑞拉:這是盜竊和劫持

紅星新聞
2025-12-22 15:31:24
又傷了!前巴薩10號將被退貨:1200萬沒人接盤 明夏回歸

又傷了!前巴薩10號將被退貨:1200萬沒人接盤 明夏回歸

葉青足球世界
2025-12-23 21:07:05
大宋300年,為何沒有太子之爭?不是皇子們沒野心,而是有4個規(guī)矩

大宋300年,為何沒有太子之爭?不是皇子們沒野心,而是有4個規(guī)矩

沈言論
2025-12-23 16:10:03
2025-12-24 14:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11983文章數(shù) 142518關注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當校車

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

家居
教育
藝術(shù)
房產(chǎn)
軍事航空

家居要聞

法式大平層 智能家居添彩

教育要聞

避坑!這三組“雙胞胎”專業(yè)別選錯,高中生選專業(yè)先分清這些差異

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預期交付!

軍事要聞

俄烏沖突關鍵人物在莫斯科被炸死 烏方尚未公開認領

無障礙瀏覽 進入關懷版