国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智源多模態(tài)大模型登Nature,生成式人工智能路線統(tǒng)一到自回歸

0
分享至


來源:智源研究院

2026年1月28日,智源多模態(tài)大模型成果"Multimodal learning with next-token prediction for large multimodal models(通過預(yù)測下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型)"上線國際頂級(jí)學(xué)術(shù)期刊Nature,預(yù)計(jì)2月12日紙質(zhì)版正式刊發(fā),這是我國科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在Nature正刊發(fā)表。

2018年以來,GPT采用 “預(yù)測下一個(gè)詞元(Next-token prediction,NTP)”的自回歸路線,實(shí)現(xiàn)了語言大模型重大突破,開啟了生成式人工智能浪潮。


而多模態(tài)模型主要依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。智源這項(xiàng)成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,對(duì)于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。


https://www.nature.com/articles/s41586-025-10041-x

Nature編輯點(diǎn)評(píng)這項(xiàng)研究:Emu3 僅基于預(yù)測下一個(gè)詞元(Next-token prediction),實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門路線相當(dāng),這一成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

在后續(xù)迭代的Emu3.5版本,確實(shí)證明了這一范式的可拓展性,并達(dá)成預(yù)測下一個(gè)狀態(tài)(Next-state prediction)的能力躍遷,獲得可泛化的世界建模能力。

從語言到多模態(tài):

“預(yù)測下一個(gè)詞元”的潛力與未解之問

“預(yù)測下一個(gè)詞元”徹底改變了語言模型,促成了如 ChatGPT等突破性成果,并引發(fā)了關(guān)于通用人工智能(AGI)早期跡象的討論。然而,其在多模態(tài)學(xué)習(xí)中的潛力一直不甚明朗。

在多模態(tài)模型領(lǐng)域,視覺生成長期以來由結(jié)構(gòu)復(fù)雜的擴(kuò)散模型主導(dǎo),而視覺語言感知?jiǎng)t主要由組合式方法引領(lǐng) ,這些方法通常將CLIP編碼器與大語言模型(LLMs)結(jié)合。盡管已有一些嘗試試圖統(tǒng)一生成與感知(如Emu和Chameleon),但這些工作要么簡單將LLM與擴(kuò)散模型拼接在一起,要么在性能效果上不及那些針對(duì)生成或感知任務(wù)精心設(shè)計(jì)的專用方法。這就留下了一個(gè)根本性的科學(xué)問題:單一的預(yù)測下一個(gè)詞元框架是否能夠作為通用的多模態(tài)學(xué)習(xí)范式?

Emu3:

以單一框架統(tǒng)一多模態(tài)生成與感知

就此,智源提出了Emu3,基于“預(yù)測下一個(gè)詞元”的全新多模態(tài)模型,將圖像、文本和視頻統(tǒng)一離散化到同一個(gè)表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)單一的 Transformer。這一架構(gòu)證明了僅憑“預(yù)測下一個(gè)詞元”,就能夠同時(shí)支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構(gòu)下,自然地?cái)U(kuò)展到機(jī)器人操作以及多模態(tài)交錯(cuò)等生成任務(wù)。此外,研究團(tuán)隊(duì)還做了大量消融實(shí)驗(yàn)和分析,驗(yàn)證了多模態(tài)學(xué)習(xí)的規(guī)模定律(Scaling law)、統(tǒng)一離散化的高效性、以及解碼器架構(gòu)的有效性。


Emu3 架構(gòu)圖

實(shí)驗(yàn)顯示,Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美:在文生圖任務(wù)中,其效果達(dá)到擴(kuò)散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點(diǎn)的擴(kuò)散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預(yù)測視頻序列,實(shí)現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對(duì)物理世界中環(huán)境、人類與動(dòng)物行為的初步模擬能力。

從模型到范式:

Emu3對(duì)多模態(tài)學(xué)習(xí)的啟示

不同于 Sora 的擴(kuò)散式視頻生成,Emu3采用純自回歸方式逐詞元(token) 生成視頻,能夠在給定上下文下進(jìn)行視頻延展與未來預(yù)測,并在文本引導(dǎo)下生成高保真視頻。此外,Emu3 還可拓展至視覺語言交錯(cuò)生成,例如圖文并茂的菜譜生成;也可拓展至視覺語言動(dòng)作建模,如機(jī)器人操作VLA等,進(jìn)一步體現(xiàn)了“預(yù)測下一個(gè)詞元”的通用性。

智源研究團(tuán)隊(duì)對(duì)相關(guān)研究的多項(xiàng)關(guān)鍵技術(shù)與模型進(jìn)行了開源,以推動(dòng)該方向的持續(xù)研究。其中包括一個(gè)穩(wěn)定且通用的視覺分詞器(tokenizer),可將圖像與視頻高效轉(zhuǎn)換為離散詞元來表示。同時(shí),研究通過大規(guī)模消融實(shí)驗(yàn)系統(tǒng)分析了多項(xiàng)關(guān)鍵技術(shù)的設(shè)計(jì)選擇,例如:分詞器(tokenizer)碼本尺寸、初始化策略、多模態(tài)dropout機(jī)制以及損失權(quán)重配置等,揭示了多模態(tài)自回歸模型在訓(xùn)練過程中的動(dòng)態(tài)特性。研究還驗(yàn)證了自回歸路線高度通用性:直接偏好優(yōu)化(DPO)方法可無縫應(yīng)用于自回歸視覺生成任務(wù),使模型能夠更好地對(duì)齊人類偏好。

研究有力表明了預(yù)測下一個(gè)詞元可作為多模態(tài)模型的核心范式,突破語言模型的邊界,在多種多模態(tài)任務(wù)中展現(xiàn)了強(qiáng)勁性能。通過簡化復(fù)雜的模型設(shè)計(jì)、聚焦統(tǒng)一詞元,該方法在訓(xùn)練與推理階段均展現(xiàn)出顯著的可擴(kuò)展性,為統(tǒng)一多模態(tài)學(xué)習(xí)奠定了堅(jiān)實(shí)基礎(chǔ),有望推動(dòng)原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展。

在此研究基礎(chǔ)上,悟界·Emu3.5進(jìn)一步通過大規(guī)模長時(shí)序視頻訓(xùn)練,學(xué)習(xí)時(shí)空與因果關(guān)系,展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力,并觀察到多模態(tài)能力隨規(guī)模擴(kuò)展而涌現(xiàn)的趨勢,實(shí)現(xiàn)了“預(yù)測下一個(gè)狀態(tài)”的范式升級(jí)。

堅(jiān)持原始創(chuàng)新:

智源持續(xù)引領(lǐng)大模型技術(shù)演進(jìn)

悟界·Emu研究成果的發(fā)表,不僅是國際學(xué)術(shù)界對(duì)智源研究團(tuán)隊(duì)工作的認(rèn)可,更是對(duì)人工智能原創(chuàng)技術(shù)路線的肯定。Emu 系列模型自 2022 年啟動(dòng)研發(fā)以來,圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代,每一個(gè)版本都在關(guān)鍵能力與方法論上實(shí)現(xiàn)了實(shí)質(zhì)性突破。

  • 2022年6月,系統(tǒng)布局多模態(tài)大模型的研發(fā)。

  • 2023年7月,發(fā)布并開源首個(gè)版本,成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型,創(chuàng)新性提出統(tǒng)一多模態(tài)學(xué)習(xí)框架并大規(guī)模引入視頻數(shù)據(jù),初步實(shí)現(xiàn)多模態(tài)自回歸預(yù)測。

  • 2023年12月,發(fā)布Emu2,通過大規(guī)模自回歸生成式多模態(tài)預(yù)訓(xùn)練,展現(xiàn)出可泛化的多模態(tài)上下文學(xué)習(xí)能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務(wù),是當(dāng)時(shí)開源最大的生成式多模態(tài)模型。

  • 2024年10月,發(fā)布Emu3,該模型只基于預(yù)測下一個(gè)詞元,無需擴(kuò)散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。

  • 2025年10月,推出原生多模態(tài)世界模型Emu3.5,實(shí)現(xiàn)從 “預(yù)測下一個(gè)詞元” 到 “預(yù)測下一個(gè)狀態(tài)” 的能力躍遷,從長視頻數(shù)據(jù)中學(xué)習(xí)世界演化規(guī)律,提出多模態(tài) Scaling 新范式。

自 2020年啟動(dòng)“悟道”大模型研究以來,智源持續(xù)聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。2025年6月,智源發(fā)布新一代大模型系列“悟界”,旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,及物理世界的人工智能基座模型。這其中包括:Emu 系列多模態(tài)世界模型、RoboBrain跨本體具身大腦、數(shù)字孿生心臟、Brainμ 腦科學(xué)多模態(tài)基礎(chǔ)模型以及OpenComplex全原子生命模型等,構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動(dòng)力學(xué)的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓(xùn)練和推理帶來效率突破和多元AI硬件適配能力。

成立七年來,智源聚焦人工智能技術(shù)前沿,挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題,推進(jìn)大模型技術(shù)不斷演進(jìn)。隨著Emu等研究成果發(fā)表于Nature等國際頂級(jí)期刊,智源將繼續(xù)圍繞智能與物理世界的深層關(guān)聯(lián),推進(jìn)面向下一代人工智能的科研創(chuàng)新。

閱讀最新前沿科技趨勢報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
萊因克爾:B費(fèi)是英超賽季最佳,盡管獎(jiǎng)項(xiàng)可能給賴斯或哈蘭德

萊因克爾:B費(fèi)是英超賽季最佳,盡管獎(jiǎng)項(xiàng)可能給賴斯或哈蘭德

懂球帝
2026-03-02 16:59:05
美國現(xiàn)在才知道,中國是全世界唯一內(nèi)在、外在都最強(qiáng)大的超級(jí)大國

美國現(xiàn)在才知道,中國是全世界唯一內(nèi)在、外在都最強(qiáng)大的超級(jí)大國

王鶔吃吃喝喝
2026-03-02 20:25:22
霍爾木茲海峽封鎖!日本經(jīng)濟(jì)將面臨怎樣的沖擊?

霍爾木茲海峽封鎖!日本經(jīng)濟(jì)將面臨怎樣的沖擊?

徐靜波靜說日本
2026-03-02 07:09:46
開拓者官宣下放楊瀚森!與揚(yáng)布拉德簽下雙向合同 將裁掉庫克

開拓者官宣下放楊瀚森!與揚(yáng)布拉德簽下雙向合同 將裁掉庫克

羅說NBA
2026-03-03 06:17:25
美軍承認(rèn),用了新裝備

美軍承認(rèn),用了新裝備

環(huán)球時(shí)報(bào)國際
2026-03-02 00:08:27
讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

陌上桃花開的
2026-02-28 16:16:42
39歲李思思離開央視兩年,商演小縣城不擺架子

39歲李思思離開央視兩年,商演小縣城不擺架子

范櫳舍長
2026-03-02 20:28:08
讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

大嘴爵爺侃球
2026-03-02 15:28:51
周杰倫和田馥甄戀情,突沖熱搜第一!

周杰倫和田馥甄戀情,突沖熱搜第一!

人間頌
2026-03-01 12:25:17
日媒:如果霍爾木茲海峽被長期封鎖,日本將受極其嚴(yán)重“致命打擊”,GDP預(yù)計(jì)將減少3%

日媒:如果霍爾木茲海峽被長期封鎖,日本將受極其嚴(yán)重“致命打擊”,GDP預(yù)計(jì)將減少3%

環(huán)球網(wǎng)資訊
2026-03-02 09:39:10
43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長,疑好事將近

43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長,疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
來了!蘋果發(fā)布 iOS 26.4 系統(tǒng)更新

來了!蘋果發(fā)布 iOS 26.4 系統(tǒng)更新

XCiOS俱樂部
2026-03-03 06:23:32
尷尬!扣12分,春節(jié)最冤種司機(jī)出現(xiàn)!一粵s車牌兩次駛?cè)霊?yīng)急車道

尷尬!扣12分,春節(jié)最冤種司機(jī)出現(xiàn)!一粵s車牌兩次駛?cè)霊?yīng)急車道

火山詩話
2026-03-02 10:11:01
美國終于明白,當(dāng)年他們“誤炸”中國大使館,中國為什么不反擊

美國終于明白,當(dāng)年他們“誤炸”中國大使館,中國為什么不反擊

蜉蝣說
2025-10-07 16:08:53
美國對(duì)中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

美國對(duì)中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

歷史求知所
2025-12-01 11:30:06
痛心!深圳一醫(yī)院工地出事,張某才(男,29歲,汕頭人)身亡,事故原因公布

痛心!深圳一醫(yī)院工地出事,張某才(男,29歲,汕頭人)身亡,事故原因公布

南方都市報(bào)
2026-03-02 23:28:00
朝鮮突然大閱兵,金正恩稱朝軍已做好一切準(zhǔn)備,能立即打擊敵人

朝鮮突然大閱兵,金正恩稱朝軍已做好一切準(zhǔn)備,能立即打擊敵人

看盡人間百態(tài)
2026-02-26 17:23:03
伊朗不是委瑞內(nèi)拉,哈梅內(nèi)伊不是馬杜羅,軍事專家逐漸失去信任!

伊朗不是委瑞內(nèi)拉,哈梅內(nèi)伊不是馬杜羅,軍事專家逐漸失去信任!

眼光很亮
2026-03-01 16:43:04
馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢怪異男相明顯,堪稱辣眼睛

馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢怪異男相明顯,堪稱辣眼睛

電影偵探社
2026-03-01 16:36:05
78:72爆冷!世預(yù)賽B組大亂,中國男籃自挖苦坑,日本隊(duì)坐收漁利

78:72爆冷!世預(yù)賽B組大亂,中國男籃自挖苦坑,日本隊(duì)坐收漁利

行舟問茶
2026-03-02 12:06:53
2026-03-03 09:16:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37414關(guān)注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級(jí)A19芯片

頭條要聞

媒體:遭受慘烈襲擊后 伊朗做了件"史無前例"的事

頭條要聞

媒體:遭受慘烈襲擊后 伊朗做了件"史無前例"的事

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
房產(chǎn)
時(shí)尚
游戲
數(shù)碼

教育要聞

畢業(yè)大游戲-譚劍-2026年3月2日 (游戲AI設(shè)計(jì)第1次課第1節(jié))

房產(chǎn)要聞

方案突然曝光!?诒睅煷蟾叫,又有書包大盤殺出!

普通人穿衣真的很簡單!單品選對(duì)、搭配合理,大方舒適又得體

LPL人氣選手被曝戀情?疑似與女主持談戀愛,本人親自下場辟謠!

數(shù)碼要聞

PICO馬杰思談“Project Swan”XR旗艦產(chǎn)品:正處于研發(fā)最后階段

無障礙瀏覽 進(jìn)入關(guān)懷版