国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智源研究院王仲遠(yuǎn):訓(xùn)練仍有巨大的Scaling空間 | MEET2026

0
分享至

編輯部 整理自 MEET2026
量子位 | 公眾號(hào) QbitAI

全球互聯(lián)網(wǎng)的文本數(shù)據(jù)已基本挖掘完畢,但視頻數(shù)據(jù)還未被充分利用。

智源研究院的多模態(tài)世界模型悟界·Emu3.5,就是一個(gè)從視頻中學(xué)習(xí),而非僅依賴文本的大模型。

在量子位MEET2026智能未來大會(huì)上,北京智源人工智能研究院院長(zhǎng)王仲遠(yuǎn)提到:

  • 當(dāng)前人工智能正處于第三次浪潮的關(guān)鍵拐點(diǎn):大模型不僅推動(dòng)AI從弱智能向通用智能跨越,更有望讓機(jī)器人從1.0專用時(shí)代邁入2.0通用時(shí)代。

為此,智源研究院發(fā)布“悟界”系列大模型,錨定AI從數(shù)字世界進(jìn)入物理世界的核心方向。

智源的Emu3.5與具身大腦全棧技術(shù)體系,就成為支撐這一技術(shù)演進(jìn)趨勢(shì)的兩大基石。



MEET2026智能未來大會(huì)上,王仲遠(yuǎn)還說,要實(shí)現(xiàn)AI與物理世界的深度交互,需突破多模態(tài)理解與具身執(zhí)行的核心技術(shù)瓶頸。

目前,悟界系列已在多模態(tài)學(xué)習(xí)范式、跨機(jī)器人本體適配等領(lǐng)域取得關(guān)鍵進(jìn)展,且多項(xiàng)成果已開源開放,助力產(chǎn)業(yè)協(xié)同創(chuàng)新。

為了完整體現(xiàn)王仲遠(yuǎn)的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。

MEET2026智能未來大會(huì)是由量子位主辦的行業(yè)峰會(huì),近30位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾近1500人,線上直播觀眾350萬(wàn)+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。

核心觀點(diǎn)梳理
  • 當(dāng)下人工智能處于第三次浪潮的重要拐點(diǎn),大模型推動(dòng)其從弱人工智能邁向通用人工智能,推動(dòng)機(jī)器人從1.0專用機(jī)器人時(shí)代進(jìn)入2.0通用具身智能時(shí)代。
  • 視頻是能夠大規(guī)模獲得的模擬真實(shí)世界的高效載體,同時(shí)包含時(shí)間、空間、物理、因果關(guān)系以及意圖等各種要素。
  • 2025年往后,第三代Scaling范式的關(guān)鍵在多模態(tài)。智源研究院的悟界·Emu3.5,通過統(tǒng)一的自回歸架構(gòu),將大語(yǔ)言模型的Next-Token Prediction升級(jí)為在多模態(tài)數(shù)據(jù)上進(jìn)行Next-State Prediction,預(yù)示著AI從語(yǔ)言學(xué)習(xí)邁入多模態(tài)世界學(xué)習(xí)的新階段。
  • 目前的具身大模型依然是不好用、不通用、不易用。不好用,指的是具身大模型還沒有達(dá)到ChatGPT時(shí)刻;不通用,指的是很多模型只能適用一個(gè)本體或者同一個(gè)品牌的本體;不易用,指的是大腦、小腦以及本體之間的適配度還是不夠高。
  • 智源研究院從成立起堅(jiān)持開源開放,過去兩年多開源200多個(gè)模型,涵蓋語(yǔ)言模型、多模態(tài)模型、具身模型等,全球下載量突破6.9億次;開源100多個(gè)數(shù)據(jù)集,涵蓋語(yǔ)言、語(yǔ)音、圖像、視頻和具身智能等,全球下載量超過400萬(wàn)次,僅在11月底開源的一個(gè)具身數(shù)據(jù)集下載量已超百萬(wàn)次。

以下為演講全文。

從數(shù)字世界到物理世界:AI迎來第三次浪潮關(guān)鍵拐點(diǎn)

今天想和大家分享的是智源研究院在“推動(dòng)人工智能從數(shù)字世界邁向物理世界”上的一些最新科研進(jìn)展。

我們知道當(dāng)下人工智能正處于第三次浪潮中的重要的拐點(diǎn)。

過去幾年,大模型的爆發(fā)讓AI從原來的弱人工智能時(shí)代邁向通用人工智能時(shí)代,也有望推動(dòng)機(jī)器人從1.0時(shí)代進(jìn)入到2.0時(shí)代,也就是從專用的機(jī)器人到通用的具身智能。

基于對(duì)這一趨勢(shì)的預(yù)判,在今年的智源大會(huì)上,智源研究院也發(fā)布了“悟界”系列大模型

如果說四年前所發(fā)布的“悟道”系列大模型開啟了中國(guó)大模型時(shí)代——“悟道”的“道”代表我們對(duì)大語(yǔ)言模型方法和路徑的探索,那么“悟界”系列大模型代表了我們對(duì)于人工智能從數(shù)字世界進(jìn)入到物理世界這一趨勢(shì)的判斷——“悟界”的“界”代表智源對(duì)于虛實(shí)世界邊界的不斷突破。

今天我想重點(diǎn)跟大家分享兩方面的進(jìn)展:

一個(gè)是在我們?cè)?strong>多模態(tài)世界模型上的突破,另外是具身大腦的全棧技術(shù)體系的成型



Emu3.5:從長(zhǎng)視頻中學(xué)習(xí)物理世界動(dòng)態(tài)

在今年的10月30日,智源研究院發(fā)布了悟界·Emu3.5,這是一個(gè)多模態(tài)的世界模型的基座。

Emu3.5用一個(gè)單一的Transformer基座能完成多樣化的能力,它跟其他一些大模型最重要的區(qū)別是,它是從長(zhǎng)視頻中進(jìn)行學(xué)習(xí)

我們知道文字和語(yǔ)言是人類智慧的結(jié)晶,是人類知識(shí)的總結(jié)。大語(yǔ)言模型的成功得益于從文字中學(xué)到了智能,學(xué)到了邏輯推理的能力,但全世界只有一個(gè)互聯(lián)網(wǎng),文本的數(shù)據(jù)已經(jīng)被基本使用殆盡,這也是為什么這一兩年可以看到像大語(yǔ)言模型的預(yù)訓(xùn)練已經(jīng)開始進(jìn)入到比較緩慢的階段。

另外一方面,如果人工智能要從數(shù)字世界進(jìn)入到物理世界,不僅僅需要理解文字,還要理解整個(gè)世界運(yùn)行的規(guī)律,需要能夠處理圖像、聲音等各種各樣模態(tài)的信息。

視頻是目前能夠大規(guī)模獲得的,同時(shí)包含時(shí)間、空間、物理、因果關(guān)系、意圖等各種要素的、能夠高效模擬真實(shí)世界的載體。



我們知道大語(yǔ)言模型最重要的能力是對(duì)下一個(gè)詞元(Next-Token)進(jìn)行預(yù)測(cè),Emu3.5一個(gè)非常重要的能力,就是從長(zhǎng)視頻中來進(jìn)行學(xué)習(xí),也正是由于這樣的訓(xùn)練范式,使得我們能夠從Next-Token Prediction升級(jí)到Next-State Prediction,能夠?qū)ο乱粋€(gè)時(shí)空狀態(tài)進(jìn)行預(yù)測(cè)。

我們相信人工智能在未來這幾年會(huì)從“語(yǔ)言學(xué)習(xí)”進(jìn)入到“多模態(tài)世界學(xué)習(xí)”的新階段。

為了實(shí)現(xiàn)這一目標(biāo),對(duì)比上一個(gè)版本,Emu3.5在各方面都有了大幅提升,比如訓(xùn)練數(shù)據(jù)集中視頻的總量,從原來的15年上升到了790年,參數(shù)量從原來的8B提升到了34B。

Emu3.5所采用的是全自回歸的架構(gòu),自回歸架構(gòu)與Diffusion和Diffusion Transformer的架構(gòu)相比,其實(shí)在圖像、視頻等多模態(tài)的生成速度上,是有比較明顯劣勢(shì)的,但在Emu3.5中,通過我們自研的DiDA技術(shù),每一張圖片的生成速度能夠提升約20倍,使得自回歸模型文生圖速度與世界頂級(jí)模型模型媲美。

基于以上突破,我們相信Emu3.5開啟了第三個(gè)的Scaling范式。

剛才前面兩位演講嘉賓也提到,現(xiàn)在整個(gè)Scaling確實(shí)進(jìn)入到緩慢的階段。前幾年是大語(yǔ)言模型的預(yù)訓(xùn)練的Scaling,過去這兩年是后訓(xùn)練的Scaling,在多模態(tài)這塊,由于我們知道海量的多模態(tài)數(shù)據(jù)還沒有被有效地使用,因此依然有非常大的Scaling的空間。

更為關(guān)鍵的是,像Emu3.5采用的是自回歸的架構(gòu),因此能夠復(fù)用現(xiàn)有所有針對(duì)大語(yǔ)言模型的基礎(chǔ)設(shè)施,并且Emu3.5現(xiàn)在才只是34B的模型,對(duì)比大語(yǔ)言模型依然有千億、萬(wàn)億的廣闊空間。

目前,Emu3.5科研體驗(yàn)版已經(jīng)向公眾開放,歡迎大家體驗(yàn)。

這里我也簡(jiǎn)單介紹一下,請(qǐng)看大屏幕中展示的Emu3.5生成的例子。文生圖方面,模型可以生成非常精美的圖片,各種細(xì)節(jié)非常豐富。在圖像編輯任務(wù)中,Emu 3.5展現(xiàn)了非常強(qiáng)的多模態(tài)理解能力。



比如說在左上角的例子,我們給了一個(gè)指令,“把問號(hào)的區(qū)域換成合適的顏色”,模型能夠通過語(yǔ)義推理填充符合邏輯的顏色;再比如中間的例子,指令是“將批改的卷子還原,把手寫的部分去除”,這要求模型首先要識(shí)別出哪些屬于手寫的部分。右下角的例子里,我們給了一張圖片,要求“換成一個(gè)俯瞰的視角”,模型非常好地展示出俯瞰視角的形象??梢钥吹剑珽mu3.5具備了很好的多模態(tài)推理和視覺理解能力。

近期,像Gemini 3 pro和Nano Banana pro相繼發(fā)布,在業(yè)界引發(fā)關(guān)注,其實(shí)之前我們把Emu3.5跟Nano Banana第一代做了對(duì)比,能力旗鼓相當(dāng)。針對(duì)最新發(fā)布的Pro版本,我們正在進(jìn)行各項(xiàng)能力的評(píng)估與測(cè)試,這邊展示其中部分結(jié)果。

在一些虛擬轉(zhuǎn)現(xiàn)實(shí)、尤其涉及到時(shí)間空間下一個(gè)狀態(tài)預(yù)測(cè)的任務(wù)上面,Emu3.5的表現(xiàn)可圈可點(diǎn)。

比如說在這個(gè)例子里,將摩托車的模型草稿圖轉(zhuǎn)成現(xiàn)實(shí),我們可以看到Nano Banana還是做了很多偏離原圖的“自由發(fā)揮”,觀察細(xì)節(jié)可以看到與原圖的差異還是比較明顯的。Emu3.5則更好地保持了一致性。



再比如說左右視角轉(zhuǎn)換,因?yàn)镋mu3.5是從視頻中學(xué)習(xí),它對(duì)物理世界,對(duì)于時(shí)間、空間、物理的知識(shí)有了更加充分地理解,所以能夠達(dá)到更好的理解和生成的效果。對(duì)于預(yù)測(cè)下一個(gè)狀態(tài)的任務(wù),從下面這個(gè)例子可以非常明顯地看出來,Emu3.5預(yù)測(cè)狀態(tài)的正確性和邏輯性具有顯著優(yōu)勢(shì)。



除了圖像生成和圖像編輯以外,Emu3.5還具備長(zhǎng)時(shí)空序列的視覺故事生成,視覺指導(dǎo)(圖文說明書)生成的能力,所有這些都是“世界模型”的核心要素。大家可以通過Demo了解更多。

更為關(guān)鍵的是,Emu3.5是全開源的模型。

具身大腦全棧技術(shù):破解機(jī)器人“不通用、不易用”難題

Emu3.5解決的是世界基座模型的能力,人工智能要進(jìn)入到物理世界,很重要的是跟硬件結(jié)合,像具身智能。

在具身智能上,智源研究院主要通過在數(shù)據(jù)和模型上進(jìn)行破局,我們知道現(xiàn)在整個(gè)具身大模型依然不好用、不通用、不易用。

“不好用”是指具身大模型上沒有迎來“ChatGPT的時(shí)刻”,“不通用”是指很多模型只適用于一個(gè)本體或者同一個(gè)品牌的本體,“不易用”指的是大腦、小腦以及本體之間的適配難度還是比較高的。

今年我們智源研究院構(gòu)建了以具身大腦Robo Brain為核心,自底向上的全棧的技術(shù)體系。

比如說,我們能夠?qū)崿F(xiàn)跨各種機(jī)器人異構(gòu)本體的數(shù)據(jù)采集以及數(shù)據(jù)標(biāo)準(zhǔn)化。在此基礎(chǔ)上,構(gòu)建了具身大腦模型、具身小腦VLA基座模型,以及具身智能評(píng)測(cè)、端云協(xié)同部署框架等,所有這一切都能夠?yàn)檎麄€(gè)產(chǎn)業(yè)加速發(fā)展,起到實(shí)質(zhì)性的助力作用。

在今年智源大會(huì)上,我們還發(fā)布了RoboBrain2.0的版本,展示了模型能夠?qū)⑷祟悘?fù)雜指令進(jìn)行拆解,根據(jù)現(xiàn)場(chǎng)空間環(huán)境分解指令,并且分配給不同類型的機(jī)器人進(jìn)行執(zhí)行的具身大腦的能力。

同樣,這種交互與理解能力,其實(shí)不僅僅用在執(zhí)行上,在導(dǎo)覽導(dǎo)購(gòu)一些場(chǎng)景也有非常多的可以落地的應(yīng)用。

在9月份的時(shí)候,我們也發(fā)布了具身小腦的基座模型,RoboBrain-X0,這是一個(gè)能夠在零樣本泛化、少量樣本微調(diào)條件下,驅(qū)動(dòng)多種不同真實(shí)機(jī)器人完成復(fù)雜任務(wù)的跨本體基座大模型。11月20日的智源具身開放日上,我們發(fā)布了升級(jí)版X0-Pro,能夠執(zhí)行更加復(fù)雜的指令。

在人形機(jī)器人領(lǐng)域,全身控制也是非常重要的能力。前兩個(gè)月大家可能有在網(wǎng)上看到一條非常火的視頻,我們用一個(gè)35千克的G1機(jī)器人拉動(dòng)1.4噸的汽車。背后驅(qū)動(dòng)這臺(tái)機(jī)器人的,就是全身控制框架BAAI Thor,它也驅(qū)動(dòng)機(jī)器人實(shí)現(xiàn)了連續(xù)28個(gè)空翻的高難度全身控制。



開源開放

在11月20日的智源具身開放日上,我們也開源了一個(gè)高質(zhì)量的雙臂操作數(shù)據(jù)集,短短20天內(nèi)全球下載量突破了130萬(wàn)次,我想,這就是智源研究院對(duì)于整個(gè)行業(yè)實(shí)實(shí)在在的貢獻(xiàn)。

當(dāng)然不僅僅在具身智能,實(shí)際上智源研究院從成立的第一天開始,就堅(jiān)持開源開放。

我們?cè)谶^去兩年多開源了200多款模型,涵蓋大語(yǔ)言模型、多模態(tài)模型、具身模型等,全球下載總量已經(jīng)突破了6.9億次。數(shù)據(jù)集也開放了近百個(gè),涵蓋語(yǔ)言、語(yǔ)音、圖像、視頻和具身智能等,全球下載量超過了400萬(wàn)次。

除了開源,我們也積極跟產(chǎn)業(yè)里的各方進(jìn)行合作,比如在具身智能上,智源現(xiàn)在已經(jīng)跟國(guó)內(nèi)頭部30余家機(jī)器人企業(yè)和機(jī)構(gòu)開展合作,我們也希望能夠與更多的大公司和創(chuàng)業(yè)公司開展合作,共同推動(dòng)具身智能世界模型的發(fā)展。

以上就是我的分享,謝謝大家。


— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1958年,2億只麻雀一夜之間沒了,大家都以為保住了糧食,結(jié)果第二年那報(bào)應(yīng)來得太猛,還得厚著臉皮找蘇聯(lián)救急

1958年,2億只麻雀一夜之間沒了,大家都以為保住了糧食,結(jié)果第二年那報(bào)應(yīng)來得太猛,還得厚著臉皮找蘇聯(lián)救急

歷史回憶室
2025-12-26 11:11:27
百年龐家故事大揭秘:他們?yōu)楹尾贿x擇離開大陸?

百年龐家故事大揭秘:他們?yōu)楹尾贿x擇離開大陸?

金牌輿情官
2025-12-25 20:15:34
東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

農(nóng)村情感故事
2025-04-06 20:07:35
胡金秋9000分里程碑:CBA歷史第9人+現(xiàn)役第2人 逼近唐正東

胡金秋9000分里程碑:CBA歷史第9人+現(xiàn)役第2人 逼近唐正東

醉臥浮生
2025-12-27 20:06:01
法國(guó)、德國(guó)、英國(guó)、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國(guó)發(fā)表聯(lián)合聲明

法國(guó)、德國(guó)、英國(guó)、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國(guó)發(fā)表聯(lián)合聲明

每日經(jīng)濟(jì)新聞
2025-12-25 07:29:06
中方:納瓦羅言論極為卑劣,堅(jiān)決反對(duì)!

中方:納瓦羅言論極為卑劣,堅(jiān)決反對(duì)!

第一財(cái)經(jīng)資訊
2025-12-27 08:40:40
多家博物館公告:暫停開放

多家博物館公告:暫停開放

深圳晚報(bào)
2025-12-26 23:58:02
王皓不參加競(jìng)聘,這事看著平靜,其實(shí)比他參加更讓人心里發(fā)緊。

王皓不參加競(jìng)聘,這事看著平靜,其實(shí)比他參加更讓人心里發(fā)緊。

小光侃娛樂
2025-12-27 20:45:02
心理學(xué)家:極度自私的人,往往不是斤斤計(jì)較,而是有著這3個(gè)特征

心理學(xué)家:極度自私的人,往往不是斤斤計(jì)較,而是有著這3個(gè)特征

木言觀
2025-12-27 18:01:28
陳剛和“陳剛”合影

陳剛和“陳剛”合影

新京報(bào)政事兒
2025-12-27 08:14:04
索賠23.14億元!吉利子公司起訴欣旺達(dá):交付的電芯存質(zhì)量問題

索賠23.14億元!吉利子公司起訴欣旺達(dá):交付的電芯存質(zhì)量問題

紅星新聞
2025-12-27 15:04:06
67歲大爺在女婿家住了一年,女兒突然哭著說:爸,求您回去吧

67歲大爺在女婿家住了一年,女兒突然哭著說:爸,求您回去吧

施工員小天哥
2025-12-26 21:22:48
最快護(hù)士張水華遭中國(guó)田協(xié)除名?官方競(jìng)賽系統(tǒng)業(yè)余跑者唯獨(dú)沒有她

最快護(hù)士張水華遭中國(guó)田協(xié)除名?官方競(jìng)賽系統(tǒng)業(yè)余跑者唯獨(dú)沒有她

楊華評(píng)論
2025-12-27 13:10:15
美媒突然改口!殲-20S憑啥被捧為“準(zhǔn)六代機(jī)”?雙座設(shè)計(jì)藏玄機(jī)

美媒突然改口!殲-20S憑啥被捧為“準(zhǔn)六代機(jī)”?雙座設(shè)計(jì)藏玄機(jī)

Hi秒懂科普
2025-12-25 20:10:08
3-0!乒超男團(tuán)決賽對(duì)陣出爐!王楚欽一舉動(dòng)逗笑觀眾,沖上熱搜榜

3-0!乒超男團(tuán)決賽對(duì)陣出爐!王楚欽一舉動(dòng)逗笑觀眾,沖上熱搜榜

侃球熊弟
2025-12-27 20:56:20
10萬(wàn)股民踩雷!4家A股公司被立案調(diào)查

10萬(wàn)股民踩雷!4家A股公司被立案調(diào)查

錢眼
2025-12-27 19:35:44
比特幣一度“閃崩”超70%至24111美元!趙長(zhǎng)鵬發(fā)文回應(yīng)

比特幣一度“閃崩”超70%至24111美元!趙長(zhǎng)鵬發(fā)文回應(yīng)

格隆匯
2025-12-27 19:37:06
錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

一娛三分地
2025-12-15 13:26:07
滿是疑惑!《老舅》27集結(jié)局:廠長(zhǎng)、張秘書反轉(zhuǎn),老舅葬禮姐缺席

滿是疑惑!《老舅》27集結(jié)局:廠長(zhǎng)、張秘書反轉(zhuǎn),老舅葬禮姐缺席

草本紀(jì)年
2025-12-27 20:53:07
全國(guó)首臺(tái)!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

全國(guó)首臺(tái)!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

荷蘭豆愛健康
2025-12-26 07:05:32
2025-12-28 00:51:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11928文章數(shù) 176345關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

房產(chǎn)
游戲
旅游
本地
公開課

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

旅游要聞

“請(qǐng)3休8”倒計(jì)時(shí),12月27日迎來元旦假期首波出游高峰

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版