国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GAN之父Ian Goodfellow病后歸來(lái),劍指高效世界模型

0
分享至

編輯|陳陳

沉寂許久的 Ian Goodfellow,終于再次現(xiàn)身。

這位提出 GAN(生成對(duì)抗網(wǎng)絡(luò))、被稱為 GAN 之父的研究者,曾一手開啟 AI 生成技術(shù)的早期浪潮。但在最近幾年由大模型主導(dǎo)的新一輪生成式 AI 競(jìng)賽中,Goodfellow 的公開聲音卻并不頻繁。

直到最近,終于有了他的消息。



文章作者共三位:

  • Ian Goodfellow 是生成模型時(shí)代的開創(chuàng)者,2014 年提出 GAN,開啟了 AI 圖像生成的第一波浪潮;
  • Chris Manning 則是 NLP 先驅(qū)、斯坦福教授,自然語(yǔ)言處理領(lǐng)域最具影響力的學(xué)者之一,長(zhǎng)期推動(dòng)大語(yǔ)言模型的發(fā)展;
  • Fan-Yun Sun 是 Moonlake AI 聯(lián)合創(chuàng)始人兼 CEO,研究方向集中在多模態(tài)世界模型。

文中提出利用符號(hào)化表示(symbolic representations)以及游戲虛擬世界的數(shù)據(jù),可能是構(gòu)建具備動(dòng)作條件(action-conditioned)的多模態(tài)世界模型的最佳路徑。這類模型能夠支持對(duì)長(zhǎng)時(shí)序任務(wù)(long-horizon tasks)進(jìn)行可靠的預(yù)測(cè)與規(guī)劃。



文章地址:https://x.com/moonlake/status/2029983120087470545

以下是文章內(nèi)容:

當(dāng)人類以及其他動(dòng)物生活在世界中時(shí),它們可以感知周圍正在發(fā)生的事情。但人類所做的遠(yuǎn)不止觀察:人們還能預(yù)測(cè)環(huán)境中其他生物或物體接下來(lái)可能的行為,并據(jù)此規(guī)劃自己的行動(dòng)以實(shí)現(xiàn)某個(gè)目標(biāo),無(wú)論是去獲取晚餐,還是說(shuō)服別人和自己一起踏上一次冒險(xiǎn)之旅。要成功完成這些復(fù)雜任務(wù),就需要一個(gè)高效的世界模型

所謂世界模型,是指一種能夠表示環(huán)境運(yùn)作方式的模型,包括環(huán)境的動(dòng)態(tài)變化(dynamics)以及其中的因果結(jié)構(gòu)(causal structure)。這一概念可以通過(guò)強(qiáng)化學(xué)習(xí)中的模型來(lái)形式化描述:在強(qiáng)化學(xué)習(xí)框架中,環(huán)境通常被建模為一個(gè)部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP)。在這個(gè)框架下,世界模型用于近似環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù) P (s′∣s,a),也就是在當(dāng)前狀態(tài) s 下執(zhí)行動(dòng)作 a 時(shí),預(yù)測(cè)下一個(gè)世界狀態(tài) s 的概率。

借助世界模型,我們可以基于對(duì)世界行為的心理模型來(lái)進(jìn)行預(yù)測(cè)、規(guī)劃、推理和行動(dòng),而無(wú)需每次都通過(guò)與真實(shí)世界直接交互來(lái)觀察行動(dòng)的后果。

然而,在現(xiàn)實(shí)中,人類并不能直接獲得世界的真實(shí)狀態(tài) s。我們所能獲得的,只是對(duì)真實(shí)狀態(tài)的一部分觀測(cè) o。換句話說(shuō),人類始終是在不完全信息的條件下理解和行動(dòng)于這個(gè)世界之中。



人們?cè)谟^察或測(cè)量世界時(shí)采取了不同的方法,并利用不同的模態(tài)來(lái)構(gòu)建世界模型。例如,一個(gè)像 ChatGPT 這樣的大語(yǔ)言模型,僅通過(guò)文本就能學(xué)習(xí)到某種形式的潛在世界模型:在其數(shù)十億參數(shù)之中,隱含著對(duì)物理世界和社會(huì)世界的某種表示,以及對(duì)因果關(guān)系的一定理解,使得模型能夠在 token 空間中通過(guò)輸入和輸出,模擬世界中的事件、行為體和環(huán)境。

然而,我們所生活的世界并不只是文本,它還包括視覺、聲音、觸覺等多種感知形式。因此,在這篇文章中,作者重點(diǎn)討論的是多模態(tài)世界模型(multimodal world models)。

在構(gòu)建多模態(tài)世界模型時(shí),我們需要先提出兩個(gè)關(guān)鍵問(wèn)題:我們?yōu)槭裁匆獦?gòu)建這個(gè)世界模型?以及是否能夠獲得可規(guī)模化的數(shù)據(jù)來(lái)源來(lái)對(duì)其進(jìn)行訓(xùn)練?

我們?yōu)槭裁匆獦?gòu)建世界模型?

構(gòu)建世界模型的目標(biāo),是為了實(shí)現(xiàn)能夠釋放巨大經(jīng)濟(jì)價(jià)值的 AI 能力,并幫助人們擺脫那些不受歡迎的工作。盡管當(dāng)今的 AI 在某些復(fù)雜任務(wù)中已經(jīng)能夠自主運(yùn)行,但現(xiàn)實(shí)世界中的任務(wù)往往要求理解行動(dòng)在時(shí)間維度上如何產(chǎn)生后果,而不僅僅是識(shí)別觀察數(shù)據(jù)中的模式。關(guān)鍵不僅在于理解世界中各種對(duì)象或現(xiàn)象如何同時(shí)出現(xiàn),更在于理解它們之間的因果關(guān)系。例如,一個(gè)人在房間里對(duì)另一個(gè)人大喊,可能會(huì)讓對(duì)方感到不開心;但一個(gè)人感到不開心,并不會(huì)導(dǎo)致房間里另一個(gè)人開始大喊。作者認(rèn)為,在多模態(tài)環(huán)境中進(jìn)行因果推理的能力,是通向具身 AGI 最重要的核心能力之一。

當(dāng)人們談到多模態(tài)世界模型時(shí),很多人會(huì)首先想到生成式視頻模型(例如 Sora 或 Genie 3)。這些模型通常能夠生成視覺效果極為逼真、質(zhì)量很高的場(chǎng)景,并在視頻制作等領(lǐng)域具有廣泛應(yīng)用。但從本質(zhì)上看,這類模型是在通過(guò)像素觀測(cè)來(lái)度量四維世界的變化,并嘗試建模連續(xù)視頻幀之間的關(guān)系。

如果只是想表達(dá)一輛賽車在急彎中高速轉(zhuǎn)彎、輪胎發(fā)出刺耳摩擦聲的畫面,那么基于像素的世界模型顯然比文本更直觀。然而,這種方式并不一定能夠真正捕捉世界的因果結(jié)構(gòu)。例如:猛打方向盤會(huì)導(dǎo)致汽車急轉(zhuǎn)彎,而急轉(zhuǎn)彎又會(huì)導(dǎo)致輪胎摩擦發(fā)出尖叫聲。此外,由于缺乏抽象層和語(yǔ)義結(jié)構(gòu),純像素建模在速度和成本上往往效率較低。一些研究(例如《Are Video Generation Models World Simulators?》也指出,即使是當(dāng)前最先進(jìn)的模型,仍然會(huì)出現(xiàn)物理或空間理解上的問(wèn)題,比如固體物體漂浮在空中,或兩個(gè)實(shí)體相互穿透等現(xiàn)象。

如果目標(biāo)是為下一步行動(dòng)進(jìn)行規(guī)劃,那么問(wèn)題就出現(xiàn)了:我們真的需要一個(gè)高分辨率的像素視圖來(lái)建模世界嗎?作者認(rèn)為,在大量具有經(jīng)濟(jì)價(jià)值的任務(wù)中,其實(shí)并不需要如此細(xì)致的視覺信息。畢竟,人類即使在各種感官能力存在局限的情況下,也能完成幾乎所有現(xiàn)實(shí)任務(wù)。此外,在很多情況下,僅用幾句話描述一個(gè)場(chǎng)景(例如汽車急轉(zhuǎn)彎時(shí)輪胎發(fā)出刺耳摩擦聲)就足以支持理解與決策。相關(guān)實(shí)驗(yàn)也表明,人類在處理視覺信息時(shí)往往并不是完整解析所有像素,而是以自上而下、任務(wù)驅(qū)動(dòng)的方式進(jìn)行處理,并依賴于對(duì)象層級(jí)的抽象表示。在絕大多數(shù)情境中,部分信息加上語(yǔ)義理解就已經(jīng)足夠。

因果關(guān)系本身可能非常復(fù)雜。那么,人類在理解世界方面到底有什么特殊之處,使我們能夠不斷深化對(duì)世界的認(rèn)識(shí)?事實(shí)上,許多生物,即使是像烏鴉這樣相對(duì)簡(jiǎn)單的動(dòng)物也能夠通過(guò)觀察世界來(lái)形成某種內(nèi)部世界模型,并據(jù)此制定計(jì)劃實(shí)現(xiàn)目標(biāo)。人類之所以比其他生物擁有更強(qiáng)大的能力,關(guān)鍵在于我們發(fā)展出了認(rèn)知工具(cognitive tools)。其中最重要的是自然語(yǔ)言,以及后來(lái)發(fā)展出的各種符號(hào)表示,例如數(shù)學(xué)和編程語(yǔ)言。

這些認(rèn)知工具能夠幫助人類以更高效的方式對(duì)世界進(jìn)行抽象,并準(zhǔn)確表達(dá)因果關(guān)系和結(jié)果。它們不僅使人類能夠更高效地推理世界中真正重要的因素,還讓我們能夠通過(guò)語(yǔ)言溝通和協(xié)作,從而影響他人的行為。

更重要的是,工具和抽象可以讓模型把表示能力集中在那些真正影響決策的世界要素上,從而在數(shù)據(jù)和計(jì)算效率上都更具優(yōu)勢(shì)。與其試圖通過(guò)原始感官數(shù)據(jù)完整重建整個(gè)世界,不如利用語(yǔ)義層面的抽象來(lái)實(shí)現(xiàn)更強(qiáng)大、更高效的理解和操作。這一點(diǎn)與如今代碼生成模型處理編程語(yǔ)言的方式類似:通過(guò)符號(hào)系統(tǒng)進(jìn)行操作,而不是直接處理底層機(jī)器狀態(tài)。

這種表示方式具有高度緊湊的特點(diǎn),使得模型在面對(duì)長(zhǎng)時(shí)間跨度任務(wù)或需要記住大量歷史事件的情境時(shí),也能夠進(jìn)行有效預(yù)測(cè)與推理。

我們可以從哪里獲得可擴(kuò)展的數(shù)據(jù)來(lái)源來(lái)訓(xùn)練因果世界模型?

文章指出,數(shù)據(jù)是構(gòu)建有效模型中最關(guān)鍵的因素。目前,大多數(shù)最先進(jìn)的視覺世界模型仍然是基于像素的世界模型,但這些模型通常并不具備動(dòng)作條件(action-conditional)能力。雖然互聯(lián)網(wǎng)上存在海量視頻數(shù)據(jù)(例如來(lái)自 YouTube),但真正記錄行動(dòng)本身及其結(jié)果的數(shù)據(jù)卻非常稀缺,而正是這些數(shù)據(jù)才能幫助模型理解行動(dòng)會(huì)帶來(lái)什么后果。

目前也有一些研究路徑嘗試讓像素世界模型具備動(dòng)作條件能力,但作者認(rèn)為,更具數(shù)據(jù)效率和計(jì)算效率的一條道路,是利用軟件抽象來(lái)構(gòu)建多樣化的合成世界(synthetic worlds)以增強(qiáng)模型訓(xùn)練。這些合成環(huán)境同樣可以成為訓(xùn)練動(dòng)作條件像素世界模型的重要數(shù)據(jù)來(lái)源。

抽象機(jī)制可以讓模型在更少數(shù)據(jù)的情況下實(shí)現(xiàn)高性能。當(dāng)下,這些抽象大多以符號(hào)表示(symbolic representations)的形式存在,例如代碼和自然語(yǔ)言。這些符號(hào)可以通過(guò)一種高度可擴(kuò)展的數(shù)據(jù)采集接口獲得,即計(jì)算機(jī)及其輸入設(shè)備(例如鍵盤和鼠標(biāo))。此外,符號(hào)表示也更適合人類進(jìn)行精細(xì)、有效的控制。由于它們正是人類表達(dá)意圖的接口,因此可以形成一個(gè)同時(shí)包含行動(dòng)(actions)與觀測(cè)(observations)的數(shù)據(jù)飛輪。對(duì)于一個(gè)需要由人類操作的模擬環(huán)境而言,必須存在一個(gè)有效的交互接口,而這一接口往往最自然地通過(guò)人類語(yǔ)言和軟件代碼這樣的符號(hào)系統(tǒng)來(lái)實(shí)現(xiàn)。

最后,作者認(rèn)為,要成功構(gòu)建世界模型,一條能夠?qū)崿F(xiàn)商業(yè)自我持續(xù)發(fā)展的路徑尤為關(guān)鍵。只有當(dāng)商業(yè)化激勵(lì)持續(xù)推動(dòng)數(shù)據(jù)產(chǎn)生和模型改進(jìn)時(shí),模型能力才能不斷提升。類似的模式已經(jīng)多次出現(xiàn),例如智能手機(jī)中的慣性測(cè)量單元(IMU)推動(dòng)了相關(guān)技術(shù)發(fā)展,以及大語(yǔ)言模型在自然語(yǔ)言處理領(lǐng)域的快速進(jìn)步。

因此,作者提出,應(yīng)當(dāng)從數(shù)字世界開始構(gòu)建多模態(tài)世界模型。像游戲這樣的交互式媒體既能夠提供明確的參與激勵(lì)(例如娛樂(lè)),又具備可擴(kuò)展的數(shù)據(jù)采集接口(鍵盤和鼠標(biāo)),從而讓數(shù)據(jù)自然積累。這條路徑有望最終實(shí)現(xiàn)一種模型:在完全成熟的形態(tài)下,它不僅能夠生成環(huán)境,還能用于訓(xùn)練和控制任何具身智能體,無(wú)論是在虛擬世界還是現(xiàn)實(shí)世界中。目前已經(jīng)出現(xiàn)了一些跡象,表明這種跨環(huán)境的泛化能力正在逐步顯現(xiàn)。

展望

文章指出,這并不是在否定像素作為世界表示方式的價(jià)值,也不是認(rèn)為未來(lái)只會(huì)存在一種統(tǒng)一的世界表示形式。作者強(qiáng)調(diào),更關(guān)鍵的是:世界模型的設(shè)計(jì)應(yīng)當(dāng)圍繞我們希望從中學(xué)習(xí)到的策略(policy)來(lái)展開。在此基礎(chǔ)上,需要借助合適的抽象方法和工具,使模型能夠聚焦于那些真正影響決策的環(huán)境因素,從而在數(shù)據(jù)效率和計(jì)算效率之間取得更優(yōu)平衡。

如果目標(biāo)是在多模態(tài)環(huán)境中理解因果關(guān)系,那么無(wú)論世界模型是用于虛擬世界還是現(xiàn)實(shí)物理世界,它都需要優(yōu)先滿足一些關(guān)鍵屬性。例如:在長(zhǎng)時(shí)間尺度上保持空間和物理狀態(tài)的一致性,并能夠推動(dòng)世界狀態(tài)的演化,使其真實(shí)反映行動(dòng)帶來(lái)的后果。

文章最后提到,這正是 Moonlake 當(dāng)前正在探索和構(gòu)建的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兩條“好報(bào)道”,又翻車了?

兩條“好報(bào)道”,又翻車了?

走讀新生
2026-03-09 12:26:32
伊朗選出新領(lǐng)袖,戰(zhàn)事還要打多久:“凱恩預(yù)言”或成真,特朗普打“退堂鼓”?

伊朗選出新領(lǐng)袖,戰(zhàn)事還要打多久:“凱恩預(yù)言”或成真,特朗普打“退堂鼓”?

紅星新聞
2026-03-09 10:05:03
財(cái)政部、人社部發(fā)布消息,今年養(yǎng)老金或再漲,低于3200元多漲嗎?

財(cái)政部、人社部發(fā)布消息,今年養(yǎng)老金或再漲,低于3200元多漲嗎?

有范又有料
2026-03-09 11:43:18
伊朗新任最高領(lǐng)袖亮相,他“冒死”當(dāng)選的三大原因!

伊朗新任最高領(lǐng)袖亮相,他“冒死”當(dāng)選的三大原因!

仕道
2026-03-09 10:21:53
趕緊關(guān)窗!已提前到來(lái)!

趕緊關(guān)窗!已提前到來(lái)!

羊城攻略
2026-03-08 22:54:35
羨慕?。⌒∶滓晃粏T工被裁領(lǐng)到賠償金后,又成功申請(qǐng)退休,預(yù)估每月8000多元

羨慕?。⌒∶滓晃粏T工被裁領(lǐng)到賠償金后,又成功申請(qǐng)退休,預(yù)估每月8000多元

新浪財(cái)經(jīng)
2026-03-08 17:55:13
大風(fēng)315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩,因明星錄制綜藝節(jié)目被清場(chǎng);景區(qū):具體情況需由游客回應(yīng)

大風(fēng)315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩,因明星錄制綜藝節(jié)目被清場(chǎng);景區(qū):具體情況需由游客回應(yīng)

大風(fēng)新聞
2026-03-09 17:06:09
攤牌了!離婚14年董潔潘粵明公開“認(rèn)愛”,這一次尹姝貽輸?shù)脧氐?>
    </a>
        <h3>
      <a href=查爾菲的筆記
2026-03-09 14:00:17
第九日中東戰(zhàn)況:伊朗能源設(shè)施首次遭襲,伊朗空軍“全軍覆沒(méi)”

第九日中東戰(zhàn)況:伊朗能源設(shè)施首次遭襲,伊朗空軍“全軍覆沒(méi)”

裝甲鏟史官
2026-03-09 11:43:08
外交部:中方高度警惕,堅(jiān)決反對(duì)日方妄圖在臺(tái)灣問(wèn)題上打“擦邊球”“搞突破”,日方縱容挑釁和恣意妄為必將付出代價(jià)

外交部:中方高度警惕,堅(jiān)決反對(duì)日方妄圖在臺(tái)灣問(wèn)題上打“擦邊球”“搞突破”,日方縱容挑釁和恣意妄為必將付出代價(jià)

環(huán)球網(wǎng)資訊
2026-03-09 15:34:10
雷軍:未來(lái)每周或僅需工作3天 每天工作2小時(shí) 建議大家用開放心態(tài)迎接

雷軍:未來(lái)每周或僅需工作3天 每天工作2小時(shí) 建議大家用開放心態(tài)迎接

快科技
2026-03-07 14:42:06
破案了!保定潑螺螄粉湯事件升級(jí),網(wǎng)傳對(duì)面坐的是她的親生女兒…

破案了!保定潑螺螄粉湯事件升級(jí),網(wǎng)傳對(duì)面坐的是她的親生女兒…

火山詩(shī)話
2026-03-09 13:17:44
偉偉道來(lái) | 伊朗降溫美以升級(jí),戰(zhàn)爭(zhēng)進(jìn)入第二階段

偉偉道來(lái) | 伊朗降溫美以升級(jí),戰(zhàn)爭(zhēng)進(jìn)入第二階段

經(jīng)濟(jì)觀察報(bào)
2026-03-09 16:20:16
騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

PChome電腦之家
2026-03-09 14:37:39
女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

離離言幾許
2026-03-07 15:52:24
最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會(huì)沒(méi)開完就溜了

最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會(huì)沒(méi)開完就溜了

天天熱點(diǎn)見聞
2026-03-09 06:51:26
軍事 | 小心俄烏、美以伊朗戰(zhàn)事聯(lián)動(dòng),澤連斯基說(shuō)法有多危險(xiǎn)?

軍事 | 小心俄烏、美以伊朗戰(zhàn)事聯(lián)動(dòng),澤連斯基說(shuō)法有多危險(xiǎn)?

新民周刊
2026-03-09 09:07:46
世襲罔替,新最高革命領(lǐng)袖是小哈梅內(nèi)伊!請(qǐng)救救伊朗女足的姑娘們

世襲罔替,新最高革命領(lǐng)袖是小哈梅內(nèi)伊!請(qǐng)救救伊朗女足的姑娘們

鷹眼Defence
2026-03-09 12:16:08
伊朗公開道歉!海灣國(guó)家醒悟,反將美一軍,特朗普弄巧成拙被逼宮

伊朗公開道歉!海灣國(guó)家醒悟,反將美一軍,特朗普弄巧成拙被逼宮

策略述
2026-03-09 16:10:11
日經(jīng)225指數(shù)跌幅擴(kuò)大,現(xiàn)跌7.0%,最新報(bào)51697.54點(diǎn)

日經(jīng)225指數(shù)跌幅擴(kuò)大,現(xiàn)跌7.0%,最新報(bào)51697.54點(diǎn)

每日經(jīng)濟(jì)新聞
2026-03-09 09:34:03
2026-03-09 17:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說(shuō)沒(méi)想到“龍蝦”這么火

頭條要聞

媒體:伊朗降溫 美以將戰(zhàn)爭(zhēng)推入第二階段欲"強(qiáng)拆伊朗"

頭條要聞

媒體:伊朗降溫 美以將戰(zhàn)爭(zhēng)推入第二階段欲"強(qiáng)拆伊朗"

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂(lè)要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

亞太股市黑色星期一 這次A股有點(diǎn)不一樣

汽車要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

家居
親子
本地
教育
公開課

家居要聞

獨(dú)棟獨(dú)院 精致親子墅

親子要聞

萌娃爆笑吐槽老爸打噴嚏,老爸:給我留點(diǎn)面子

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

教育要聞

3月7日雅思大作文示范寫作 | 教授父母育兒技能是否是降低青少年犯罪率的最好方法

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版