国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福具身智能大佬看好的世界模型,竟出自英偉達(dá)Cosmos?

0
分享至



讓機器人成為能主動想象、理解、行動的智能體。

作者 |許麗思

編輯 |漠影

前陣子,特斯拉釋放重磅消息,Optimus 3即將亮相,它將是一款通用人形機器人,也是特斯拉第一款走向量產(chǎn)的機器人,將在今年年底前啟動生產(chǎn)。同時,Optimus已經(jīng)在特斯拉工廠執(zhí)行一些簡單任務(wù)。

機器人行業(yè)的敘事,正從會跑會跳的技術(shù)演示轉(zhuǎn)向能落地干活的使用能力,距離走進(jìn)人類生活似乎越來越近了。不過,在demo和規(guī);涞刂g,還需要邁過安全、可靠性與功能成熟度等門檻。

在這道門檻前,數(shù)據(jù)問題變得更尖銳。以特斯拉Optimus的研發(fā)為例,早期團隊曾采用動作捕捉服和遠(yuǎn)程操作方案,但在去年開始探索其他訓(xùn)練方式。

這種困境并非個例,行業(yè)普遍面臨真實機器人數(shù)據(jù)昂貴、稀缺且強依賴硬件形態(tài),進(jìn)而導(dǎo)致訓(xùn)練與評估難以規(guī)模化復(fù)制、場景泛化能力有限。

此前,英偉達(dá)打造了“三臺計算機”解決方案:DGX系列提供強勁算力支撐,Omniverse平臺Cosmos世界基礎(chǔ)模型平臺高效生產(chǎn)仿真數(shù)據(jù),AGX作為邊端完成部署和驗證,三者協(xié)同形成完整閉環(huán),為物理AI開發(fā)提供全鏈條支持。

其中,Cosmos的角色,在于成為物理AI破解數(shù)據(jù)難題的關(guān)鍵工具。它能夠輕松生產(chǎn)大量符合物理規(guī)律的逼真合成數(shù)據(jù),解決真實世界數(shù)據(jù)稀缺、模型測試風(fēng)險高等挑戰(zhàn),讓機器人在虛擬環(huán)境中先試錯、再實戰(zhàn)。

同時,開發(fā)者還可通過微調(diào) Cosmos WFM構(gòu)建自定義模型,大幅降低物理AI開發(fā)門檻。


01.

輕松生成大量逼真合成數(shù)據(jù),

讓機器人更能適配真實場景挑戰(zhàn)

與只需要處理單一模態(tài)數(shù)據(jù)的傳統(tǒng)AI不同,物理AI需要支撐機器人在真實場景中完成復(fù)雜任務(wù),比如工廠抓取零部件時的準(zhǔn)確受力反饋、戶外場景移動時的復(fù)雜地形應(yīng)對與行動策略調(diào)整等,對數(shù)據(jù)的真實性、多樣性、規(guī)模化需求極高。

物理AI模型的開發(fā)成本高且需要大量真實數(shù)據(jù)和測試,而Cosmos世界基礎(chǔ)模型使開發(fā)者能夠輕松生成大量符合物理規(guī)律的逼真合成數(shù)據(jù),以用于訓(xùn)練和評估其現(xiàn)有的模型。

具體來說,Cosmos世界基礎(chǔ)模型包括了三大部分:Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict讓機器人擁有一種堪稱提前看結(jié)局的能力,能夠預(yù)測動態(tài)環(huán)境的未來狀態(tài)。Cosmos Predict 2.5已將多種預(yù)測能力整合到單一模型中,實現(xiàn)了在單幀輸入條件下快速生成30秒預(yù)測視頻。

它為機器人復(fù)雜任務(wù)規(guī)劃提供了強大支撐,開發(fā)者可基于此對模型進(jìn)行后期訓(xùn)練,將視頻預(yù)測能力轉(zhuǎn)化為策略建模所需的動作生成能力。

比如,在機器人執(zhí)行精密裝配任務(wù)前,先通過Cosmos Predict模擬不同操作路徑的結(jié)果,選擇最優(yōu)方案,從而讓機器人在實戰(zhàn)中更精準(zhǔn)、更安全,大幅減少試錯成本與操作風(fēng)險。


Cosmos Transfer通過ControlNet架構(gòu),能基于輸入數(shù)據(jù)生成高保真世界場景,改變光照、天氣、物體材質(zhì)等條件,生成同一場景的無數(shù)種可能。最新的Cosmos Transfer 2.5能夠生成更高質(zhì)量、逼真的數(shù)據(jù),且大小僅為Cosmos Transfer 1的三分之一。

對機器人來說,它可以在虛擬環(huán)境中體驗千變?nèi)f化的現(xiàn)實世界。無需依賴海量真實場景數(shù)據(jù)采集,就能有效提升機器人對不同場景的泛化能力,降低適配多場景應(yīng)用的開發(fā)成本,加速規(guī);涞剡M(jìn)程。


Cosmos Reason則是一個完全可定制的多模態(tài)AI推理模型,專為理解運動、物體交互和時空關(guān)系而構(gòu)建。它讓機器人能夠理解空間、時間和物理特性,還能給Cosmos Predict生成多樣化、逼真的提示,并使用基于文本的控件從視頻中篩選高質(zhì)量的合成數(shù)據(jù)。

當(dāng)機器人擁有了像人類一樣推理的能力,它就不再只是執(zhí)行預(yù)設(shè)指令的工具,而是能理解物理世界規(guī)律、進(jìn)行有意識決策的智能體,提升了在復(fù)雜未知場景中的自主應(yīng)對能力,打破規(guī);涞氐膱鼍斑m配局限。

除了這些基礎(chǔ)模型,Cosmos還包括由NVIDIA Cosmos Curate提供支持的數(shù)據(jù)處理和管理工作流,使開發(fā)者能夠在NVIDIA HopperGPU上僅用40天處理2000萬小時的數(shù)據(jù),在NVIDIA BlackwellGPU上只需14天就能處理2000萬小時的數(shù)據(jù)。

Cosmos還配備一套視頻和圖像tokenizer,可以將視頻轉(zhuǎn)換為不同視頻壓縮比的標(biāo)記,用于訓(xùn)練各種Transformer模型。與現(xiàn)在先進(jìn)的tokenizer相比,Cosmos tokenizer的總壓縮率高出8倍,處理速度快12倍,讓訓(xùn)練成本大幅降低。

02.

基于Cosmos開發(fā)的WOW:

讓機器人看懂、理解并行動于世界

去年,北京人形機器人創(chuàng)新中心(以下簡稱“北京人形”)發(fā)布具身世界模型WoW,備受學(xué)術(shù)界、產(chǎn)業(yè)界關(guān)注。

不僅Huggingface官方留言“Excellent work”催更開源,斯坦福具身智能大佬、PI創(chuàng)始人Chelsea Finn還在與清華合作文章中引用了WoW技術(shù)報告。

值得一提的是,WoW正是北京人形研發(fā)團隊以Cosmos為基座,結(jié)合自身在機器人交互數(shù)據(jù)、算法優(yōu)化等方面的積累打造而成,可以說是Cosmos在具身智能領(lǐng)域的最佳實踐之一,充分驗證了Cosmos平臺的靈活性與擴展性。

WOW是一個能讓機器人真正看見、理解并行動于世界的世界模型,提出了一個全新的框架,將世界生成、動作預(yù)測、視覺理解和自我反思融合為一個統(tǒng)一系統(tǒng),使得AI不再只是看視頻或生成圖像,而能通過交互學(xué)習(xí)世界的物理規(guī)律,并在真實環(huán)境中自主操作。

模型怎么樣才能夠像人類一樣,通過實踐不斷進(jìn)步,越來越聰明?WoW給出了答案:其提出的SOPHIA框架,把大語言模型與擴散Transformer結(jié)合起來,在語言引導(dǎo)下生成物理上合理的未來,讓AI形成"生成預(yù)測-批評-修正"的閉環(huán),使得模型在執(zhí)行任務(wù)時能不斷優(yōu)化。


▲SOPHIA框架讓AI生成結(jié)果后自我評估、給出反饋,并通過Refiner Agent改進(jìn)提示詞或推理鏈

WOW中還有一個基于Diffusion Transformer架構(gòu)的世界生成引擎,它能夠根據(jù)環(huán)境狀態(tài)與智能體當(dāng)前觀測,預(yù)測未來場景、推演物理演化、還原動態(tài)因果鏈。

光有視覺“想象”還不夠,WoW還能實現(xiàn)視頻生成和機器人動作執(zhí)行的閉環(huán)。只要給定連續(xù)兩幀預(yù)測視頻,FM-IDM逆動力學(xué)模型就能夠計算出機器人末端執(zhí)行器的動作變化量,將想象的視頻預(yù)測轉(zhuǎn)化為可執(zhí)行動作,讓AI的想象真正落地。


▲FM-IDM讓模型實現(xiàn)從視頻到行動的閉環(huán)

在泛化能力上,WoW表現(xiàn)突出:無需微調(diào),即可在UR5、Franka、AgileX等不同機器人平臺上執(zhí)行任務(wù),甚至能操作從未見過的物體,比如定制文化衫、氣球等柔性物體等,展現(xiàn)出強大的物理規(guī)律抽象能力。


總而言之,基于Cosmos,Wow實現(xiàn)了“想象世界-理解物理-生成視頻-執(zhí)行動作-再學(xué)習(xí)”的完整閉環(huán),推動AI擁有直覺物理的能力,加快通用機器人的規(guī);涞嘏c泛化。

03.

結(jié)語:擁有對物理世界的想象力,

AI加快成為真正的具身智能體

Cosmos及開發(fā)者基于其構(gòu)建的模型,讓機器人不再只是物理世界的被動觀察者,而是成為能主動想象、理解、行動的智能體,讓人看到了AI真正成為具身智能體的未來。

隨著機器人能像人類一樣通過互動學(xué)習(xí)物理規(guī)律,而不是依賴海量數(shù)據(jù)“死記硬背”,具身智能的終極目標(biāo),讓AI真正理解世界、在現(xiàn)實世界中行動就不再是遙不可及的未來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“斬首”行動細(xì)節(jié)揭秘:美以戰(zhàn)機同地起飛,直撲哈梅內(nèi)伊

“斬首”行動細(xì)節(jié)揭秘:美以戰(zhàn)機同地起飛,直撲哈梅內(nèi)伊

中國新聞周刊
2026-03-02 10:32:04
黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

小陸搞笑日常
2026-03-02 01:34:50
比亞迪3月5日將發(fā)布顛覆性技術(shù) 股價應(yīng)聲大漲超8%

比亞迪3月5日將發(fā)布顛覆性技術(shù) 股價應(yīng)聲大漲超8%

快科技
2026-03-02 14:52:05
涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
歷史首次!中國石油、中國石化、中國海油全部漲停,滬指收漲0.47%丨A股收盤

歷史首次!中國石油、中國石化、中國海油全部漲停,滬指收漲0.47%丨A股收盤

每日經(jīng)濟新聞
2026-03-02 15:25:10
伊朗反擊太快,只給以2小時,導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時,導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

書紀(jì)文譚
2026-03-02 17:24:46
再見,崔龍海!

再見,崔龍海!

IN朝鮮
2026-03-02 15:47:57
特朗普完全沒料到,伊朗不按中國戰(zhàn)術(shù)出牌,挨打最慘的并非以色列

特朗普完全沒料到,伊朗不按中國戰(zhàn)術(shù)出牌,挨打最慘的并非以色列

諦聽骨語本尊
2026-03-02 16:32:16
實探丨水貝金價一日漲超110元/克!中東局勢升級,商家擔(dān)心補不到貨

實探丨水貝金價一日漲超110元/克!中東局勢升級,商家擔(dān)心補不到貨

證券時報
2026-03-02 19:55:22
全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

財聯(lián)社
2026-03-02 10:57:04
霍爾木茲海峽禁航,已有油輪被擊沉!國內(nèi)船企:未接到封鎖消息,正準(zhǔn)備進(jìn)去裝貨

霍爾木茲海峽禁航,已有油輪被擊沉!國內(nèi)船企:未接到封鎖消息,正準(zhǔn)備進(jìn)去裝貨

第一財經(jīng)資訊
2026-03-02 17:30:33
中國游客滯留迪拜:巨型郵輪變海上臨時避難所,5000人被困

中國游客滯留迪拜:巨型郵輪變海上臨時避難所,5000人被困

極目新聞
2026-03-02 19:06:55
“大鵝聲音都啞了還在叫”,廣東女子回娘家崩潰,同行“乘客”叫了整整8小時;網(wǎng)友:最終還是鐵鍋燉

“大鵝聲音都啞了還在叫”,廣東女子回娘家崩潰,同行“乘客”叫了整整8小時;網(wǎng)友:最終還是鐵鍋燉

臺州交通廣播
2026-03-01 10:54:54
伊朗貨幣一夜貶值97%,對普通人來說這否是時代的塵埃落在肩上?

伊朗貨幣一夜貶值97%,對普通人來說這否是時代的塵埃落在肩上?

聞號說經(jīng)濟
2026-03-02 17:08:38
美國中央司令部透露對伊朗動武全部武器裝備清單

美國中央司令部透露對伊朗動武全部武器裝備清單

參考消息
2026-03-02 19:38:24
救命,國產(chǎn)爛片又刷新下限了

救命,國產(chǎn)爛片又刷新下限了

喵喵娛樂團
2026-02-28 16:41:47
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

Thurman在昆明
2026-03-02 01:31:00
繼位姜昆,周煒當(dāng)選曲協(xié)會長后引發(fā)爭議,過往言論被指不妥

繼位姜昆,周煒當(dāng)選曲協(xié)會長后引發(fā)爭議,過往言論被指不妥

小熊侃史
2026-02-28 15:42:23
“研王爺來了”,復(fù)旦考生開出神級分?jǐn)?shù),網(wǎng)友:導(dǎo)師見你都得鎖門

“研王爺來了”,復(fù)旦考生開出神級分?jǐn)?shù),網(wǎng)友:導(dǎo)師見你都得鎖門

妍妍教育日記
2026-03-02 18:11:23
嚴(yán)厲制止網(wǎng)絡(luò)上過度宣揚“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

嚴(yán)厲制止網(wǎng)絡(luò)上過度宣揚“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

葉初七
2026-03-02 17:06:05
2026-03-02 21:11:00
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
378文章數(shù) 8關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普稱對伊行動還要打四周 學(xué)者:達(dá)成目標(biāo)需"補槍"

頭條要聞

特朗普稱對伊行動還要打四周 學(xué)者:達(dá)成目標(biāo)需"補槍"

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

藝術(shù)
游戲
教育
時尚
手機

藝術(shù)要聞

簡約的風(fēng)景畫,美國畫家Ben Bauer作品

手握357靈第一無級別神鏈!夢幻西游東海淵能否劍指神威第一?

教育要聞

26考研調(diào)劑小程序已上線,調(diào)劑快人一步!

推廣|| 春天第一雙鞋!暴走不累、搭遍好看小裙子

手機要聞

盧偉冰回應(yīng)小米新機海外售價1.6萬元:有信心沖擊iPhone!

無障礙瀏覽 進(jìn)入關(guān)懷版