国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智在無界發(fā)布最強具身世界模型,20萬小時人類視頻屠榜6大榜單

0
分享至



機器之心發(fā)布

「人類視頻,是機器人理解并與物理世界交互的最關(guān)鍵路徑?!?/strong>

這句如今逐漸成為行業(yè)共識的判斷,其實最早來自一家國內(nèi)具身智能初創(chuàng)公司 ——BeingBeyond(智在無界)。

在過去半年中,這家公司完成了「海量人類視頻訓練」的兩個重要里程碑:相繼發(fā)布了全球首個基于1000 小時1 萬小時人類視頻預訓練的具身模型 —— Being-H0 與 H0.5,率先開辟了「大規(guī)模人類視頻驅(qū)動具身學習」的技術(shù)路線。

隨后,NVIDIA 的 EgoScale、Generalist AI 的 GEN-1 等海外工作陸續(xù)跟進,也從側(cè)面印證了這一方向的前瞻性。

作為人類視頻學習路線的開創(chuàng)者,4 月 14 日,智在無界發(fā)布第三代旗艦模型 Being-H0.7,該模型將數(shù)據(jù)規(guī)模擴展至20 萬小時人類視頻,并提出一種全新的范式 ——基于潛空間推理的世界模型。在 6 項國際性權(quán)威評測中,H0.7 綜合排名全球第一(其中 4 項登頂),同時也是首個覆蓋跨本體、跨場景、連續(xù)動態(tài)、流體、柔性物體、物理規(guī)律與上下文推理等七大關(guān)鍵維度的通用世界模型。



  • 主頁鏈接:
  • https://research.beingbeyond.com/being-h07
  • 論文鏈接:
  • https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

Past?Present?Future

世界模型的分野

「世界模型(World Model)」最初其實是一個非常樸素的概念:給定當前狀態(tài)和動作,預測下一時刻的狀態(tài)。



早在 2018 年, Jürgen Schmidhuber 就在其《World Models》中系統(tǒng)闡述了用神經(jīng)網(wǎng)絡建模動力學的思路。但隨著生成模型的發(fā)展,一個逐漸流行的誤解也隨之出現(xiàn):世界模型 = 預測未來畫面(逐像素生成)。

事實上,無論是 Schmidhuber 的原始設(shè)想,還是 Yann LeCun 團隊在 JEPA (Joint Embedding Predictive Architecture),都從未將「像素級預測」視為核心目標。

原因很簡單,真實世界的「狀態(tài)」,遠遠不等同于像素。物體之間的空間關(guān)系、柔性物體的形變、液體的流動、摩擦與重力的作用…… 這些決定物理世界運行的關(guān)鍵因素,并不能通過逐像素的圖像完全表達。世界模型不應執(zhí)著于復現(xiàn)「畫面會變成什么樣」,而應學會理解「世界為什么會這樣變化」。

從產(chǎn)業(yè)角度看,NVIDIA 當前的世界模型工作在一定程度上回歸到視頻生成路線,這與其「算力提供方」的角色天然形成協(xié)同,但對具身智能而言,這并非最優(yōu)路徑。

智在無界認為,一個理想的世界模型應同時具備兩個核心能力:物理世界理解(Physical Understanding)與物理交互(Physical Interaction)。



現(xiàn)有 AI 模型范式在「物理理解–交互」坐標系中的能力分布,Being-H0.7 在海量人類數(shù)據(jù)驅(qū)動下顯著拓展了世界模型的能力邊界。

按照這一標準回看過去幾年的 AI 發(fā)展路徑:從 LLM 到 VLM,再到 AIGC 時代的 Sora、Genie 3,這些模型對視覺世界的理解不斷加深,但始終停留在二維感知層面,缺乏與真實物理世界的交互能力。

近幾年,隨著 VLA 路線的興起,π0.5、GR00T、Being-H0.5 等模型通過在視覺語言模型上微調(diào),直接輸出機器人動作。雖然這讓模型具備了執(zhí)行任務的能力,但也帶來了新的問題:在訓練過程中,多模態(tài)理解能力往往被削弱,模型容易過擬合,很多時候是在「背答案」,而非真正基于環(huán)境做出判斷。

為彌補這一缺陷,以英偉達 Cosmos-Policy、DreamZero 為代表的世界模型路線,嘗試通過視頻生成來建模交互。但這類方法不僅計算開銷巨大、難以實時運行,而且基于二維視覺表征的方式,本質(zhì)上仍然難以真正理解物理世界。

在這樣的背景下,LeCun (AMI Labs) 提出,應構(gòu)建更加基礎(chǔ)的世界模型,以提升對真實世界的理解能力。而智在無界則更進一步,提出基于潛空間推理的全新范式,同時拓展世界模型在「理解」和「交互」兩個維度上的能力。

20 萬小時人類視頻

H0.7 的「通用世界模型基因」

傳統(tǒng) VLA 模型只能基于當前觀測預測動作,缺乏對未來變化的建模能力;而視頻生成式世界模型則依賴像素級預測來「想象」未來,但不僅難以抽象物理規(guī)律,還帶來了巨大的計算負擔。

事實上,人類視覺系統(tǒng)天然會過濾靜態(tài)信息、強化對動態(tài)變化的感知,大腦中也存在專門處理運動的區(qū)域,用于自動抑制背景干擾?;谶@一認知,Being-H0.7 不再追求像素級重建,而是試圖學習一種更高效的能力 —— 類似「物理直覺」的快速判斷機制。

因此,Being-H0.7 選擇了一條不同路徑:不再顯式生成未來畫面,而是提煉那些真正影響未來行動的關(guān)鍵信息。

不同于 VLA 從當前觀察直接映射到動作,或視頻生成式世界模型引入龐大的預測模塊,Being-H0.7 在模型內(nèi)部引入了一組可學習的中間變量(latent queries),作為一塊預留的「思考空間」(latent reasoning)。在前向的過程中,模型將當前觀測、任務目標以及對未來可能演化的判斷壓縮至這一空間,并由其統(tǒng)一指導最終的動作生成。



但這一「思考空間」本身并不天然具備對未來的建模能力。為此,Being-H0.7 采用了雙分支設(shè)計:一條路徑在「未來可見」的條件下(后驗視角,posterior branch),引導模型學習哪些中間判斷真正有助于動作決策;另一條路徑在「不可見未來」的真實部署條件下(先驗視角,prior branch),約束模型僅基于當前觀測形成盡可能一致的判斷。

不同于一些工作簡單地將未來信息單向注入世界模型,Being-H0.7 在這兩種視角之間建立持續(xù)對齊與相互約束:后驗分支提供未來演化的監(jiān)督信號,先驗分支嚴格受限于真實可觀測信息。通過不斷對齊,模型逐漸學會在「思考空間」中,自適應地根據(jù)當前情景,推理對后續(xù)行動真正有用的信息。

這種推理能力,本質(zhì)上接近于人類的「物理直覺」。現(xiàn)實世界中,人類并不會逐幀預測未來畫面,而是快速判斷:物體接下來會朝哪個方向運動?接觸關(guān)系會如何變化?施加的力會帶來穩(wěn)定還是失衡?交互過程會推進目標還是偏離?

人類之所以能夠在很少試錯的情況下掌握這些能力,是因為這種「直覺」早已在長期進化中內(nèi)化為本能。

相比之下,僅依賴實驗室數(shù)據(jù)的機器人系統(tǒng)很難獲得這種能力,更難實現(xiàn)泛化?;谶@一洞察,智在無界構(gòu)建了全球少有的 20 萬小時人類視頻數(shù)據(jù)集,并據(jù)此訓練 Being-H0.7,使模型獲得類似「預訓練基因」的能力,從而真正理解并改變物理世界。



在實現(xiàn)上,H0.7 的結(jié)構(gòu)反而相對簡潔:兩路視角通過注意力掩碼(attention mask)共享主干上下文,只在 latent queries 處進行對齊,并共同接受動作監(jiān)督。未來信息無需解碼為未來圖像,而以緊湊表征參與訓練。相比 Cosmos Policy 這類視頻生成式世界模型,H0.7 的訓練成本不到其 1%。

另外一個強大的優(yōu)勢則是推理速度的顯著提升,是 Fast-WAM 的 11 倍,是 imagine-then-execute 這類生成式世界模型的 40 倍以上,Being-H0.7是世界上第一個能夠在端側(cè)設(shè)備上實時穩(wěn)定部署的世界模型。強大的推理能力賦予了 H0.7 對于外界動態(tài)快速的感知能力,能完成如判斷滑落小球軌跡、高速流水線包裝、液體準確傾倒等這些之前 VLA、世界模型都難以勝任的任務。



在評測方面,不同于多數(shù)模型只在單一榜單評測,Being-H0.7 在 6 項全球權(quán)威評測榜單上綜合排名世界第一,是目前覆蓋范圍最廣的具身世界模型。在跨本體、跨場景、連續(xù)動態(tài)、流體、柔性物體、物理規(guī)律與上下文推理等七大關(guān)鍵維度上,Being-H0.7 均展現(xiàn)出領(lǐng)先的物理理解與泛化能力,其能夠完成復雜的多物體協(xié)作、長時序規(guī)劃與精細物理交互任務。



為直觀地展示 Being-H0.7「思考空間」中所包含的信息,可以進一步將觀測圖像與 Being-H0.7 先驗分支的中間變量共同作為條件,基于視頻模型對任務未來狀態(tài)進行可視化預測。

盡管 Being-H0.7 在推理時并不顯式進行像素級未來重建,其隱空間表征中已經(jīng)蘊含了對未來世界狀態(tài)的預測,體現(xiàn)出「隱式具身世界模型」的核心特征。



真機實驗部分,Being-H0.7 借助世界模型架構(gòu),展現(xiàn)出了令人驚喜的表現(xiàn)。做到了更精準的空間感知、物理理解和運動推理能力,更具體地講,實現(xiàn)了以下幾種物理世界級的理解和交互能力:

  • 動態(tài)軌跡預測:在高速動態(tài)場景下,Being-H0.7 借助物理世界知識和快速推理,能夠預測物體軌跡并精準完成物理世界交互;



  • 物理規(guī)律理解:Being-H0.7 通過大規(guī)模預訓練構(gòu)建了豐富的世界知識,能夠準確理解流體物理規(guī)律并完成復雜任務指令;



  • 運動推理能力:Being-H0.7 具備物理世界下的動力學推理能力,能夠準確推理物體交互后的空間方位并規(guī)劃好動作。



基于以上能力,Being-H0.7 能夠完成高速運動物體的追蹤和接取、精細流體控制、柔性物體交互等高挑戰(zhàn)性的任務。



文中視頻鏈接:https://mp.weixin.qq.com/s/4GBE4mjEPHVakZ0sGbuKlg

世界模型的再定義:從 AMI Labs 到 BeingBeyond

Our main goal is to build intelligent systems that understand the real world —— AMI Labs

面對這一愿景,作為開啟「大規(guī)模人類視頻驅(qū)動具身學習」這一路線的先行者,BeingBeyond 創(chuàng)始人盧宗青表示:

理解世界不夠,必須學會改變世界。物理世界的理解與交互是不可分割的。如果一個模型只學習「世界會變成什么樣」,而不學習「采取什么行動會導致這種變化」,它本質(zhì)上仍然是一個被動觀察者,容易退化為「缸中之腦」。

因此,不同于 LeCun,智在無界采用的技術(shù)路徑是:同時建模狀態(tài)變化與動作生成(joint prediction of state and action)。在數(shù)據(jù)層面,這一設(shè)計自然對應于第一人稱人類視頻,它不僅提供視覺觀測,同時也包含了人類動作。這樣的數(shù)據(jù)可規(guī)模化獲取,天然適用于具身學習。因而,我認為,大規(guī)模人類視頻是通向具身基礎(chǔ)模型的一條可行路徑,使機器人能夠從人類行為中學習如何理解并作用于物理世界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不打了!恩比德附加賽報銷!76人遭遇最大危機

不打了!恩比德附加賽報銷!76人遭遇最大危機

籃球教學論壇
2026-04-14 14:21:31
緊急!即日起中小學全面嚴查!教師、家長、學生三類人紅線碰不得

緊急!即日起中小學全面嚴查!教師、家長、學生三類人紅線碰不得

糖逗在娛樂
2026-04-13 16:35:12
又一知名演員去世

又一知名演員去世

無錫eTV全媒體
2026-04-14 05:53:10
現(xiàn)役球星進入季后賽次數(shù)!詹姆斯19次,杜蘭特14次,哈登創(chuàng)紀錄

現(xiàn)役球星進入季后賽次數(shù)!詹姆斯19次,杜蘭特14次,哈登創(chuàng)紀錄

兵哥籃球故事
2026-04-14 13:58:11
上海男籃沖擊20連勝!盧偉拒絕爆冷,懷特塞德回歸,央視直播

上海男籃沖擊20連勝!盧偉拒絕爆冷,懷特塞德回歸,央視直播

體壇瞎白話
2026-04-14 10:42:39
寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

王新喜
2026-04-13 10:45:56
巴基斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

巴基斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

荷蘭豆愛健康
2026-04-14 12:34:02
鄭麗文滿載而歸!藍營集體倒戈,柯志恩直接變臉,鄭麗文預言成真

鄭麗文滿載而歸!藍營集體倒戈,柯志恩直接變臉,鄭麗文預言成真

阿纂看事
2026-04-13 17:38:48
6.8萬紫貂被扯壞后續(xù):女子丟工作后道歉,黑歷史被扒,全網(wǎng)社死

6.8萬紫貂被扯壞后續(xù):女子丟工作后道歉,黑歷史被扒,全網(wǎng)社死

小徐講八卦
2026-04-12 15:43:13
演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

韓小娛
2026-04-14 09:56:38
中央定調(diào)!養(yǎng)老金22連漲穩(wěn)了,但漲幅或許讓人意外

中央定調(diào)!養(yǎng)老金22連漲穩(wěn)了,但漲幅或許讓人意外

小談食刻美食
2026-04-14 08:04:47
Taylor Swift 霉霉在健身房,鍛煉健康體格

Taylor Swift 霉霉在健身房,鍛煉健康體格

下水道男孩
2026-04-11 23:22:29
炸了!2026有線電視8類收費全取消,以后看電視再也不花冤枉錢!

炸了!2026有線電視8類收費全取消,以后看電視再也不花冤枉錢!

小蜜情感說
2026-04-14 12:22:54
何超蕸私生活曝光!信德員工證實:相伴多年伴侶,3位密友陪伴

何超蕸私生活曝光!信德員工證實:相伴多年伴侶,3位密友陪伴

一盅情懷
2026-04-14 09:47:33
首輪“火湖”大戰(zhàn)看好誰?23.8w網(wǎng)友投票:結(jié)果一針見血!

首輪“火湖”大戰(zhàn)看好誰?23.8w網(wǎng)友投票:結(jié)果一針見血!

運籌帷幄的籃球
2026-04-14 14:43:18
騎士躺贏了,季后賽對手核心大將受傷,他們晉級半決賽板上釘釘

騎士躺贏了,季后賽對手核心大將受傷,他們晉級半決賽板上釘釘

野渡舟山人
2026-04-14 13:59:59
錢再多也沒用!浙江55歲富婆"黑馬"去世,死因曝光,名下眾多公司

錢再多也沒用!浙江55歲富婆"黑馬"去世,死因曝光,名下眾多公司

閱微札記
2026-04-13 17:06:03
伊朗軍方:地區(qū)港口安全“要么屬于所有人,要么不屬于任何人”

伊朗軍方:地區(qū)港口安全“要么屬于所有人,要么不屬于任何人”

每日經(jīng)濟新聞
2026-04-13 15:54:12
中央候補委員新職務明確!七個省級黨委組織部部長調(diào)整

中央候補委員新職務明確!七個省級黨委組織部部長調(diào)整

上觀新聞
2026-04-14 11:58:06
霍爾木茲海峽又變天了,三個國家的巨輪在通行,特朗普不高興了

霍爾木茲海峽又變天了,三個國家的巨輪在通行,特朗普不高興了

奇思妙想生活家
2026-04-13 17:49:20
2026-04-14 15:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12756文章數(shù) 142626關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

恒大集團、恒大地產(chǎn)及許家印案開庭 許家印認罪悔罪

頭條要聞

恒大集團、恒大地產(chǎn)及許家印案開庭 許家印認罪悔罪

體育要聞

他做對了所有事,卻被整個職業(yè)網(wǎng)壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財經(jīng)要聞

許家印受審當庭表示認罪悔罪

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

態(tài)度原創(chuàng)

家居
旅游
藝術(shù)
教育
健康

家居要聞

現(xiàn)代融合 自然靈動

旅游要聞

申然:塞班軍艦島,一眼淪陷的藍綠秘境

藝術(shù)要聞

這位美女畫家的夏天竟如此夢幻

教育要聞

2026高考考生注意!7所高校全部啟動

干細胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進入關(guān)懷版