国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國具身模型狂攬全球第一!機器人的人類數(shù)據(jù)時代來了

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

還得是這屆00后,強得可怕!一出手,具身智能就被“整頓”得底朝天。

當別人還在Sim2Real打轉(zhuǎn)時,這支00后帶隊的靈初智能,已經(jīng)開始用近10萬小時人類數(shù)據(jù)暴力拆解。

這個數(shù)字就是放到整個行業(yè)里看,也是遙遙領(lǐng)先。

畢竟目前人類操作數(shù)據(jù)集大多還都集中在幾千到幾萬小時量級,最大的也不過是英偉達的EgoScale,包含2萬小時人類第一視角視頻數(shù)據(jù)。

靈初這次直接上了個新臺階,10萬+數(shù)據(jù),其中1000小時還開源。


視頻鏈接:https://mp.weixin.qq.com/s/Dfj0Z1JiMoTjzSCBassL2Q

而且發(fā)布形式也夠潮——直播show time~

AI博主弗蘭克和靈初智能的00后聯(lián)合創(chuàng)始人陳源培,直接手把手給你剖析的那種。(techblog指路:
https://www.psibot.ai/from-human-skill-to-robotic-mastery/)



言而總之,整場直播我們復(fù)盤下來,就講兩件事:給具身智能喂什么吃、讓具身智能長什么樣的腦子。

說人話就是,靈初給的,是一條與眾不同的務(wù)實路徑——

不整虛的,直接對齊人類數(shù)據(jù),再用Psi-R2Psi-W0雙系統(tǒng)架構(gòu)平穩(wěn)落地具體場景。

結(jié)果也很直觀,靈初Psi-R2迅速登頂MolmoSpace榜單。

MolmoSpace由美國艾倫人工智能研究所(AllenAI)發(fā)起,是全球具身智能領(lǐng)域權(quán)威基準評測平臺,NVIDIA、PI等全球頂尖團隊均參與本次評測。

而靈初Psi-R2在評測中一舉超越PI、DreamZero等國際知名模型,表現(xiàn)也顯著優(yōu)于其他基線模型,妥妥的行業(yè)第一梯隊。

在成功率這塊,也比同類VLA模型要高出近10倍。



情況就是這么個情況,靈初一來就整了個大活,具身智能終于迎來首個直接能用的大規(guī)模人類手部操作全模態(tài)數(shù)據(jù)集。

下面就讓我們回到直播間現(xiàn)場,一一復(fù)盤拆解。

10萬小時,讓具身智能吃個頂飽

“為啥偏偏具身智能會數(shù)據(jù)荒?”弗蘭克化身觀眾嘴替,率先給出這句經(jīng)典靈魂拷問。

要回答這個問題,首先需要厘清一點,具身智能和自動駕駛、大語言模型這些AI領(lǐng)域存在原生的數(shù)據(jù)差異。

后者基于現(xiàn)實場景和互聯(lián)網(wǎng),長期積累沉淀形成了海量存量數(shù)據(jù),然后通過簡單粗暴的算力Scaling law就能實現(xiàn)性能穩(wěn)步提升。

但具身智能則截然不同,物理世界復(fù)雜的情況讓它幾乎沒有可用的成熟數(shù)據(jù)集,也很難像互聯(lián)網(wǎng)產(chǎn)品那樣邊用邊攢數(shù)據(jù)。

可以說,影響具身智能發(fā)展的關(guān)鍵之一就是數(shù)據(jù)卡脖子。

那咋辦呢?以靈初在內(nèi)的具身智能公司紛紛將目光投向人類數(shù)據(jù)



仿真數(shù)據(jù)還需要遷移處理,才能在真實機器人上使用,但人類數(shù)據(jù)就是最優(yōu)秀的參考對象,數(shù)據(jù)量大而且質(zhì)量高。

但事實上,這里也同樣存在一個無法忽視的問題:人類和機器人之間存在本體差異(embodiment gap)。

直接復(fù)用顯然不行,機器人必定會出現(xiàn)運動學(xué)結(jié)構(gòu)、動力學(xué)特性不匹配種種問題。

其次,現(xiàn)有的人類數(shù)據(jù)要直接給到預(yù)訓(xùn)練,也是萬萬不行的。因為要么都是些小規(guī)模開源數(shù)據(jù),要么就是網(wǎng)絡(luò)上一些低質(zhì)量的第一人稱視頻。

但除去人類數(shù)據(jù),也幾乎沒有其它更好的路徑可走。靈初給出的判斷是:

具身智能要想面向真實商業(yè)化場景落地,純?nèi)祟悢?shù)據(jù)訓(xùn)練是必要的。

一方面,使用人類數(shù)據(jù)能夠讓機器人搶先學(xué)習到人類一線的標準作業(yè)流程(SOP),而這些都是得到商業(yè)實際驗證過的,即拿即用且行之有效。

換言之,真實場景的無縫銜接能夠?qū)?shù)據(jù)成本降至最低,比如人類的觸覺數(shù)據(jù)收集成本,就僅為機器人的1/10以下。

另一方面,人類數(shù)據(jù)的SOP也可以使操作速度達到機械臂物理運動上限(如1200),遠超遙操作可達的800,也更適配商業(yè)工廠的高節(jié)拍要求。



所以靈初最終選擇了人類數(shù)據(jù),并造出了首個可用于預(yù)訓(xùn)練的大規(guī)模人類操作數(shù)據(jù)集。

其中,在人類數(shù)據(jù)和機器人數(shù)據(jù)的融合處理中,靈初遵循的是一條化繁為簡的思路:Raw Data In,Raw Data Out(原生數(shù)據(jù)進,原生數(shù)據(jù)出)。

舍棄人工設(shè)計的復(fù)雜數(shù)據(jù)處理,直接進行人類關(guān)節(jié)與機器人本體的運動學(xué)對齊,讓模型在海量數(shù)據(jù)中自行探索。另外,Auto Labeling也會替代人工進行數(shù)據(jù)質(zhì)檢和標注,最后再交由人工審核。

最終模型預(yù)訓(xùn)練使用的數(shù)據(jù)集將包括真機數(shù)據(jù)(5417小時)和人類數(shù)據(jù)(95472小時)兩部分,總計10萬小時數(shù)據(jù)。

目前其中1000小時已開源,到年底整個數(shù)據(jù)集還將Scaling到百萬量級。

具體來講,人類數(shù)據(jù)包括靈初自研外骨骼手套采集數(shù)據(jù)與裸手操作數(shù)據(jù),覆蓋294種場景、4821種任務(wù)與1382種物體。



至于為什么要強調(diào)觸覺數(shù)據(jù)呢?歸根結(jié)底,還是為了更好地彌補人機之間的embodiment gap。

雖然人類與機器人在多個方面差異明顯,但二者在接觸信號上卻保持了驚人的高度一致,能夠有效補償動力學(xué)差異,以及在顯著提升世界模型能力的同時,還能更好地預(yù)測機器人與物體之間的交互情況。

這樣一整套高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練下來,機器人的泛化能力、長流程操作能力和操作精度都會有所突破,后續(xù)也僅僅只需要不到100條軌跡的真機數(shù)據(jù)就能完成微調(diào)。

另外值得關(guān)注的是,靈初在此期間,還發(fā)現(xiàn)了另一處華點:

數(shù)據(jù)信噪比才是決定人類數(shù)據(jù)能否有效支撐預(yù)訓(xùn)練的核心因素。低信噪比的數(shù)據(jù)甚至還會起到反作用。

如果要想判斷數(shù)據(jù)信噪比,可以從兩方面看:

1、數(shù)據(jù)集分布:操作任務(wù)多樣性>物體多樣性>>場景多樣性。

泛化能力其實是模型最難學(xué)會的能力之一,但如果在預(yù)訓(xùn)練階段可以見到更多任務(wù)和操作對象,自然而然模型接手新任務(wù)速度就越快。

2、感知模態(tài):精準3D位姿>>觸覺模態(tài)>2D圖像特征。

在全模態(tài)信息中,人手全域3D位姿追蹤是2D到3D模型轉(zhuǎn)化的關(guān)鍵,也和機器人動力學(xué)特性匹配度最高。



簡單來說,靈初認為無論是精準采集的可復(fù)現(xiàn)數(shù)據(jù),還是舍棄部分精度的粗糙泛化數(shù)據(jù),都缺一不可。

二者相互補充,既保證模型精度又確保泛化。

具身智能長出雙系統(tǒng)新腦

所以基于以上認知,靈初全新發(fā)布Psi雙系統(tǒng)架構(gòu)——Psi-R2Psi-W0。



先看Psi-R2,這是一款能讓機器人學(xué)習人類做事的模型,核心就是靠這10萬+的海量數(shù)據(jù),學(xué)會精細操作。

圖像和語言指令將作為輸入,輸出預(yù)測的未來操作視頻和可執(zhí)行動作,所以Psi-R2可以稱之為世界行動模型(WAM)。

其中訓(xùn)練骨干網(wǎng)絡(luò)選用Wan2.2-IT2V-5B-480P,預(yù)訓(xùn)練階段同步使用真機數(shù)據(jù)和人類數(shù)據(jù),還搭建了一套完整的數(shù)據(jù)處理流程,從數(shù)據(jù)清洗、自動標注,到質(zhì)量檢測、人工核對,Psi-W0還會幫忙檢查數(shù)據(jù)質(zhì)量。

同時,采用專門技術(shù)精準捕捉人類手部動作軌跡,比如通過外骨骼手套,將動作誤差控制在亞毫米級,以確保人類的操作細節(jié)能被機器人精準模仿。


視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-

但WAM模型架構(gòu)普遍存在一個bug——反應(yīng)慢。單次推理要2.2秒,反映到機器人身上,就是明顯的卡頓。

于是靈初通過DiT緩存、Torch編譯、模型量化等多項技術(shù)優(yōu)化,把反應(yīng)時間極限壓縮到了100毫秒以內(nèi)。

再看Psi-W0,它和Psi-R2的基礎(chǔ)架構(gòu)相似,但分工完全不同。Psi-R2是學(xué)習怎么做,Psi-W0是協(xié)助做得更好。

首先它和Psi-R2一樣,都是基于預(yù)訓(xùn)練視頻生成模型構(gòu)建的,但在Psi-W0里,機器人動作是輸入,輸出的是對未來場景視頻的預(yù)測,所以Psi-W0也被定義為動作條件型世界模型(AC-WM)。

這里就引出了另一個問題:Psi-R2也能輸出預(yù)測,那為什么還要做Psi-W0?

答案很簡單,為了反事實推理。Psi-R2學(xué)到的只有成功的操作,比如成功抓起蘋果,但沒有辦法預(yù)測到蘋果抓不穩(wěn)這類失敗情況。

但老話說得好,失敗是成功之母,機器人亦是如此。失敗經(jīng)驗?zāi)軌驇椭鷻C器人避開錯誤、優(yōu)化動作,Psi-W0就是專門負責填補這部分空白。

具體來講,兩個模型的訓(xùn)練骨干和數(shù)據(jù)格式都是一致的,只是在Psi-W0的訓(xùn)練數(shù)據(jù)中額外加入了30%的失敗樣本。


視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-

顯然,Psi-R2和Psi-W0并非孤立存在,而是彼此之間協(xié)同配合。當Psi-R2學(xué)完人類操作后,Psi-W0就會模擬人類操作場景,讓Psi-R2再演練一遍,也就是進行策略評估,檢查它有沒有學(xué)漏學(xué)歪。

Psi-W0還有一項核心功能,是通過強化學(xué)習將人類數(shù)據(jù)轉(zhuǎn)換為機器人數(shù)據(jù)。

傳統(tǒng)方法中,數(shù)據(jù)轉(zhuǎn)換靠的是仿真環(huán)境調(diào)整,不僅復(fù)雜而且準確性不高。但用Psi-W0替代后,它就會模擬機器人視角和動作模式,再通過強化學(xué)習的試錯調(diào)優(yōu),將人類動作調(diào)整為機器人能精準執(zhí)行的動作。



更厲害的是,在這個過程中還能持續(xù)生成新的優(yōu)質(zhì)數(shù)據(jù),當把這些數(shù)據(jù)反向喂給Psi-R2和Psi-W0繼續(xù)學(xué)習,就能構(gòu)成閉環(huán)數(shù)據(jù)飛輪

當然也可以故意給Psi-W0進行隨機擾動以模擬部分特殊場景,然后再生成目標場景和訓(xùn)練數(shù)據(jù)。

高質(zhì)量數(shù)據(jù)滋養(yǎng)模型高性能,模型場景落地反哺數(shù)據(jù)擴充。于是自然而然,輪子飛起來了。

最終整套系統(tǒng)能夠?qū)崿F(xiàn)長程任務(wù)自主規(guī)劃、任務(wù)自主恢復(fù)和適配多場景復(fù)雜任務(wù)。

開源是最高效的落地杠桿

回看整場直播,無論是弗蘭克還是陳源培聊的內(nèi)容,其實貫穿技術(shù)始終的都是同一個關(guān)鍵詞——落地。

弗蘭克站在觀眾角度,好奇什么時候具身智能才能落地。陳源培則站在廠商視角,給出了靈初智能的落地方案:

技術(shù)端,從大規(guī)模的真實人類數(shù)據(jù)采集,再到實際應(yīng)用中的具身模型,無一不是從切實的落地場景中出發(fā)構(gòu)建。

應(yīng)用端,靈初智能也同時宣布要和北京石景山共建數(shù)采廠,以及和騰訊云、抖音、覓蜂、智域基石達成生態(tài)合作。



不難看出,靈初這家公司從誕生之初的DNA就是聚焦技術(shù)落地、提供通用全棧技術(shù)。它的每一步都在驗證一個行業(yè)共識:

具身智能從誕生之初就錨定的終點,絕非實驗室,而是每一個具體可感的復(fù)雜場景。而這恰恰才是檢驗具身智能的標準所在。

在通往落地的過程中,靈初也率先意識到,單打獨斗并非最優(yōu)解,開源是必要的。

對于它們自身而言,只有開源,才能讓全行業(yè)幫助他們快速采集海量數(shù)據(jù),才能彌補上這套數(shù)據(jù)飛輪體系中的關(guān)鍵一環(huán)。

而且AI時代,時間和數(shù)據(jù)就是最稀缺的黃金資源。越早進場、擁有越多數(shù)據(jù),就能搶先收獲長尾效益。

再放眼整個行業(yè),開源不僅是情懷,也是打破技術(shù)封閉孤島的鑰匙。它能夠建立起廣袤的開發(fā)者生態(tài),通過標準化的數(shù)據(jù)管線和預(yù)訓(xùn)練底座,讓具身智能不再是孤立的廠商個體。

而全行業(yè)開源共建,還能反向喂養(yǎng)靈初這類硬核玩家,讓他們集中精力攻堅最難的技術(shù)瓶頸。集眾智,才是具身智能跑贏節(jié)拍、實現(xiàn)商業(yè)落地的唯一捷徑。



而靈初無疑是當中走得最快最穩(wěn)的一位明星選手。

最后化用一句老話,用來描述我眼中的靈初智能——有仰望星空的勇氣,亦有腳踏實地的努力。

具身智能正在因這場青春風暴而面目一新。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
35億賭國運!阿聯(lián)酋落井下石,逼迫巴基斯坦還債,沙特百億馳援

35億賭國運!阿聯(lián)酋落井下石,逼迫巴基斯坦還債,沙特百億馳援

南宗歷史
2026-04-12 05:09:29
中植系重磅消息!

中植系重磅消息!

新浪財經(jīng)
2026-04-12 01:14:20
靠結(jié)婚化債的小仙女越來越多了!

靠結(jié)婚化債的小仙女越來越多了!

黯泉
2026-04-12 17:20:57
鄭麗文返回前,大陸發(fā)出通告,傅崐萁果斷發(fā)聲,并將前往接機!

鄭麗文返回前,大陸發(fā)出通告,傅崐萁果斷發(fā)聲,并將前往接機!

天氣觀察站
2026-04-12 18:02:40
特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

參考消息
2026-04-11 19:52:15
王珞丹現(xiàn)狀:搬進深山生活,母親不再催婚,41歲和兩只狗相依為命

王珞丹現(xiàn)狀:搬進深山生活,母親不再催婚,41歲和兩只狗相依為命

冷紫葉
2026-04-11 16:48:00
難怪鄭麗文11號如此輕松,訪問最后一天大陸出臺十項對臺惠民措施

難怪鄭麗文11號如此輕松,訪問最后一天大陸出臺十項對臺惠民措施

阿龍聊軍事
2026-04-12 12:23:14
18歲澳洲小將高特200米跑出19秒67,超越同齡博爾特

18歲澳洲小將高特200米跑出19秒67,超越同齡博爾特

懂球帝
2026-04-12 15:54:38
《生活大爆炸》演員!

《生活大爆炸》演員!

下水道男孩
2026-04-10 22:44:25
印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

離離言幾許
2026-04-10 14:51:25
超越易建聯(lián)!北京隊長翟曉川迎626場里程碑 升CBA歷史第11

超越易建聯(lián)!北京隊長翟曉川迎626場里程碑 升CBA歷史第11

醉臥浮生
2026-04-12 19:38:36
伊朗副議長說霍爾木茲海峽是“紅線”,完全由伊朗掌控

伊朗副議長說霍爾木茲海峽是“紅線”,完全由伊朗掌控

界面新聞
2026-04-12 15:36:39
官媒發(fā)文!高調(diào)官宣50歲撒貝寧喜訊,與李白婚變傳聞早就真相大白

官媒發(fā)文!高調(diào)官宣50歲撒貝寧喜訊,與李白婚變傳聞早就真相大白

涵豆說娛
2026-04-12 01:26:22
萬科全員降薪

萬科全員降薪

地產(chǎn)微資訊
2026-04-11 13:46:45
美國副總統(tǒng)萬斯與巴基斯坦總理舉行會談

美國副總統(tǒng)萬斯與巴基斯坦總理舉行會談

澎湃新聞
2026-04-11 20:03:07
女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

世界圈
2026-04-12 00:10:16
小米食堂發(fā)布新品“小米”冰激凌:標準、Pro、Max版,售價分別為5.99元、6.99元、8.99元

小米食堂發(fā)布新品“小米”冰激凌:標準、Pro、Max版,售價分別為5.99元、6.99元、8.99元

魯中晨報
2026-04-10 09:32:05
親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對生死的認知

親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對生死的認知

古怪奇談錄
2025-09-09 14:36:35
火藥味十足,拉什福德打進第四球后加維模仿皮克比“四指山”

火藥味十足,拉什福德打進第四球后加維模仿皮克比“四指山”

懂球帝
2026-04-12 12:23:20
黃金白銀銷量暴跌,市場劇烈震蕩

黃金白銀銷量暴跌,市場劇烈震蕩

新浪財經(jīng)
2026-04-12 12:36:52
2026-04-12 21:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12460文章數(shù) 176449關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產(chǎn):尊重同行

頭條要聞

上海阿婆被"干兒子"分80次轉(zhuǎn)走95萬氣癱 畢生積蓄沒了

頭條要聞

上海阿婆被"干兒子"分80次轉(zhuǎn)走95萬氣癱 畢生積蓄沒了

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

時尚
游戲
房產(chǎn)
旅游
公開課

臺灣票房第一,讓人邊哭邊罵?

誠意不足!《星空》新DLC褒貶不一:性價比太差

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

旅游要聞

秀美風光匯成“?!保本┟茉瓢l(fā)布城市新名片

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版