国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

訓(xùn)具身模型遇到的很多問題,在數(shù)據(jù)采集時就已經(jīng)注定了丨鹿明丁琰

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

“我們只交付100%可以復(fù)現(xiàn)的軌跡?!?/p>

具身智能創(chuàng)企鹿明機器人媒體溝通會上,聯(lián)席CTO丁琰對具身智能數(shù)據(jù)采集現(xiàn)狀、困境,以及最新興的采集方式UMI作了前沿的深度分享。

他在分享中反復(fù)強調(diào),很多團隊以為具身模型訓(xùn)不出來是卡在訓(xùn)練階段,實際多數(shù)問題在數(shù)據(jù)生成的起點就已經(jīng)埋下了。后面再堆模型、堆算力,只是在給錯誤輸入繼續(xù)加速。

丁琰的履歷能解釋他為什么會把“數(shù)據(jù)的可訓(xùn)練性”看得這么重。

他的研究方向是機器人學(xué)與具身智能,2024年3月從美國紐約州立大學(xué)計算機學(xué)院博士畢業(yè)。去年年底加入鹿明之前,他做過一星機器人的CTO,更早則在上海AI Lab擔(dān)任研究員。

按他的說法,從2024年3月起,他就持續(xù)投入UMI方向,是大陸最早做UMI方向的人。



UMI全稱叫Universal Manipulation Interface,最早來自斯坦福在2024年2月提出的一套工作。

其核心是用與具體機器人本體解耦的方式,記錄人類在真實物理世界中的操作行為,把“操作意圖+運動軌跡+多模態(tài)感知”統(tǒng)一到一個通用接口里,供不同形態(tài)的機器人學(xué)習(xí)和復(fù)現(xiàn)。

在去年9月之前,UMI還是一個偏冷門的方向。

具身智能進入下半場后,數(shù)據(jù)的重要性與日俱增。

丁琰分享道,前段時間有人歸納了具身智能在解決數(shù)據(jù)難題時的四種解法

  • 遙操作數(shù)據(jù),最著名的代表是智元機器人。
  • 仿真數(shù)據(jù),代表公司是銀河通用機器人。
  • 人類視頻數(shù)據(jù),它石智能就是這種解法的代表。
  • UMI,去年9月開始冒頭,鹿明就是代表性公司。

鹿明基于現(xiàn)實需求,做出了一個名為FastUMI Pro的產(chǎn)品,這是一個無本體數(shù)采硬件。

系統(tǒng)適配市面主流機械臂和夾爪,機身重量在600多克量級,但能夾起兩三公斤物品,場景覆蓋工廠與家庭。

它還支持多模態(tài)輸入,包括觸覺、聽覺、六維力等。

在UMI設(shè)備最核心的空間精度上,丁琰稱FastUMI Pro的1mm是“全球最高精度”。



硬件產(chǎn)品背后,還有鹿明布局的數(shù)據(jù)采集、模型訓(xùn)練生態(tài)。

以“可復(fù)現(xiàn)”作為第一性原理做數(shù)據(jù)治理,丁琰帶領(lǐng)團隊建立了8道工業(yè)級數(shù)據(jù)質(zhì)量評估體系,并承諾只交付100%可復(fù)現(xiàn)軌跡。

(以下為丁琰分享的關(guān)于具身行業(yè)數(shù)采、UMI等相關(guān)內(nèi)容,在不改變原意的基礎(chǔ)上作了編輯調(diào)整)

具身數(shù)采的現(xiàn)存痛點

2024年3月起,我就開始在做UMI,應(yīng)該是大陸最早做這一塊的人。

大家都知道,具身智能最關(guān)鍵的就是數(shù)據(jù),海量的數(shù)據(jù)是訓(xùn)練的一個必經(jīng)之路。

但是數(shù)據(jù)現(xiàn)在有很多痛點。

第一個痛點就是成本,成本異常高昂。

美國那邊,為了采集一個小時的訓(xùn)練數(shù)據(jù),大概要付出100-200美金的成本。

現(xiàn)在的具身模型都還很小,PI 0的訓(xùn)練數(shù)據(jù)大概是1萬個小時,Generalist的GEN 0是27萬個小時。這個規(guī)模對比GPT-3的訓(xùn)練數(shù)據(jù),還是非常小的。

我們做了一個統(tǒng)計,大概相當(dāng)于7.9億個小時的數(shù)據(jù),才能在具身智能界訓(xùn)出一個GPT-3規(guī)模的模型。按照現(xiàn)在的市場價格,需要耗費數(shù)百億美金。



另外,具身數(shù)據(jù)整體采集效率還是比較低的。

2023年到2024年左右,業(yè)內(nèi)都是以遙操為主,一個小時大概能采集35條數(shù)據(jù),效率異常低,成本也不可控。

遙操還有個問題是什么呢,就是采集時,因為攝像頭記錄的是機械臂本身的運動軌跡和畫面,但每家機器人長得又都不一樣,所以用A機器人做遙操作采集的數(shù)據(jù)是很難很難用到B機器人上的,這就產(chǎn)生了數(shù)據(jù)孤島問題。

大家重復(fù)造輪子,也會造成高昂的隱形成本。

這是我們想解決的關(guān)鍵問題所在。

用UMI數(shù)采,你為什么訓(xùn)不出來模型?

前段時間我寫了一篇小紅薯,題目叫《你為什么訓(xùn)練不出來UMI的模型?》。

我想就這次機會簡單跟大家介紹一下UMI行業(yè)的現(xiàn)狀。大家可能看到的更多的是冰山的一角,但浮在水下面的一個世界還是比較深的。

一個很明顯的現(xiàn)狀就是什么呢?

做UMI的人陸陸續(xù)續(xù)越來越多,但是訓(xùn)出來模型的異常的少,可能一只手都數(shù)得過來。

很多UMI設(shè)備涌現(xiàn)出來,大家都會強調(diào)自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就這個是非常非常有意思的現(xiàn)象。



國外有兩家比較知名的公司,一個叫Sunday,一個叫Generalist,他們還是訓(xùn)出模型了。

國內(nèi)目前我們覺得訓(xùn)模型訓(xùn)得比較好的一家就是我們,再有就是清華一家,上交一家,總共也就兩、三家能訓(xùn)得出來。

大多數(shù)情況下,要么訓(xùn)不出來,要么即使是在相似的條件下能跑出來demo,時間也非常短,可能就3、4秒,也很卡頓,不絲滑。

關(guān)于為什么大家用UMI采集出來的數(shù)據(jù)訓(xùn)不出模型,最常見的解釋是“算法不是很成熟”“模型不夠大”“數(shù)據(jù)規(guī)模不足”,但是其實這些解釋都不是真正的原因。

真正的原因根本不在于訓(xùn)練階段,而在于訓(xùn)練之初它就不是太對——

大量的UMI數(shù)據(jù)從生成開始就不具備進入訓(xùn)練管線的這個條件。

說白了就是數(shù)據(jù)不合格。



什么是可以訓(xùn)練的UMI數(shù)據(jù)

大家會有誤解,總覺得UMI數(shù)據(jù)就是人拿個夾爪,就把這個視頻數(shù)據(jù)記錄下來就行了,非常非常簡單,所有人都可以做。

其實完全不是。

UMI其實是AI對物理世界的理解對齊,并且在這個物理空間里面可以復(fù)現(xiàn)的這種交互行為。

它必須滿足幾個條件。



拆開了講,第一個就是說畫面要跟動作要嚴格對齊,要跟空間位置嚴格對齊;另外一個就是說因為UMI可以集成多個傳感器,每個傳感器之間也要做到毫秒級的同步。

舉個例子,一個人想去拿眼前的一瓶水,不對齊的話得反應(yīng)好幾秒,水就可能拿不起來。

另外,一個好的軌跡必須可以在物理空間運動中可復(fù)現(xiàn)的。

本質(zhì)要求是希望UMI采集的數(shù)據(jù)是高一致性的、高密度的,并且可復(fù)現(xiàn)的時序數(shù)據(jù)結(jié)構(gòu)。

為什么大多數(shù)UMI設(shè)備采不到好的數(shù)據(jù)?

現(xiàn)在大量的UMI設(shè)備采不出滿足條件的數(shù)據(jù),兩個根本原因。

一,核心問題是硬件能力完全不夠。

UMI的CMOS組件或者主控芯片,性能非常差。

導(dǎo)致的結(jié)果就是畫面覆蓋有限,畫質(zhì)不怎么好,曝光也不怎么好,幀率比較抖動,這時候畫面就非常糟糕。

它破壞了動作和視覺的因果關(guān)系。本來模仿學(xué)習(xí)就是我看到什么畫面就做什么動作,結(jié)果畫面和動作完全無法對齊,就會導(dǎo)致這個模型根本沒辦法學(xué)習(xí)。



二,市面上很多產(chǎn)品不是系統(tǒng)設(shè)計的,而是很多現(xiàn)成模塊拼湊起來,用USB Hub連接的。

這樣一來,產(chǎn)品的貸款架構(gòu)非常脆弱,每個模塊都會搶帶寬。一旦有什么負載,就會出現(xiàn)掉幀等一系列問題,所以數(shù)據(jù)的質(zhì)量就非常糟糕,基本沒辦法穩(wěn)定復(fù)現(xiàn)交互記錄。

也就是說,從硬件層面講,這些設(shè)備從一開始就沒辦法訓(xùn)出模型需要的數(shù)據(jù)。

“臟數(shù)據(jù)”和“廢數(shù)據(jù)”

但即使設(shè)備好了,采的數(shù)據(jù)能不能訓(xùn)出數(shù)據(jù)也不是一定的。

舉個例子,別人拿到我們的設(shè)備,也不一定能訓(xùn)出好的數(shù)據(jù)。

為什么呢?這就要說數(shù)據(jù)的質(zhì)量高低了。

數(shù)據(jù)質(zhì)量的高低其實并不是干凈程度,而是說有效的信息密度。

低質(zhì)量的數(shù)據(jù),包含大量抖動、漂移、時間錯位,非常不利于學(xué)習(xí)。特別是在單視角情況(很多UMI是單個機械臂),這種噪聲不會因為你的數(shù)據(jù)量增大而被平滑掉,所以說你學(xué)出來的策略會非常非常糟糕,基本上訓(xùn)不出來。

低價值數(shù)據(jù)不是完全沒有價值。

它還是有點價值,可以去認識這個世界,知道什么是杯子,什么是麥克風(fēng),但沒辦法從它身上學(xué)習(xí)到精確的物理交互信息。

它不知道桌上的麥克風(fēng)我是怎么拿到的,我到底該正著拿還是反著拿,還是需要傾斜角度去拿。

除了低質(zhì)量的臟數(shù)據(jù),我還把一種數(shù)據(jù)叫“廢數(shù)據(jù)”。



廢數(shù)據(jù)是什么?

就是很多人拿著設(shè)備直接去眾包去采集了,人怎么采就拿它怎么采。

這種數(shù)據(jù)完全copy人類的自然行為,沒有任何設(shè)計和技巧,過于“天然去雕飾”了,基本上是不可能訓(xùn)出來模型的。

現(xiàn)在都在做的疊衣服,其實是最需要采集技巧的一個任務(wù)。疊衣服的時候要抖一下,抖的過程中還要注意方向、速度,才能抖好。

但人在疊衣服的時候,很少會注意那么多tricks。

每家具身公司都有自己的采集技巧,所以如果沒有注入任何技巧,即便拿到很好的UMI設(shè)備,采集的數(shù)據(jù)很像人的行為,但其實是廢數(shù)據(jù),基本上模型訓(xùn)練不了。

能當(dāng)然可能未來,十年、二十年,模型發(fā)展好了,這些數(shù)據(jù)可能就有用了。但目前很長一段階段這些數(shù)據(jù)基本上訓(xùn)不了,所以稱為廢數(shù)據(jù)。

硬件、數(shù)據(jù)和算法環(huán)環(huán)相扣

正確的UMI的工程范式首先是一種系統(tǒng)的自洽,而不是一種簡單的功能拼接。

傳統(tǒng)的路徑下面大家做機器人,首先有個硬件,硬件弄完了之后再弄軟件,弄完軟件我再弄算法,我反過頭來我再去補點數(shù)據(jù),把這個整個loop給跑通。

在UMI這個很特殊的場景下,這個范式是失效的。

因為UMI是一個強耦合系統(tǒng),數(shù)據(jù)會決定整個模型的性能,硬件會決定這個數(shù)據(jù)的質(zhì)量;數(shù)據(jù)又會決定這個算法的性能,算法又會反向去約束我這個硬件的執(zhí)行和這個數(shù)據(jù)的設(shè)計。

硬件、數(shù)據(jù)和算法環(huán)環(huán)相扣,任何單點的這種失效都會導(dǎo)致訓(xùn)不出優(yōu)秀的模型。



關(guān)于UMI,團隊做了什么

博士畢業(yè)后,我從2024年3月就開始在做面向UMI的工作。

去年9月之前,UMI在行業(yè)里還是比較冷門的,除了我和我的團隊基本沒人做。

當(dāng)時我們就有一個愿景,希望能打破這個數(shù)據(jù)獲取的這個不可能的三角,把非常高質(zhì)量的數(shù)據(jù)砍到白菜價,加速應(yīng)用來推進這個整個具身智能行業(yè)的發(fā)展。

這里跟大家分享我和團隊近兩年的一些典型工作。



首先就是FastUMI,我是這篇工作的通訊作者。

FastUMI應(yīng)該是全球首個將學(xué)術(shù)界(UMI,斯坦福,2024年2月)的工作升級成工業(yè)級別系統(tǒng),然后推進它進入工業(yè)的。我們從2024年3月左右開始做這個工作,在7、8月左右完成,當(dāng)年的9月中了CoRL 2025。

FastUMI主要解決的問題是提高采集效率和數(shù)據(jù)質(zhì)量。

另外一個工作是FastUMI 100K。

在有了一個很穩(wěn)定的軟硬件系統(tǒng)后,我們開始擴大規(guī)模去采數(shù)據(jù)。當(dāng)時我在上海AI Lab建立了一個數(shù)采長,我?guī)е?1個人在3個月時間里,采集了10萬條真機數(shù)據(jù),為機器學(xué)習(xí)提供了非常高質(zhì)量的數(shù)據(jù)支持。

這是全世界首個大型的UMI數(shù)據(jù)集。

從這個工作中FastUMI團隊獲得了大規(guī)模的數(shù)據(jù)治理的經(jīng)驗。

我們還有一個工作叫Fastumi-MLM,它把UMI這項技術(shù)用于“狗+臂”。

之前UMI都應(yīng)用在單臂、雙臂或者輪式雙臂工作上。這是大陸第一個能將UMI用在這種構(gòu)型機器人上的工作。

除此之外,還有Spatial VLA、Agibot World、AskVLA等等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1950年,師級首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個不留!

1950年,師級首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個不留!

寄史言志
2026-01-07 20:37:09
大反轉(zhuǎn)!意大利總理帶頭“求和”:現(xiàn)在是歐俄對話最佳時機!

大反轉(zhuǎn)!意大利總理帶頭“求和”:現(xiàn)在是歐俄對話最佳時機!

空谷幽幽藍
2026-01-10 17:32:22
最年輕的Win11,被24歲的WinXP吊打了?六代系統(tǒng)同臺“對決”,Win11幾乎全線墊底……

最年輕的Win11,被24歲的WinXP吊打了?六代系統(tǒng)同臺“對決”,Win11幾乎全線墊底……

CSDN
2026-01-08 18:13:36
哈爾濱文旅深夜急撇清:這真不是我們請的

哈爾濱文旅深夜急撇清:這真不是我們請的

艾米手工作品
2026-01-10 09:27:49
扣押中國船又搶中國石油,特朗普掀桌:5000萬桶原油只能“姓美”

扣押中國船又搶中國石油,特朗普掀桌:5000萬桶原油只能“姓美”

孟彥說
2026-01-10 17:37:29
2026年春節(jié)不一般,老人說“5個生肖要穿紅”,看看有你嗎?

2026年春節(jié)不一般,老人說“5個生肖要穿紅”,看看有你嗎?

復(fù)轉(zhuǎn)這些年
2026-01-05 23:36:21
嘲諷張柏芝三胎全是賠錢貨,向太忍無可忍,揭露寧靜嫁老外內(nèi)幕

嘲諷張柏芝三胎全是賠錢貨,向太忍無可忍,揭露寧靜嫁老外內(nèi)幕

悠悠說世界
2025-12-26 12:03:43
久加諾夫:如果不轉(zhuǎn)向社會主義和解放烏克蘭,俄將無法擺脫困境

久加諾夫:如果不轉(zhuǎn)向社會主義和解放烏克蘭,俄將無法擺脫困境

阿燕姐說育兒
2026-01-10 16:16:39
張碧晨演唱會上衣若隱若現(xiàn),美炸了??!網(wǎng)友:會不會太透視了?

張碧晨演唱會上衣若隱若現(xiàn),美炸了?。【W(wǎng)友:會不會太透視了?

動物奇奇怪怪
2026-01-10 01:47:57
張學(xué)良談戴笠之死:他不風(fēng)流,獨好有丈夫的胡蝶,也死在了她手上

張學(xué)良談戴笠之死:他不風(fēng)流,獨好有丈夫的胡蝶,也死在了她手上

云霄紀史觀
2025-12-29 23:09:00
禁令執(zhí)行第四天,中國電路板廠商不再向日本發(fā)貨,日本廠商天塌了

禁令執(zhí)行第四天,中國電路板廠商不再向日本發(fā)貨,日本廠商天塌了

卷史
2026-01-10 14:02:40
斯普利特發(fā)布會贊楊瀚森兩場發(fā)揮,2點鞏固地位,這是鎖輪換了?

斯普利特發(fā)布會贊楊瀚森兩場發(fā)揮,2點鞏固地位,這是鎖輪換了?

籃球資訊達人
2026-01-10 15:02:36
CCTV5直播!遼寧VS廣東焦點戰(zhàn),亨特上演首秀,杜鋒要給楊鳴上課

CCTV5直播!遼寧VS廣東焦點戰(zhàn),亨特上演首秀,杜鋒要給楊鳴上課

老葉評球
2026-01-09 22:50:16
中超轉(zhuǎn)會“大魚”出現(xiàn)!聯(lián)賽頂級前腰,價值2千萬,鎖定冬窗標(biāo)王

中超轉(zhuǎn)會“大魚”出現(xiàn)!聯(lián)賽頂級前腰,價值2千萬,鎖定冬窗標(biāo)王

國足風(fēng)云
2026-01-10 15:23:02
拖欠房租面臨驅(qū)逐,《鋼鐵俠2》主演獲網(wǎng)友10萬美元捐款,本人:捐款一分錢都不會收

拖欠房租面臨驅(qū)逐,《鋼鐵俠2》主演獲網(wǎng)友10萬美元捐款,本人:捐款一分錢都不會收

紅星新聞
2026-01-08 12:08:49
特朗普重磅表態(tài):臺灣屬于中國,鄭麗文訪陸時間確定,王金平回應(yīng)

特朗普重磅表態(tài):臺灣屬于中國,鄭麗文訪陸時間確定,王金平回應(yīng)

卷史
2026-01-09 16:26:16
俄反潛機首次在北極完成空中加油!聯(lián)合國安理會將召開烏克蘭局勢緊急會議!烏全境頻遭空襲,我使館發(fā)布重要提醒

俄反潛機首次在北極完成空中加油!聯(lián)合國安理會將召開烏克蘭局勢緊急會議!烏全境頻遭空襲,我使館發(fā)布重要提醒

每日經(jīng)濟新聞
2026-01-10 14:13:09
81歲芯片大佬恢復(fù)中國籍,為交稅套現(xiàn)近億元,60歲歸國帶出2000億元半導(dǎo)體巨頭

81歲芯片大佬恢復(fù)中國籍,為交稅套現(xiàn)近億元,60歲歸國帶出2000億元半導(dǎo)體巨頭

21世紀經(jīng)濟報道
2026-01-10 17:52:03
雷迪克甩鍋都甩不明白!喊暫停場上沒聽到,回放卻顯示示意進攻!

雷迪克甩鍋都甩不明白!喊暫停場上沒聽到,回放卻顯示示意進攻!

細話籃球
2026-01-10 17:42:30
日本動手了!高市早苗對華三路出擊,關(guān)鍵時刻,特朗普卻攤牌了

日本動手了!高市早苗對華三路出擊,關(guān)鍵時刻,特朗普卻攤牌了

防務(wù)觀察室
2026-01-10 17:46:12
2026-01-10 18:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11998文章數(shù) 176357關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

男生遭老師按地上強制要求剪頭發(fā) 被老師勒脖子騎身上

頭條要聞

男生遭老師按地上強制要求剪頭發(fā) 被老師勒脖子騎身上

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

時尚
教育
旅游
手機
家居

專欄 |?做“主語”的體驗

教育要聞

讓籃球“生長”在校園里:玉林中學(xué)用十年構(gòu)建體教融合新生態(tài)

旅游要聞

人均2萬多元的高端團被指名不副實,出行前3天行程突然變更,專屬項目取消

手機要聞

破3000萬臺!三星Galaxy S25系列手機打破安卓魔咒

家居要聞

木色留白 演繹現(xiàn)代自由

無障礙瀏覽 進入關(guān)懷版