国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話鹿明CTO丁琰:數(shù)據(jù)會反向決定模型,甚至影響硬件形態(tài) | GAIR 2025

0
分享至



深入做UMI之后,我見識到了管理之難。

作者丨高景輝

編輯丨馬曉寧


數(shù)據(jù)采集,向來是具身智能行業(yè)的一大難題。成本、精度、泛化能力,似乎構(gòu)成一個不可能三角,能找到一個可以落地的平衡點已十分不易。

在此背景下,2025 年 11 月中旬 Sunday Robotics 橫空出世,向全世界的具身智能公司證明了 UMI 方案的可行性。一時之間,UMI 的行業(yè)關(guān)注度空前高漲。

而在國內(nèi),丁琰博士的數(shù)采方案「FastUMI」同樣驚艷四座,憑借低成本、高數(shù)據(jù)質(zhì)量、快速部署等特點深受行業(yè)青睞,被視為具身智能數(shù)據(jù)采集的新范式。

實際上,丁琰博士是國內(nèi)最早將 UMI 落地實踐的從業(yè)者。從上海 AI Lab 到一星機器人,再到如今的鹿明機器人,他始終專注于 UMI 的研究與推動,即便在早期這一方向并不被大部分人看好,他也依然堅持投入。時至今日,終于迎來“守得云開見月明”的時刻。

對于 UMI,丁琰博士有著獨特的理解。他將 UMI 視為一套完整體系,而非單純的數(shù)采工具;他的目標清晰,希望把 UMI 打造成像 AK47 一樣“簡單、可靠、低成本、好用”的工業(yè)級基礎(chǔ)設(shè)施;同時,他深知數(shù)采背后真正的難點,除技術(shù)之外,更考驗流程組織、人員管理與執(zhí)行體系的復(fù)雜性。

今年由 GAIR 研究院與雷峰網(wǎng)聯(lián)合主辦的「第八屆 GAIR 全球人工智能與機器人大會」上,我們有幸邀請到了丁琰博士參與圓桌會談,分享他關(guān)于數(shù)據(jù)與 UMI 的深刻洞見。

在大會之前,我們與丁琰博士展開了一場深入對話,以便與會者探討交流。

01

UMI不只是一種數(shù)采方式,

而是一整套體系

AI科技評論:你之前說在一星有“沒做完的事情”,這個事情是指什么?FastUMI 算是其中之一嗎?

丁琰:可以說,我是中國大陸最早投入 UMI 的人,從 2024 年 3 月開始,我就堅定地押注這條路線,在當(dāng)時,UMI在國內(nèi)還是極其小眾的方向,整個中國具身智能圈幾乎沒有人公開選擇 UMI 這條路線。

大家對 UMI 理解往往偏于表面,會把它看成一種數(shù)據(jù)采集方式,但在我看來,UMI 是一整套完整的方法論和體系。數(shù)據(jù)會反過來決定模型、系統(tǒng)架構(gòu)、采集流程、算法設(shè)計,甚至影響硬件形態(tài)——整個鏈條都會因此發(fā)生變化。正因如此,我始終堅信 UMI 的前景,也非常希望把這件事真正做成。但當(dāng)一件自己傾注心力的事業(yè)突然中斷時,打擊是難免的。沒來得及做完的事太多:我們規(guī)劃的產(chǎn)品路線、硬件怎么走、數(shù)據(jù)怎么建體系、模型怎么迭代、場景如何落地、生態(tài)如何構(gòu)建、又如何與全球頂尖公司競爭……這些都還在路上,都屬于“未竟之業(yè)”。

另一層“沒做完的事”,是關(guān)于我個人的。我決定離開學(xué)術(shù)界進入工業(yè)界,是下了很大決心的。我希望能在工業(yè)界扎下根,做出一些真正的成績,也讓自己學(xué)到新的東西。相比學(xué)術(shù)圈,工業(yè)界的環(huán)境要復(fù)雜得多,人是最重要也是最難的部分——你需要與各種角色打交道:技術(shù)、采購、銷售、財務(wù)、供應(yīng)商、投資人……溝通和協(xié)作的成本遠超想象。這些雖然與技術(shù)本身無關(guān),卻是我必須面對的一種成長與考驗。而對我來說,這些考驗似乎才剛剛開始,卻被迫按下了暫停鍵。所以,我希望能在鹿明繼續(xù)把這件事情做下去,把它真正做完。

AI科技評論:從一星到鹿明的過程是怎樣的?

丁琰:一星這事在業(yè)內(nèi)比較少見。很多人是在今年 6 月份加入一星,而我從 4 月份就開始組建一星的技術(shù)團隊,到 10 月份公司關(guān)閉,總共經(jīng)歷了 6 個月。這半年里,整個技術(shù)團隊都是由我從零搭建的,技術(shù)路線也是我在確定;數(shù)據(jù)體系、模型方案、產(chǎn)品規(guī)劃等核心內(nèi)容也都由我主導(dǎo)。整個技術(shù)版圖其實非常宏大,按正常節(jié)奏至少需要兩年才能完整落地,我們已經(jīng)規(guī)劃了多條產(chǎn)品線與技術(shù)路線。但一切都在沒有預(yù)兆的情況下戛然而止。

9 月 30 日凌晨,我還在韓國參加展會,突然接到通知說一星即將被注銷。我馬上從韓國趕回蘇州,落地之后公司就啟動了注銷流程,根本來不及反應(yīng)。到 10 月 13 日,全員都已經(jīng)簽完了離職協(xié)議。那段時間,各種公司和投資人幾乎每天都在聯(lián)系我,每一家都有自己的吸引點和優(yōu)勢,也讓我必須盡快做出判斷。

AI科技評論:鹿明有哪些吸引你的地方?

丁琰:鹿明是很有特色的一個公司,CEO 本身是技術(shù)背景,清華本碩出身,對 UMI 方向始終抱有強烈的愿景與堅持。我是 11 月 2 號加入的鹿明,當(dāng)時 UMI 在行業(yè)內(nèi)還沒有真正火起來——直到11月中旬,Generalist 和 Sunday Robotics 展示了他們基于 UMI 的成果,才讓整個具身智能領(lǐng)域為之震撼。也正因為如此,在10月底的時候,國內(nèi)幾乎沒有人愿意在 UMI 上 all in。

但鹿明與眾不同,創(chuàng)始團隊從一開始就堅定地要在 UMI 上重注發(fā)力,這種判斷力與決心正是吸引我加入的關(guān)鍵原因。

AI科技評論:同為鹿明CTO,你和曹俊亮博士的分工合作是怎樣的?

丁琰:我們之間的交流非常密切。我本身并非做硬件出身,因此在產(chǎn)品設(shè)計上非常依賴曹博的支持。比如我們計劃推出力控版本、平動版本、非平動版本以及便攜版本等多條產(chǎn)品線,曹博憑借豐富的量產(chǎn)經(jīng)驗,能幫助我補齊在硬件方面的短板。同時,曹博在做產(chǎn)品時也需要算法團隊的支撐。例如,他希望小型人形機器人能夠執(zhí)行某些操作,就會來咨詢我,讓我們從算法需求的角度參與定義硬件,而不是僅憑物理結(jié)構(gòu)去做設(shè)計。我們就是通過這樣軟硬件的深度協(xié)同,才能共同打磨出真正極致的產(chǎn)品。

02

優(yōu)秀的數(shù)采方案,

應(yīng)該像「AK47」一樣

AI科技評論:你從什么時候開始做UMI的?

丁琰:我在 2024 年 3 月正式啟動了與 UMI 類似的新項目,4 月回國后便在上海 AI Lab 全力投入相關(guān)研究,一直持續(xù)到 2025 年 6 月底離職。在這一年多的時間里,我?guī)缀醢讶烤Χ挤旁谶@件事上,期間發(fā)表的三四篇論文也都圍繞 FastUMI 展開。因為有足夠長時間的技術(shù)積累,我們在實驗室階段把所有關(guān)鍵路線、可行性和核心機制都驗證完了,看到了真正的曙光,我才敢把這項技術(shù)帶到一星繼續(xù)推進??梢哉f,F(xiàn)astUMI 最初誕生于學(xué)術(shù)界,而我后來在工業(yè)界做的,就是把它從一個實驗室原型,真正打磨成一個可以規(guī)模化、可量產(chǎn)的工業(yè)級產(chǎn)品。

AI科技評論:相較于UMI,傳統(tǒng)的遙操作方案有哪些不足?

丁琰:我最初在 AI Lab 時,其實是以數(shù)據(jù)采集顧問的身份為一家行業(yè)獨角獸提供支持。當(dāng)時我們做的是一套完全傳統(tǒng)、依賴遙操作的數(shù)據(jù)采集體系。彼時 UMI 還沒有形成如今這樣明確的技術(shù)流派,行業(yè)更多是覺得“好像有點意思”,但幾乎沒有人愿意真正投入。那時的市場格局非常明顯:至少九成的人都在做遙操作。然而,遙操作從一開始就存在非常突出的結(jié)構(gòu)性問題。

第一,遙操作的數(shù)采效率比較低。一天能采集 100 條數(shù)據(jù)就已經(jīng)算是非常優(yōu)秀的效率了。我在做顧問期間發(fā)現(xiàn),采集員常常會產(chǎn)出各種奇怪的軌跡,數(shù)據(jù)分布不可控,數(shù)據(jù)質(zhì)量更是參差不齊。整個過程對人依賴極高,幾乎無法實現(xiàn)一致性和規(guī)?;?/p>

第二,遙操作的成本很高。由于必須依賴機器人本體進行采集,而一臺本體的價格往往在 40 萬元以上。如果你要采購五六十臺來支撐規(guī)?;瘮?shù)據(jù)采集,前期投入就是兩三千萬元。在業(yè)務(wù)還沒看到產(chǎn)出之前,這種成本對于任何公司都是沉重的壓力。

第三,遙操作的數(shù)據(jù)質(zhì)量也有問題。操作員戴著 VR 去操縱機械臂,缺乏真實的力覺反饋,中間存在大量動作不連續(xù)、體感不自然的 gap。這造成的數(shù)據(jù)往往是抖動的、不穩(wěn)定的、缺乏一致性的。比如一個簡單的抓取動作,如果不是熟練工,可能要重復(fù)多次才能完成,生成的軌跡非常噪聲化,而這種數(shù)據(jù)對于模型訓(xùn)練來說是非常糟糕的。

第四,遙操作有數(shù)據(jù)孤島的問題。遙操作采集的數(shù)據(jù)通常高度依賴特定品牌、特定形態(tài)、特定參數(shù)的機器人本體,因此數(shù)據(jù)只能在本公司、自家機器人體系內(nèi)使用。一旦換了不同的機器人、控制器或執(zhí)行器,這些數(shù)據(jù)的可遷移性就非常差,訓(xùn)練效果往往會大幅下降。換句話說,遙操作天然會形成數(shù)據(jù)孤島,而無法構(gòu)建行業(yè)級的通用數(shù)據(jù)資產(chǎn)。

AI科技評論:那純視頻呢?

丁琰:純視頻方案上,學(xué)術(shù)界和工業(yè)界其實存在一個非常明顯的思維差異。在學(xué)術(shù)圈,只要一個方向足夠 novel、有趣、能寫論文,它就可以被視為一項很優(yōu)秀的工作——至于能不能真正落地,并不是最核心的評價指標。但工業(yè)界完全不同。工業(yè)界追求的是那種簡單粗暴、可靠可擴展的方案。我經(jīng)常半開玩笑地說,我們要做的是“像 AK47 一樣”的技術(shù):簡單、便宜、好用、有效。而從目前來看,純視頻方案距離這種工業(yè)級標準還有明顯差距。純視頻當(dāng)然能學(xué)到一些東西,但機器人面對的是真實的物理世界,而物理世界有大量必須被感知的信號:觸覺、力控、摩擦、接觸反饋,甚至聲音。純視頻無法直接獲取這些關(guān)鍵的物理信息,而這些恰恰是機器人學(xué)習(xí)和決策中非常重要的一環(huán)。因此,純視頻的數(shù)據(jù)價值不能否認,但它如何更好地在具身智能中被利用、以及能否成為主要的數(shù)據(jù)形態(tài),還需要進一步探索。

AI科技評論:所以你選擇了UMI。

丁琰:對,UMI 的核心優(yōu)勢就在于它能夠直接從物理世界采集數(shù)據(jù),而且完全不依賴機器人本體。我們只需要把 UMI 設(shè)備戴在手腕上,用一個夾爪去模擬機器人的操作過程。畫面中呈現(xiàn)的只有夾爪本身——這意味著,只要未來機器人的夾爪形態(tài)與它一致,這份數(shù)據(jù)就可以無縫遷移、直接使用,是真正的“通用型物理數(shù)據(jù)”。同時,UMI 采到的是非常精準的物理世界數(shù)據(jù),包括動作軌跡、接觸模式、力的變化等。在這種方式下,人的體感與機器動作之間的 gap 非常小,大概只有 10%–20%,采集過程流暢自然,“看到就能抓、抓了就能做”。而相比之下,遙操作的體感 gap 往往高達 80%–90%。操作員戴著 VR 遠程操控機械臂,動作延遲大、反饋不連續(xù)、缺乏真實觸感,這些都會導(dǎo)致軌跡抖動、動作不自然,數(shù)據(jù)質(zhì)量也因此大幅下降。

AI科技評論:那種手套方案怎么樣?

丁琰:他們更多采的是五指數(shù)據(jù),而 FastUMI 用的是二指數(shù)據(jù),這本質(zhì)上是兩個完全不同的技術(shù)賽道。手套類設(shè)備也可以算是 UMI 的一種擴展形式,但目前五指路線整體還不夠成熟。二指 UMI 的核心能力在于獲取空間中的高精度軌跡,并準確記錄夾爪的開合信息。由于二指夾爪的機械結(jié)構(gòu)穩(wěn)定、自由度少,因此可以直接、精準地推算出每個夾爪末端在空間中的位置,數(shù)據(jù)質(zhì)量非常穩(wěn)定。而五指方案的目標是獲取每一個關(guān)節(jié)在空間中的位置,自由度暴漲、解算難度成倍提升。人手有 22 個關(guān)節(jié),要讓每個關(guān)節(jié)都保持毫米級誤差幾乎不現(xiàn)實。即使使用手套傳感器,單關(guān)節(jié)誤差往往仍然在厘米級,這會直接影響 replay(動作復(fù)現(xiàn))效果。

AI科技評論:什么是好數(shù)據(jù)?

丁琰:本質(zhì)上必須能 replay 成功 才算。當(dāng)機器人按照數(shù)據(jù)執(zhí)行動作時,如果不能精準還原人類的軌跡,那這份數(shù)據(jù)是無法用于訓(xùn)練的。因此,五指方案雖然也是一種 UMI 思路,但如果沒有激光動捕等高成本環(huán)境輔助,其數(shù)據(jù)精度很難滿足工業(yè)級需求。而二指 UMI 的優(yōu)勢就在于結(jié)構(gòu)簡單、可控性強、誤差小、可 replay,真正符合可落地、可規(guī)?;囊?。

AI科技評論:目前在學(xué)術(shù)界其實也有一些UMI的方案,這些方案有哪些不足之處?

丁琰:我們應(yīng)該算是全球第二家系統(tǒng)性開展 UMI 工作的團隊,我對首家開展UMI 團隊的工作非常尊敬,他們算是為 UMI 打開了整個技術(shù)方向的先河。那套系統(tǒng)整體對操作技能要求非常高,也更偏科研屬性。

第一,他們的采集設(shè)備本身非常復(fù)雜。以軌跡讀取為例,我們現(xiàn)在的 FastUMI 軌跡是直接從設(shè)備中讀取的,插上電腦 1~2 分鐘就能自動生成結(jié)果。而他們要讀取軌跡,首先要對 GoPro 做標定,這一步至少需要 20 分鐘;如果不是特別熟練的操作員,整個流程甚至可能需要一小時以上。

第二,他們的軌跡生成鏈路也非常長。采集時需要按照特定速度錄制視頻,錄完后要取出 SD 卡,用讀卡器插電腦,再通過 GoPro 的專用軟件導(dǎo)出原始數(shù)據(jù),然后再跑一套比較復(fù)雜的代碼。光是環(huán)境配置和依賴安裝就可能需要二三十分鐘,最終才算能輸出軌跡。

但這個軌跡還不一定成功,因為他們使用的是單目相機,而單目視覺里程計本身就極其容易失敗。我們第一次嘗試他們的方案時,大概 50%~60% 的軌跡都無法正確生成。后來才發(fā)現(xiàn)必須嚴格控制采集速度,而且場景里必須非常豐富的視覺特征點,否則視覺定位就會崩。

AI科技評論:FastUMI做了哪些改進?

丁琰:在硬件層面,他們的 UMI 系統(tǒng)只能運行在特定的幾套設(shè)備上,例如 Franka 或 UR5e,夾爪必須使用 WSG-50,換成其他機器人或末端執(zhí)行器基本就無法開箱即用。而這些設(shè)備動輒二三十萬元,對大多數(shù)團隊來說成本極高。為了讓 UMI 能真正做到通用普適,我們投入了大量工作去做解耦,讓任何機器人、任何夾爪都可以使用 FastUMI 這一體系,這是我們非常重要的技術(shù)突破。

在軟件層面,我們用成熟穩(wěn)定的TR65完全替代了原本復(fù)雜且易失敗的軌跡計算方案?,F(xiàn)在只需要 1~2 分鐘就能穩(wěn)定算出高質(zhì)量軌跡,大幅提升了數(shù)據(jù)處理效率。

在算法層面,對方的體系主要只有一個 DP 算法。我們則針對 UMI 數(shù)據(jù)的特點開發(fā)和適配了四五種不同的算法,并在數(shù)據(jù)預(yù)處理、軌跡對齊、開合建模、觸覺/力控特征提取等方面做了大量優(yōu)化,使整個 UMI 算法鏈路更加完整、魯棒。

綜上,我們從硬件、軟件到算法三個維度構(gòu)建了一個扎實、完整并且可規(guī)?;?UMI 體系。之后我們還自主采集了大約1萬小時的UMI數(shù)據(jù) ,積累了大量一線采集經(jīng)驗,為體系的穩(wěn)定性和可重復(fù)性進一步打下基礎(chǔ)。

03

整個具身智能圈子2/3的人,

都在用FastUMI Pro

AI科技評論:你們的新產(chǎn)品FastUMI Pro據(jù)說成本只有傳統(tǒng)方案的 1/5,可以具體透露一下它這個每條數(shù)據(jù)的成本是多少嗎?

丁琰:數(shù)據(jù)的成本包括前期的高額研發(fā)投入,場地、采集人工電費以及設(shè)備折舊等等,我們新產(chǎn)品 FastUMI Pro 的成本能僅有傳統(tǒng)方案的 1/5。我們現(xiàn)在的數(shù)據(jù)定價本質(zhì)上是以“通用型數(shù)據(jù)”的模式定價。所謂通用型數(shù)據(jù),就是一份數(shù)據(jù)可以重復(fù)售賣,并能夠在不同機器人、不同算法體系中復(fù)用。因此,如果同一條數(shù)據(jù)能多次賣出,效益就會比較理想。

AI科技評論:FastUMI Pro很輕,但輕巧就意味著精簡,有些功能會舍棄,那么在結(jié)構(gòu)設(shè)計上如何平衡重量和功能?

丁琰:首先,如果希望采集員一天能夠穩(wěn)定采 500~1000 條數(shù)據(jù),設(shè)備的重量必須控制在合理范圍內(nèi),否則長時間操作會非常疲勞。因此我們把重量上限定在600g。但這項工作當(dāng)時是在一星的大工業(yè)場景下推進的,涉及的物品都很重,比如汽車零部件,部分甚至達到1.5kg左右。所以我們設(shè)定了一個硬性指標:設(shè)備必須能承載 2kg 的物體,而且同時保持足夠輕巧。

這在當(dāng)時是非常有挑戰(zhàn)的,因為學(xué)術(shù)界還沒有哪個研究型設(shè)備能做到既支持 2kg 負載,又具備工業(yè)級耐用性。早期在 AI Lab,我們使用的還是 3D 打印結(jié)構(gòu)件,非常容易損壞。那段時間最痛苦的就是——基本每天都在換零件。也正因如此,到了一星之后我們下定決心重新設(shè)計一款真正工業(yè)級的 UMI 設(shè)備,于是就有了FastUMI Pro。

在硬件結(jié)構(gòu)上,我們做了大量工程化優(yōu)化,同時邀請專業(yè)人士對整體結(jié)構(gòu)進行了系統(tǒng)的受力分析,明確哪些部位是主要受力點、最容易損壞。所有高應(yīng)力區(qū)域,我們都采用了強度更高的特殊材料進行加固;而在螺絲孔、開合機構(gòu)等容易變形的位置,我們也全面更換為更高規(guī)格的材料與結(jié)構(gòu)。

至于非關(guān)鍵受力區(qū)域,我們的目標就是——能輕則輕。為此,我們嘗試了二三十種不同厚度的結(jié)構(gòu)版本,每一個版本都實際打印出來測試。在最終定型中,我們把部分結(jié)構(gòu)的厚度壓到1.5 mm,而最薄的區(qū)域甚至做到0.5 mm——因為這些區(qū)域幾乎不受力。可以說,我們是把每一個細節(jié)都打磨到了極致,才達成了“輕量化與高強度同時兼顧”的目標。

AI科技評論:同時它的定位精度又很高,這是如何實現(xiàn)的?

丁琰:這一切的實現(xiàn),其實歸功于我們在軟硬件和算法上的全鏈路投入。當(dāng)時我們下了一個非常重要的決心:在產(chǎn)品成型之前不計成本地打磨品質(zhì),因為只要規(guī)模化之后,成本最終都可以攤薄。

因此,在最初的設(shè)計階段,我們就選擇了最好的傳感器、組建了最強的算法團隊。在跑完整個 pipeline 后,我們發(fā)現(xiàn)定位精度會直接影響算法效果,尤其是軌跡擬合、動作復(fù)現(xiàn)和多模態(tài)信號解算,因此我們決定必須把定位精度做到極致,并逐個解決可能出現(xiàn)的 corner case。

為此,我們不僅搭建了專門的算法團隊長期攻堅,還投入了數(shù)百萬元持續(xù)打磨這個產(chǎn)品。在硬件、軟件、算法三端不斷迭代的過程中,F(xiàn)astUMI Pro 才最終具備了今天的工業(yè)級穩(wěn)定性和精度。

AI科技評論:從結(jié)果來看,這個投入是完全值得的。

丁琰:對,我加入鹿明還不到一個月,F(xiàn)astUMI Pro 就已經(jīng)銷售給了幾十家企業(yè)。整個具身智能圈里大約有三分之二的團隊都在咨詢、測試或直接使用這款產(chǎn)品,國內(nèi)國外都有。很多團隊甚至是一口氣采購多套設(shè)備回去評估。FastUMI Pro 基本已經(jīng)成為行業(yè)內(nèi)驗證 UMI 能力的“標配裝備”。

AI科技評論:您說過魚眼鏡頭的FOV必須足夠大,否則會出現(xiàn)物體超出視野的情況,那么FastUMI Pro采用了什么方案避免這一問題?

丁琰:就像我一開始強調(diào)的那樣,UMI 從來不是一個簡單的數(shù)采方案,而是一整套系統(tǒng)工程。數(shù)據(jù)的形態(tài)會直接影響算法,而數(shù)據(jù)與算法又會反過來決定硬件的結(jié)構(gòu)設(shè)計。早期的 UMI 基本都把相機放在腕部,視野非常受限,背景信息嚴重缺失,有些物體甚至只能看到局部,這對于算法推理來說是極不友好的,因為模型必須依賴足夠豐富、穩(wěn)定的信息量才能可靠推斷。然而,很多人做 UMI 只停留在“造出一個硬件”這個層面,沒有真正完整走過從數(shù)據(jù)采集、算法訓(xùn)練再到回到硬件調(diào)整的全流程,這其實是非常不對的。真正的 UMI 必須經(jīng)歷一個反復(fù)迭代的閉環(huán):先采數(shù)據(jù),再訓(xùn)練算法,再根據(jù)算法結(jié)果不斷修改硬件,只有這樣整個體系才能成熟。在我們的實際訓(xùn)練中,我們發(fā)現(xiàn)像素必須足夠大、白平衡必須足夠穩(wěn)定、抗抖性能必須足夠強,否則模型就無法復(fù)現(xiàn)軌跡或推斷正確動作。也正是根據(jù)算法反饋,我們最終選用了大魚眼作為當(dāng)前的最優(yōu)解。

為了確定攝像頭方案,我們幾乎把所有能找到的魚眼相機都買了一遍,前后大概二三十款。測試下來發(fā)現(xiàn),很多魚眼的實際視角根本達不到宣傳的 180 度,要么畫面灰暗、動態(tài)范圍差,要么在快速運動時出現(xiàn)明顯抖動,還有不少白平衡極不穩(wěn)定。所謂白平衡,就是當(dāng)你用手遮住攝像頭再移開時,圖像需要瞬間恢復(fù)正常顏色;如果要兩三秒才能恢復(fù),那么這一段數(shù)據(jù)軌跡就基本報廢了。正因為我們完整經(jīng)歷了“硬件—數(shù)據(jù)—算法—再回到硬件”的閉環(huán)迭代,并用大量試錯驗證各種可能性,才最終確定了現(xiàn)在這個大魚眼方案。它不是隨便選出來的,而是從幾十種失敗選項里打磨出來的最優(yōu)解。


04

深入做UMI后,

我見識了采集員的管理之難

AI科技評論:FastUMI Pro為什么采用實時前處理?

丁琰:只有真正深入做 UMI,才會意識到實時前處理的重要性。我個人并不太傾向于 Generalist 或 Sunday Robotics 那類更偏后處理的方案。在實際采集中我們發(fā)現(xiàn),后處理模式幾乎是災(zāi)難性的:你可能錄了八個小時的視頻,最終為了得到真正可用的軌跡,不但要按任務(wù)把視頻切成一段一段,還要逐條排查臟數(shù)據(jù)、刪除錯誤片段、剔除低質(zhì)量樣本,整個流程極其繁瑣,成本和人力消耗巨大。相比之下,實時前處理模式能夠當(dāng)場發(fā)現(xiàn)問題、當(dāng)場修正,從源頭保證數(shù)據(jù)質(zhì)量。

選擇前處理還有另一個很現(xiàn)實的原因——人性。數(shù)據(jù)采集員是非常難管理的。如果采用后處理方式,你把設(shè)備交給一個采集員,他干了一個星期,最后發(fā)現(xiàn)數(shù)據(jù)全部不能用,那么這一個星期的工錢到底付還是不付?而且問題并不總是硬件出錯,更多時候是操作不規(guī)范造成的。我們在上海 AI Lab 建采集場的時候就遇到過大量類似情況:你規(guī)定某個任務(wù)必須 10 秒完成,但采集員可能 5 秒就做完了,動作不完整、節(jié)奏不符,導(dǎo)致整段數(shù)據(jù)完全沒法用,而他們往往不會在意這些細節(jié)。因此,如果不在前端進行實時校驗與約束,不僅數(shù)據(jù)質(zhì)量無法保證,整個采集體系也難以長久維持。

AI科技評論:這些人是從哪找的?

丁琰:這些采集員大多是按小時計費的兼職人員,工作本身也沒有太強的技術(shù)含量,他們往往無法真正保證采集結(jié)果的質(zhì)量。即便你給出明確規(guī)范,他們也不一定會嚴格執(zhí)行,這就進一步放大了后處理方案的不確定性和風(fēng)險。

AI科技評論:不能去高校找一些大學(xué)生嗎?大學(xué)生也挺便宜的吧。

丁琰:我們在 AI Lab 找的數(shù)據(jù)采集員其實都是大學(xué)生,但各種操作不規(guī)范的問題仍然很難避免,這讓我真正見識到了管理的復(fù)雜性。那時候外包團隊只有 11 個人,管理都已經(jīng)很吃力了,如果建一個一百人的數(shù)據(jù)采集工廠,恐怕會直接崩潰。所以我們后來強調(diào)“不能做后處理”,理由并不是技術(shù),而是管理。后處理意味著采集員一整個星期都在積累潛在錯誤,等數(shù)據(jù)全都無效時已經(jīng)無法挽回,也無法實時指導(dǎo)他們?nèi)绾胃恼?。相比之下,前處理能夠?qū)崟r給工人反饋,告訴他動作哪里不達標、哪些步驟需要重做。我們第一周的合格率只有 50%-60%,但經(jīng)過一兩周的實時反饋訓(xùn)練之后,整體合格率顯著提升,到了最后幾周甚至有人能做到 100% 合格。后處理完全做不到這一點,因為采集和修正之間是割裂的,錯誤無法在第一時間被發(fā)現(xiàn)并糾正,而這一點恰恰決定了數(shù)據(jù)采集體系能否真正跑通。

AI科技評論:所以前處理沒有技術(shù)上的難點嗎?

丁琰:當(dāng)然,還有一個原因來自硬件本身。硬件在最初階段可能出現(xiàn)的問題太多了,往往需要經(jīng)過至少半年的迭代才能逐步穩(wěn)定下來。只有當(dāng)硬件足夠可靠、采集員也完全熟練之后,才有可能轉(zhuǎn)向后處理模式。也就是說,前處理和后處理并不是絕對對立的關(guān)系,更像是一種循序漸進、水到渠成的過程。當(dāng)系統(tǒng)還不成熟時必須依賴前處理來保證質(zhì)量;等整個鏈路穩(wěn)定之后,后處理自然就能夠接上。

AI科技評論:你曾說在研發(fā)過程中踩過了很多坑,可以講一下有踩過哪些坑嗎?

丁琰:以魚眼鏡頭為例,我們最初基于控制成本的考慮,采用了一些低性能鏡頭湊合,但在實際訓(xùn)練和驗證中發(fā)現(xiàn),算法根本無法在這種低性能鏡頭上發(fā)揮作用,所以最終選用了將近大幾百一顆的高品質(zhì)魚眼。類似地,也有人問過我們的 UMI 設(shè)備和 3D 打印出來的版本有何區(qū)別——乍一看外觀可能差不多,但真正用起來完全不是一個層級。3D 打印件本身就不穩(wěn)定,采集過程中各種結(jié)構(gòu)性問題會頻繁出現(xiàn),導(dǎo)致效率極低,完全達不到工業(yè)化生產(chǎn)所需的可靠性,也根本無法作為一個可以拿去售賣的產(chǎn)品。真正的工業(yè)產(chǎn)品必須在強度、穩(wěn)定性、耐久度、精度等方面都經(jīng)得起驗證,這些都是 3D 打印無法承擔(dān)的。

AI科技評論:技術(shù)上還有其他瓶頸嗎?

丁琰:技術(shù)上的瓶頸其實更多來自算法層面。我們團隊在這一條線上不斷迭代了一年四個月,幾乎把能踩的坑都踩過一遍,深刻體會到 UMI 最難的地方根本不是硬件。如果用 100 分來衡量整體難度,硬件大概只占三四十分,而數(shù)據(jù)處理的難度卻在六七十分以上。很多人以為 UMI 看起來很簡單,好像隨便誰都能做,但他們并不知道真正的挑戰(zhàn)不在于把一個設(shè)備做出來,而在于如何把數(shù)據(jù)處理好,因為整個 pipeline 異常漫長、異常復(fù)雜。UMI 的“壞的一面”就在這里——它的數(shù)據(jù)極其難處理。如果用做菜來比喻,這就像遇到了一種食材,本身又便宜又美味,但處理過程極其繁瑣,需要大量技巧和耐心,否則根本做不出好菜。UMI 的數(shù)據(jù)也是一樣,只有把這道最難處理的食材處理好了,整個體系才能真正發(fā)揮價值。

AI科技評論:所以算法才是你們的技術(shù)壁壘?

丁琰:可以這么形容,我們的數(shù)據(jù)處理全鏈路,別人可能需要一年才能真正跑通,而我們已經(jīng)積累了超過 1萬小時的實戰(zhàn)采集經(jīng)驗,這本身就是非常強的壁壘。很多人看到的只是 UMI 的硬件外觀,但那只是冰山一角,真正的難點和價值都藏在水面之下的部分——也就是數(shù)據(jù)處理、算法鏈路、異常場景處理、質(zhì)量控制體系、采集規(guī)范化、以及迭代出來的經(jīng)驗。這些看不見的部分才決定了整個系統(tǒng)的可靠性與可擴展性。硬件只是入口,而真正的深水區(qū),全在背后那條漫長而復(fù)雜的數(shù)據(jù) pipeline。

AI科技評論:FastUMI Pro在鹿明的產(chǎn)品生態(tài)中扮演什么樣的角色?

丁琰:鹿明的人形機器人在運動能力方面本來就非常突出,但在操縱能力上的優(yōu)勢還不夠明顯,而 FastUMI 團隊的加入讓鹿明在 manipulation(操控能力)這一關(guān)鍵維度上獲得了顯著提升。

AI科技評論:會有資源不夠分的問題嗎?

丁琰:不會,CEO喻超是一個非常有戰(zhàn)略定力的人,一旦認定方向,就會堅定地 All in 下去。未來鹿明的主要布局將圍繞兩條主線:一條是人形機器人本身,另一條就是 FastUMI 體系。在 UMI 方向上我們擁有非常明確的先發(fā)優(yōu)勢,而且團隊對技術(shù)路線和產(chǎn)品節(jié)奏都非常有信心,相信能夠持續(xù)保持行業(yè)領(lǐng)先。

AI科技評論:鹿明未來在技術(shù)研發(fā)上有哪些重點方向?

丁琰:我更多能談的是軟件側(cè)的內(nèi)容,尤其是數(shù)據(jù)。在具身智能領(lǐng)域,數(shù)據(jù)是高度多模態(tài)的,其復(fù)雜度遠超自動駕駛。自動駕駛幾乎不需要觸覺、力控甚至聲音數(shù)據(jù),但這些恰恰是具身智能的基礎(chǔ)維度。未來還會疊加更多模態(tài),使理解與探索的難度進一步提升?,F(xiàn)在整個行業(yè)在“具身智能該如何獲取、理解和使用數(shù)據(jù)”這件事上的認知仍然非常不足,因此數(shù)據(jù)一定會是鹿明未來最核心的戰(zhàn)略重點。

另一方面是我們自研的模型架構(gòu),其實也有大量講究。并不是所有數(shù)據(jù)都能簡單混在一起做訓(xùn)練,每一種數(shù)據(jù)都有其天然結(jié)構(gòu)和語義特征,如何根據(jù)這些特征去構(gòu)建屬于自己的 VLA 架構(gòu),才是最關(guān)鍵的。我們會圍繞數(shù)據(jù)特點對模型進行針對性的結(jié)構(gòu)改進,充分釋放不同模態(tài)的價值,這也是鹿明未來研發(fā)的另一條核心主線。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

室內(nèi)設(shè)計師有料兒
2025-12-07 16:05:28
劇終!南京博物院 劇本只能寫到省委調(diào)查組進駐西康賓館

劇終!南京博物院 劇本只能寫到省委調(diào)查組進駐西康賓館

八斗小先生
2025-12-24 09:47:17
中國再拋118億美債,加拿大更狠,特朗普急了:換人!

中國再拋118億美債,加拿大更狠,特朗普急了:換人!

財經(jīng)保探長
2025-12-24 11:44:19
廣東臺的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

廣東臺的衰敗:從“萬人空巷”到“無人問津”,被誰奪走了靈魂

阿訊說天下
2025-12-24 17:14:51
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號快回來上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號快回來上班

梅子的小情緒
2025-12-19 14:04:18
開門紅!10人中國隊1-0力克老對手,王鈺棟建功,彭嘯火線復(fù)出

開門紅!10人中國隊1-0力克老對手,王鈺棟建功,彭嘯火線復(fù)出

小金體壇大視野
2025-12-24 18:53:55
河南農(nóng)民花8年種出椅子,出價8萬一把都不賣,專家 我真佩服你

河南農(nóng)民花8年種出椅子,出價8萬一把都不賣,專家 我真佩服你

牛牛叨史
2025-12-18 16:38:07
廚房里一個調(diào)料,導(dǎo)致中國人死亡率全球第一,專家:不能再這么吃

廚房里一個調(diào)料,導(dǎo)致中國人死亡率全球第一,專家:不能再這么吃

腫瘤的真相與誤區(qū)
2025-12-22 19:59:57
云南一職校學(xué)生提出“想殺豬”,校長和老師們湊錢安排,學(xué)生按豬、分肉、做菜全程參與

云南一職校學(xué)生提出“想殺豬”,校長和老師們湊錢安排,學(xué)生按豬、分肉、做菜全程參與

極目新聞
2025-12-24 13:21:57
菜籽油再次成為關(guān)注對象!專家建議:吃菜籽油時,一定要注意4點

菜籽油再次成為關(guān)注對象!專家建議:吃菜籽油時,一定要注意4點

健康科普365
2025-12-23 07:15:04
考慮爭冠? 巴薩明年初3大核心回歸,目標該變了!

考慮爭冠? 巴薩明年初3大核心回歸,目標該變了!

林子說事
2025-12-24 15:20:23
很多學(xué)醫(yī)的朋友說:他們醫(yī)院也停發(fā)績效了!

很多學(xué)醫(yī)的朋友說:他們醫(yī)院也停發(fā)績效了!

黯泉
2025-12-23 22:56:19
我軍頂級的軍事天才只有一人,他打的仗,即使別人復(fù)盤也打不出來

我軍頂級的軍事天才只有一人,他打的仗,即使別人復(fù)盤也打不出來

春秋硯
2025-12-09 07:10:05
央八將播!51集歷史正劇來襲,朱亞文、梅婷又要掀起一波新高潮了

央八將播!51集歷史正劇來襲,朱亞文、梅婷又要掀起一波新高潮了

陳意小可愛
2025-12-23 11:25:52
龐家后人對《新華社》報道的聲明:不公正、不理解、不接受

龐家后人對《新華社》報道的聲明:不公正、不理解、不接受

每日一見
2025-12-21 14:31:46
吳子嘉:如果鄭麗文能將臺灣引到和平統(tǒng)一,鄭主席到了一個境界。

吳子嘉:如果鄭麗文能將臺灣引到和平統(tǒng)一,鄭主席到了一個境界。

百態(tài)人間
2025-12-24 16:49:32
崔路路被判處死刑 崔父:他毀了幾個家庭,自己做出的事自己承擔(dān)

崔路路被判處死刑 崔父:他毀了幾個家庭,自己做出的事自己承擔(dān)

紅星新聞
2025-12-23 15:27:46
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
價格大跳水!暴跌30%,進口車跌落神壇,廣東“老錢車”銷量逆襲

價格大跳水!暴跌30%,進口車跌落神壇,廣東“老錢車”銷量逆襲

品牌觀察官
2025-12-16 20:52:08
中山市東鳳鎮(zhèn)教育和體育事務(wù)中心原主任熊小潮被開除黨籍

中山市東鳳鎮(zhèn)教育和體育事務(wù)中心原主任熊小潮被開除黨籍

南方都市報
2025-12-24 14:15:22
2025-12-24 20:51:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

月薪3850元男子為漲薪給領(lǐng)導(dǎo)發(fā)紅包被開 案子打到高院

頭條要聞

月薪3850元男子為漲薪給領(lǐng)導(dǎo)發(fā)紅包被開 案子打到高院

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
房產(chǎn)
親子
公開課
軍事航空

《刺客信條》圣誕賀圖:黑武士彌助C位出道!

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

親子要聞

用職場方式打開孕晚期會得到……

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

"九三"受閱女民兵:96米需踢出128個正步 每步75厘米

無障礙瀏覽 進入關(guān)懷版