国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話它石陳亦倫:不做VLA 不仿真,一家具身智能公司的非主流判斷

0
分享至



不做 VLA;不做遙操,以可穿戴設(shè)備采真實數(shù)據(jù)。

文丨程曼祺

編輯丨宋瑋

2024 年 11 月,《晚點 LatePost》曾獨家報道,華為車 BU 前首席科學(xué)家陳亦倫投身具身智能創(chuàng)業(yè)。

不久后,它石智航浮出水面——由陳亦倫和百度前自動駕駛事業(yè)群負(fù)責(zé)人李震宇等聯(lián)合創(chuàng)立;成立不足半年,它石先后完成 1.2 億美元和 1.22 億美元的天使輪與天使 + 輪融資,創(chuàng)下中國具身智能領(lǐng)域天使輪融資紀(jì)錄,投資方包括藍(lán)馳、美團(tuán)、啟明、線性、高瓴、聯(lián)想創(chuàng)投等。

陳亦倫獲得了很多支持,在技術(shù)思考上卻 “離經(jīng)叛道”。用一種平實的口吻,陳亦倫分享了很多反主流的判斷。

Google RT-2 開啟的 VLA(視覺-語言-動作)模型,是當(dāng)前具身模型的主流架構(gòu)。而它石則開發(fā)了 AWE(AI World Engine):

我們追求表達(dá)時間、空間、力和環(huán)境交互等物理量和 “世界信息”,而不是 VLA 那樣的 “視網(wǎng)膜信息”。

VLA 的主流做法是從 LLM(大語言模型)得到 VLM(視覺-語言模型),再在 VLM 基礎(chǔ)上訓(xùn) VLA。陳亦倫卻說:

我非常不認(rèn)同(這個路線)。具身一定會有自己的獨立模型,而不是在 VLM 上長出一個動作的 “頭”。否則,它也不會是一個獨立的行業(yè),只是 LLM 的下游分支。

數(shù)據(jù)是具身智能當(dāng)前的核心卡點。陳亦倫在創(chuàng)業(yè)之初也沒有做當(dāng)時 Optimus、PI 等美國公司選擇的遙操作數(shù)據(jù)采集。他認(rèn)為那樣無法低成本、大規(guī)模獲得足夠的數(shù)據(jù)。它石自研了采集數(shù)據(jù)的可穿戴設(shè)備,讓勞動者可以戴著手套和第一視角攝像頭干活,力求獲得真實場景里真實任務(wù)的數(shù)據(jù)。

敢和其他人不一樣,可能來自他最早嘗試自動駕駛端到端的切身經(jīng)驗。曾有業(yè)內(nèi)人士告訴我們,在華為期間曝光度不高的陳亦倫是華為智能駕駛研發(fā)團(tuán)隊的技術(shù) “靈魂人物”。

這也帶來疑問:智駕的技術(shù)的演進(jìn)過程,會在具身智能上押韻嗎?二者都屬于物理 AI 范疇,但大語言模型的帶來了全新的技術(shù)環(huán)境。

這個問題沒有現(xiàn)成回答,取決于不同從業(yè)者的不同 bet(押注)。陳亦倫講述了他的 bet。

從華為、清華到創(chuàng)立它石,端到端開啟通用機(jī)器人機(jī)會

晚點:你在大疆和華為做過無人機(jī)與無人車,這都屬于機(jī)器人的分支,最早關(guān)注機(jī)器人是什么時候?

陳亦倫:上學(xué)時就開始了。我是物理競賽保送清華的,但讀的是電子系。后來去美國讀機(jī)器學(xué)習(xí)博士時,我也很羨慕做機(jī)械專業(yè)的室友,因為他們做的東西能動,我天生喜歡 “能動” 的東西。

2007 年在美國,我看到波士頓動力用液壓驅(qū)動的機(jī)械狗,它在冰面上摔倒后依然能保持平衡,非常震撼。博士畢業(yè)后,我沒有選擇 AI 領(lǐng)域最主流的路徑去一個互聯(lián)網(wǎng)大公司,而是去了一家非常有名的機(jī)電系統(tǒng)公司,在那里學(xué)會了如何做電機(jī)、伺服控制和液壓系統(tǒng)——因為當(dāng)時我認(rèn)為機(jī)器人應(yīng)該是液壓驅(qū)動的,我在第一家公司也帶過液壓伺服控制產(chǎn)品線。

所以我的職業(yè)生涯一直有一個信念:總有一天我要做出理想中的機(jī)器人。但作為學(xué)算法出身的人,我過去認(rèn)為技術(shù)還沒 Ready,只能寫出一些簡單的程序,那不是我想要的機(jī)器人。

晚點:何時發(fā)現(xiàn)技術(shù)條件更成熟了?

陳亦倫:2020-2021 年,我在華為第一次嘗試端到端系統(tǒng)時。那時我已經(jīng)在華為帶團(tuán)隊做了 2、3 年研發(fā),我們的自動駕駛系統(tǒng)至少有 200 萬行代碼。它雖然能工作,可以處理復(fù)雜的城市道路情況,但維護(hù)成本極高。

2020 年,我和丁文超博士(注:它石首席科學(xué)家,曾被華為 “天才少年” 計劃招募入自動駕駛部)等同事想試一下:能不能訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),把這 200 萬行代碼精簡掉?最終我們用 3 萬行代碼訓(xùn)練了一個網(wǎng)絡(luò),直接讓網(wǎng)絡(luò)去規(guī)劃無人車的軌跡。那就是最早的端到端自動駕駛,只不過當(dāng)時我們做的是 “兩段式”(注:感知環(huán)節(jié)是一個端到端網(wǎng)絡(luò),規(guī)控環(huán)節(jié)是另一個端到端網(wǎng)絡(luò))。

晚點:2020 年開始做端到端,是受到特斯拉 AI Day 等行業(yè)信號的啟發(fā)嗎?

陳亦倫:沒有,2020 年的特斯拉 AI Day 還沒講端到端,講的是在感知環(huán)節(jié)如何恢復(fù) 3D 環(huán)境(Vector Space),即 BEV(Bird's-Eye-View,鳥瞰視角)。對我們來說,感知是已知解,它是開放問題,有數(shù)據(jù)、有標(biāo)注就能做。

我最頭疼的是規(guī)控,這是一個閉環(huán) AI:你產(chǎn)生的每一個動作都會影響下一刻的環(huán)境。比如你選擇 “加塞”,對方可能讓行,也可能加速搶行。這種閉環(huán) AI 怎么訓(xùn)練?當(dāng)時沒人有把握,但靠傳統(tǒng)規(guī)則方法一個個描述 corner case(極端情況),代碼已經(jīng)堆到了 200 萬行,發(fā)現(xiàn)問題的速度已遠(yuǎn)超解決問題的速度。所以必須用新的方法。

晚點:具體怎么探索端到端的?

陳亦倫:我們需要大規(guī)模采集人類駕駛數(shù)據(jù),這在之前還沒人做過。我們當(dāng)時調(diào)撥了約 100 輛車的車隊,專門干這一件事。丁博(丁文超)每天在現(xiàn)場教司機(jī)開車,定義什么是 “好司機(jī)” 的行為。

起初沒看到顯著進(jìn)展,但當(dāng)數(shù)據(jù)積累到幾千小時后,你會發(fā)現(xiàn)網(wǎng)絡(luò)真的學(xué)到了東西,而且越來越厲害。我們選了一個極難的測試場景——一個人車混行、完全非結(jié)構(gòu)化的城中村,通過規(guī)則算法幾乎無法通過。我們大膽用神經(jīng)網(wǎng)絡(luò)去試,原則是 “后處理越少越好”。結(jié)果車非常流暢地穿行了過去。那一刻就是我的 “GPT Moment”,我意識到 AI 可以做 Planning(規(guī)劃)了。

晚點:為什么這之后不久,你就離開華為,加入了清華大學(xué)智能產(chǎn)業(yè)研究院(清華 AIR)?當(dāng)時智能駕駛正處于上量和質(zhì)變的前夕。

陳亦倫:因為我一直就想做機(jī)器人,而端到端的成功讓我看到了機(jī)器人加速發(fā)展的時間點就要到了,但那時我還不知道具體怎么做,所以我選擇先回到學(xué)校,給自己一些研究的時間。

通用機(jī)器人的三道曙光和三道墻

晚點:從加入清華到 2024 年底開始籌備它石,通用機(jī)器人的哪些變化讓你覺得創(chuàng)業(yè)時機(jī)到了?

陳亦倫:我看到了三道曙光。一是 Locomotion(運動控制)的解鎖:2020 年左右,ETH(蘇黎世聯(lián)邦理工學(xué)院)走通了一條路:用強(qiáng)化學(xué)習(xí)(RL)來解決機(jī)器狗的控制問題,而以前用的是非常復(fù)雜的 WBC(Whole-Body Control,全身控制),機(jī)器狗動作很呆板。

這其中又有兩個核心模塊:一是高并發(fā)的仿真器(Simulator),仿真的計算基礎(chǔ)從 CPU 到 GPU 的轉(zhuǎn)變大幅增加了并發(fā)能力,能獲得很多數(shù)據(jù);二是縮小 “Sim-to-Real Gap”,即數(shù)字世界到到真實世界的差距。像宇樹這樣的硬件和運控做得很好的公司,核心能力就是用各種方法縮小這個 gap,所以現(xiàn)在我們能看到機(jī)器人流暢地運動、跳舞。

第二道曙光是以 GPT 為代表的大語言模型,它提供了機(jī)器人領(lǐng)域以前最難的任務(wù)規(guī)劃能力。自動駕駛的任務(wù)規(guī)劃相對簡單,就是從 A 到 B,而且有地圖這種現(xiàn)成的導(dǎo)航數(shù)據(jù);但機(jī)器人任務(wù)復(fù)雜得多,而且進(jìn)家、進(jìn)工廠都缺乏數(shù)據(jù),而 GPT 則非常擅長任務(wù)規(guī)劃。

三就是我自己驗證過的端到端。本質(zhì)上,所有機(jī)器人任務(wù)的邏輯都是輸入傳感器信息和指令、輸出動作。但傳感器數(shù)據(jù)極高維,指令又極低維,過去堆疊二者的方式就是靠寫規(guī)則。規(guī)則要窮盡自動駕駛的 corner case 已經(jīng)很難了,在機(jī)器人上更是不可能,所以端到端能奏效這個認(rèn)知非常重要。

晚點:自動駕駛和具身智能等物理 AI 領(lǐng)域有幾個經(jīng)常一起出現(xiàn)的概念:端到端、VLA、世界模型,你怎么理解和區(qū)分它們?

陳亦倫:端到端的本質(zhì)是盡量用神經(jīng)網(wǎng)絡(luò)解決所有問題,至于底層是模仿學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都是可選的方法。

VLA(Vision-Language-Action 視覺語言動作模型) 則是一種神經(jīng)網(wǎng)絡(luò),它輸入視覺和語言信息、輸出機(jī)器人的動作。至于中間是怎么訓(xùn)的,現(xiàn)在也有不同理解。

世界模型的定義就更多了,但從信息論角度講很簡單,就是輸入此時的狀態(tài),生成下一個狀態(tài)。這個狀態(tài)可以用 3D 信息、視頻或物理交互的變化來表達(dá),所以現(xiàn)在說起 “世界模型”,有人說的是 3D 生成、有人說的是視頻生成、有人說的是理解物理交互。它的用途也千奇百怪,有的是給元宇宙或游戲做的,有的想給具身和機(jī)器人用。

晚點:雖然你認(rèn)為一些條件更成熟了,但整個具身的進(jìn)度遠(yuǎn)落后于大語言模型,瓶頸是什么?

陳亦倫:我認(rèn)為 AI 要解決一個大型復(fù)雜問題,需要跨越三道墻。

第一道是數(shù)據(jù)墻。只有足夠的數(shù)據(jù)量才能支撐足夠復(fù)雜的網(wǎng)絡(luò)。大語言模型在這一點上是被祝福的,因為互聯(lián)網(wǎng)上已經(jīng)有海量語料,而要獲得具身智能所需的數(shù)據(jù)則很難、很貴。

第二道是算力墻。為什么不是算法呢?因為越復(fù)雜的系統(tǒng),往往算法結(jié)構(gòu)越簡單,這才能經(jīng)受住海量數(shù)據(jù)。所以進(jìn)入預(yù)訓(xùn)練 scaling(規(guī)?;╇A段后,差異不在算法,而是算力比拼。

接下來,當(dāng)擴(kuò)大算力帶來的邊際效應(yīng)遞減或算力本身不夠用之后,就會遇到第三道墻,進(jìn)入后訓(xùn)練。這時不能再靠堆資源,而是要針對具體問題找到精妙的解法,這會是一個很有創(chuàng)造力的階段。

現(xiàn)在,大語言模型和自動駕駛都已經(jīng)過了第二階段,而具身智能還在第一道墻下,就是數(shù)據(jù)。具身智能目前的核心痛點就是如何低成本、大規(guī)模地獲得高質(zhì)量數(shù)據(jù)。一旦數(shù)據(jù)問題解決,行業(yè)會收到一波巨大的紅利,智能能力會突飛猛進(jìn)。

重劍無鋒、大巧不工,越復(fù)雜的任務(wù)、越海量的數(shù)據(jù),算法結(jié)構(gòu)反而要越簡單

晚點:聽起來你并不擔(dān)心具身智能的算法和模型該怎么設(shè)計?

陳亦倫:首先,缺乏數(shù)據(jù)時,你對算法是無能為力的。同時,神經(jīng)網(wǎng)絡(luò)的算法和傳統(tǒng)算法也不太一樣。傳統(tǒng)算法要仔細(xì)推敲怎么設(shè)計,而神經(jīng)網(wǎng)絡(luò)本質(zhì)是一個函數(shù),最重要的是定義輸入和輸出,其他很多設(shè)計不在算法本身,而在算法之外:比如如何最大化利用算力,如何盡可能降低獲取數(shù)據(jù)的成本。

晚點:但是我們看大語言模型的發(fā)展,互聯(lián)網(wǎng)海量數(shù)據(jù)早就存在,而直到 Transformer 這種模型架構(gòu)出現(xiàn),后來又從 BERT 發(fā)展到 GPT,整個領(lǐng)域才有大的轉(zhuǎn)折。(注:BERT 和 GPT 都是 Transformer 架構(gòu)的大語言模型,BERT 有編碼器和解碼器,GPT 結(jié)構(gòu)更簡單,只有解碼器。)

陳亦倫:我認(rèn)為 GPT 最偉大的不是架構(gòu)本身,而是想出了 next-token-prediction(預(yù)測下一個詞)這個訓(xùn)練任務(wù)。

其實很早時,在 OpenAI 和特斯拉都工作過的 Andrej Karpathy 就寫過一篇著名的技術(shù)博客,叫《循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的驚人效果》(The Unreasonable Effectiveness of Recurrent Neural Networks,發(fā)表于 2015 年)。他展示了讓一個不大的 RNN 模型不停預(yù)測下一個 character(字符),它竟能寫詩、寫代碼。我那時看到的第一反應(yīng)就是:能不能把這套邏輯用在自動駕駛上?這種通過簡單任務(wù)訓(xùn)練出復(fù)雜能力的想法確實了不起。

晚點:當(dāng)時都還沒有 Transformer。(注:Transformer 最早在 2017 年被提出。)

陳亦倫:對,所以關(guān)于模型架構(gòu),還是我前面說的——重劍無鋒、大巧不工,越復(fù)雜的任務(wù)、越海量的數(shù)據(jù),網(wǎng)絡(luò)結(jié)構(gòu)反而要越簡單、越返璞歸真。

GPT 就是這樣,在小數(shù)據(jù)集上沒有明顯優(yōu)勢,但有了更大的數(shù)據(jù)后,大家都不約而同地走向了它。

晚點:如果大語言模型的成功是定義了 “預(yù)測下一個 token” 這個目標(biāo)。那么在具身智能領(lǐng)域,好的訓(xùn)練目標(biāo)是什么?

陳亦倫:這是一個特別好的問題。自動駕駛領(lǐng)域?qū)呱碇悄苡袃蓚€非常棒的啟發(fā):一是 2020 年特斯拉 AI Day 上提出的 BEV(鳥瞰視野),本質(zhì)就是一層空間重建?,F(xiàn)在有很多人通過 VLA 做端到端,但再怎么引入語言,也逃不掉空間重建。

其實從更本質(zhì)的角度去想,什么表達(dá)是更好的?最經(jīng)典的物理表達(dá)就是最好的。你可以用圖像去理解世界,每個像素都是一個色彩值,這樣從不同角度去看一個物理實體,會有多種組合,但其實它還是同一個實體,它有時空概念,占據(jù)了一定的時間、空間;然后當(dāng)它運動,它有力學(xué)的概念,力學(xué)會指引它下一刻變成什么狀態(tài)。這種物理表達(dá)遠(yuǎn)比 RGB 要精簡得多,因為它更本質(zhì)。如果能讓神經(jīng)網(wǎng)絡(luò)學(xué)到這些物理的東西,很多任務(wù)都會變得非常容易。

這(空間重建)是 Physical AI(物理 AI)獨有的,跟大語言模型沒關(guān)系。

然后第二類要訓(xùn)練的目標(biāo)是和世界的交互。這一點機(jī)器人比自動駕駛難,因為自動駕駛是一個不碰撞系統(tǒng),而機(jī)器人是一個接觸物體的系統(tǒng),它會對操作對象施加力,比如操作布料、線束等柔性物體就很難。

晚點:所以很多具身智能公司會用疊衣服、團(tuán)襪子、整理餐巾紙來證明自己的技術(shù)實力,你們也展示了刺繡。

陳亦倫:是的。如果只是把剛性物體,比如金屬零件整齊地抓取、放置,這早解決了。這一代機(jī)器人的使命就是要完成上一代技術(shù)做不了的任務(wù)。



它石機(jī)器人展示刺繡它石 Logo。

晚點:總結(jié)一下,你認(rèn)為具身的兩個重要訓(xùn)練目標(biāo)是空間重建和與世界的交互。那如果真做到了這些,會看到具身領(lǐng)域像大語言模型那樣出現(xiàn)何種智能涌現(xiàn)?

陳亦倫:涌現(xiàn)的本質(zhì)是內(nèi)插。大語言模型看起來聰明,是因為面對一個 prompt,它在海量數(shù)據(jù)中回溯到了相似的片段并生成了新組合,并不是 “真的懂了”。具身智能現(xiàn)在也一樣,但已能展現(xiàn)驚人的效果。

晚點:表面的 “涌現(xiàn)” 并不是真的泛化?

陳亦倫:這套方法論是泛化的。雖然預(yù)訓(xùn)練本身不是讓模型 “真的懂和理解”,但可以通過補充數(shù)據(jù)增強(qiáng)一個垂直領(lǐng)域的能力。比如大語言模型的一個落地方向是 coding,那就要給它各種代碼的數(shù)據(jù)。FSD 也是一個例子,它在美國跑得很好,但到了中國、日本等其他地區(qū)不能馬上開得很好,但可以通過擴(kuò)展相對少的本地數(shù)據(jù)提升表現(xiàn)。

機(jī)器人也是同理,當(dāng)基座模型的能力越來越強(qiáng),就可以通過補充特定任務(wù)的數(shù)據(jù)來適應(yīng)多樣的任務(wù)。這個部署時補充的數(shù)據(jù)量不需要那么大。

晚點:這套方法也許能實現(xiàn)一些場景的商業(yè)應(yīng)用,但它還是不能像人那樣快速學(xué)習(xí)新任務(wù)。

陳亦倫:你說的對,現(xiàn)在這套方法還是相對 heavy(重),本質(zhì)是瘋狂的數(shù)據(jù)生成器和數(shù)據(jù)模擬器。而人會主動靠自己的一些先驗判斷高效地找到需要的數(shù)據(jù),并吸收和學(xué)習(xí)。比如 Ilya 最近分享過,人依靠某種機(jī)制,可以在開始一個任務(wù)之前或做到中途時就想象結(jié)果、獲得反饋,這可能通過情緒起作用的,比如我們開始一件事之前,往往就有畏懼或興奮,而機(jī)器的強(qiáng)化學(xué)習(xí)不是這樣,它要遍歷所有可能的解,在完成一個任務(wù)后,才能得到 reward。(注:Ilya 是 OpenAI 前首席科學(xué)家和 Safe Superintelligence 的創(chuàng)始人,2025 年 11 月,Ilya 接受 Dwarkesh 訪談時提及了這個想法。)

所以如果真能解決這個問題(像人那樣學(xué)習(xí)新任務(wù))將是非常非常重大的影響力,讓 AI 學(xué)習(xí)效率翻很多倍。但在目前階段,大家找到能展現(xiàn)強(qiáng)大效果的東西,依然是這套數(shù)據(jù)生成和擬合方法。

已采集 10 萬小時數(shù)據(jù),明年數(shù)據(jù)量會再翻數(shù)倍

晚點:來講講它石是具體怎么做數(shù)據(jù)和模型的吧。你們發(fā)布的 “Human-centric”(以人為中心)數(shù)據(jù)引擎,是一對輕量化的手套加第一視角攝像機(jī)構(gòu)成的采集設(shè)備,讓人戴著它們?nèi)スぷ鳌槭裁聪氲竭@種方法?

陳亦倫:我是把數(shù)據(jù)問題想明白才創(chuàng)業(yè)的。2024 年的第一份 BP(商業(yè)計劃書)里就寫了現(xiàn)在的思路,但飽受質(zhì)疑。因為當(dāng)時特斯拉 Optimus 和 Physical Intelligence(PI,一家美國具身智能創(chuàng)業(yè)公司) 等都在用遙操作——即由人操控機(jī)器人采集全量數(shù)據(jù)。但它又貴又慢,很難達(dá)到具身數(shù)據(jù)的基礎(chǔ)規(guī)模。



它石自研數(shù)據(jù)采集套件 SenseHub,采集設(shè)備由手套(有五指手套和兩指手套兩個版本)、第一視角攝像機(jī)組成。

晚點:具身數(shù)據(jù)的基礎(chǔ)規(guī)模是多少?

陳亦倫:1000 萬小時或更多。自動駕駛系統(tǒng)要做到持續(xù)可用,需要約 100 萬小時的數(shù)據(jù);具身智能的復(fù)雜度更高,數(shù)據(jù)量也多一個數(shù)量級。

晚點:仿真或者從視頻數(shù)據(jù)里學(xué)習(xí),是否也能低成本、大規(guī)模地獲取數(shù)據(jù)嗎?這也是一些公司的選擇,如銀河、Hillbot 都側(cè)重仿真數(shù)據(jù)。

陳亦倫:這都是我們過去踩過的坑。

先說互聯(lián)網(wǎng)視頻數(shù)據(jù)。做自動駕駛時,我們就扒過很多 Youtube 的行車視頻。但一是,它的量其實沒那么大,二是大量這類視頻是車在正常行駛,并不匹配我們要解決的駕駛問題,不能建立 “指令-動作” 的映射。所以很多這個方向的團(tuán)隊后來也棄坑了。這在機(jī)器人上也是一樣的。

仿真能把圖像渲染得很逼真,可以解決感知,但對精細(xì)操作的用處不大。唯一的例外是 Locomotion(運動控制) 仿真,因為它不需要關(guān)心復(fù)雜的環(huán)境。

晚點:所以除了數(shù)據(jù)量,想清楚什么類型的數(shù)據(jù)有用也很關(guān)鍵。

陳亦倫:對,數(shù)據(jù)在具身領(lǐng)域是第一性的,后面要做什么算法,也要匹配數(shù)據(jù)類型。

總體來說,具身數(shù)據(jù)有兩種來源:一是從人身上來,一是從世界來。從人身上來,更直接、更快。而能記錄人的行為的數(shù)據(jù),本質(zhì)就是傳感器數(shù)據(jù),于是問題就變成了:應(yīng)該怎么設(shè)計傳感器,才能自然、低成本、大規(guī)模地拿到人的行為數(shù)據(jù)?而且這些數(shù)據(jù)應(yīng)該是人在真實場景里的真實動作的數(shù)據(jù)。

晚點:遙操雖然貴,但它是真機(jī)數(shù)據(jù),不也是真實場景、真實動作嗎?

陳亦倫:其實遙操大部分情況下做不到真實場景,因為遙操的機(jī)器人現(xiàn)在無法像人那樣靈活的工作,還會干擾別人干活,所以它很難進(jìn)到真實的工廠、咖啡館或家庭。

遙操的動作也不夠真實,因為操作員要一會兒做這類任務(wù),一會兒做那類任務(wù),并不能像這些場景的專業(yè)勞動者那樣去工作。

晚點:你怎么看有公司做了大規(guī)模的數(shù)采工廠,生產(chǎn)大量機(jī)器人,然后用遙操來采集數(shù)據(jù)?

陳亦倫:當(dāng)年自動駕駛,也有人花巨資修測試場,模擬各種道路環(huán)境,看起來像個小世界。但在這里瘋狂開車訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)并不能直接上路。

具身也一樣:如果一個機(jī)器人只在人為設(shè)計的環(huán)境里運行,它脫離了這個環(huán)境就會出問題。

晚點:你們這套數(shù)據(jù)采集方法有什么缺陷嗎?

陳亦倫:我們這套采集方法效率更高、數(shù)據(jù)更真實、更容易規(guī)模化,在架構(gòu)和功能設(shè)計上沒有發(fā)現(xiàn)缺陷,但是對于 AI 能力的要求更高。

晚點:它石現(xiàn)在實際的采集量級和增速如何?

陳亦倫:非??臁N覀儚?2025 年 8、9 月開始大規(guī)模采集,目前已有約 10 萬小時數(shù)據(jù)。我們用了很多方法壓縮成本,現(xiàn)在可以開始 scale 了,明年數(shù)據(jù)量會暴漲很多倍。

晚點:成本有多低?比遙操能低多少?

陳亦倫:至少低兩個數(shù)量級(即 1/100)。遙操作需要弄一堆昂貴的機(jī)器人放在那兒,動作慢、成功率低,還要額外雇操作員花錢采數(shù)據(jù)。而我們這種方式可以跟場景方合作,讓勞動者戴上手套工作,不干擾生產(chǎn)。我們最大的成本其實在算力上,以及要建立一套把原始數(shù)據(jù)變成訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)的 pipeline(數(shù)據(jù)處理流程)。



超市工作人員佩戴它石自研數(shù)采設(shè)備理貨時獲得的數(shù)據(jù)。

晚點:通過它石這套可穿戴設(shè)備,可以采集到什么維度的數(shù)據(jù)?

陳亦倫:就是全信息地刻畫手的動作,包括手在空間中的位姿,即位置和姿態(tài);每個手指的位姿;和動作時施加給對象的力。

晚點:不需要額外戴傳感器在手臂上采集臂的動作嗎?

陳亦倫:不需要。我們追求的是盡量讓人無感的被動采集,手套要輕、要無線。

晚點:位姿是靠同時戴著的第一視角的攝像機(jī)來獲取的嗎?

陳亦倫:不是簡單靠視覺。比如人疊被子時,手是在被子里的,你看不到自己的手在哪兒,但也能完成工作??傊覀冇幸幌盗械脑O(shè)計,這也是為什么我們要自己做硬件。

晚點:之前市面上沒有現(xiàn)成可用的手套采集設(shè)備嗎?

陳亦倫:機(jī)器人領(lǐng)域沒有。其他領(lǐng)域有一些看起來類似的,但都不是為具身智能設(shè)計的。比如 VR 操作手柄,主要依靠眼鏡上的攝像頭定位。但這種數(shù)據(jù)對具身來說質(zhì)量不夠,它缺少深度信息,也無法在昏暗光源下工作。電影行業(yè)的動捕手套則精度不夠。

晚點:Sunday Robotics 在 2025 年 11 月發(fā)布了 skill capture glove(技能捕捉手套),這和你們方法的異同是什么?

陳亦倫:首先做不做手套,涉及對機(jī)器人操作終態(tài)的設(shè)想。我是靈巧手的堅定擁護(hù)者,我認(rèn)為終態(tài)的操作終端一定是靈巧手,所以要給他找一個匹配的傳感器,也就是手套。而且手套非常容易泛化,可以做各種任務(wù)、采集多樣的數(shù)據(jù)。

這個思路下,現(xiàn)在不同團(tuán)隊的實現(xiàn)程度不同,因為手套的工業(yè)設(shè)計很難。我們是做了能采集全量信息的五指手套。Sunday 是做了一個三指手套,這是一個自由度更低的降維版。更簡單的做法是讓人拿著一個夾具去操作任務(wù)。

晚點:有投資人認(rèn)為,中國雖然具身智能公司很多,但沒什么引領(lǐng)性貢獻(xiàn),比如 VLA 模型是 Google RT-2 開啟的,用可穿戴手套采集數(shù)據(jù)的做法也被認(rèn)為是 Sunday 等美國團(tuán)隊引領(lǐng)的。

陳亦倫:大家還是要對中國技術(shù)有信心。我有很多在美國從事機(jī)器人行業(yè)的朋友,他們現(xiàn)在看到中國的進(jìn)展壓力很大。

因為具身是硬件、數(shù)據(jù)和算法間的緊密交織,你想做很好的模型,就得知道要哪些數(shù)據(jù)、用什么傳感器、怎么采集,將來要用在什么執(zhí)行器上。中國有強(qiáng)大的工業(yè)制造能力,也有這么多 AI 人才和工程師,可以更好整合這些要素,協(xié)同優(yōu)化。在具身智能時代,美國創(chuàng)業(yè)者不會是中國創(chuàng)業(yè)者的對手。

具身模型不會是 LLM 上長出來的東西

晚點:你們的模型叫 AWE,AI World Engine,即 AI 世界引擎,聽起來它不是行業(yè)主流選擇的 VLA(視覺-語言-動作)模型。

陳亦倫:對。AWE 首先追求的是對物理世界的深度表達(dá)。我們投入最多的算力去記錄時間、空間、力等物理量或者說 “世界信息”,而不是像 VLM 那樣做 “視網(wǎng)膜式” 的表達(dá)。這些世界信息還記錄機(jī)器人怎么跟物體交互,比如擠壓一個物體,它會怎么反饋。

第二是,為什么把它叫引擎?其實也可以說是模型。但引擎是想強(qiáng)調(diào),它是動態(tài)演化的,當(dāng)機(jī)器人的 action 改變后,它能預(yù)測世界接下來的狀態(tài),并推薦機(jī)器人下一步應(yīng)如何操作。

晚點:為什么不做更主流的 VLA?

陳亦倫:創(chuàng)業(yè)前我就想過,機(jī)器人行業(yè)是否值得擁有自己的基礎(chǔ)模型?如果認(rèn)為機(jī)器人模型只是在 VLM 多模態(tài)大模型上長出一個解決動作(action)的 “頭”,那機(jī)器人就只是其他行業(yè)的下游分支,這個行業(yè)就不能獨立存在。

晚點:目前的 VLA 的主流做法,簡單說,就是先用 LLM 得到 VLM(視覺-語言模型),再在 VLM 基礎(chǔ)上做 VLA。

陳亦倫:對,我非常不認(rèn)同這么做。目前的多模態(tài)模型大多是 “看圖說話” 的問答數(shù)據(jù)支撐的。僅靠看圖說話,不可能讓機(jī)器人知道在世界上如何做事。機(jī)器人領(lǐng)域一定會有一套自己的模型。

晚點:現(xiàn)在很多具身從業(yè)者會說,具身智能還沒有找到自己的 “Scaling Law”,首先你怎么看這種評價?以及你覺得它什么時候會來?

陳亦倫:我覺得具身已經(jīng)在 scaling 了。大家一般看 scaling 有兩種判斷依據(jù),一是性能是否已經(jīng)達(dá)到某個狀態(tài),二是看增長趨勢。如果看趨勢,毫無疑問現(xiàn)在就是 scaling 狀態(tài),但明顯表現(xiàn)在模型性能能上,還需要時間。

Scaling Law 之所以啟動比較慢,是因為前面提到的,它要按照順序經(jīng)歷數(shù)據(jù)墻、算力墻還有跟環(huán)境的交互。在 25 年,具身行業(yè)都在認(rèn)真搞數(shù)據(jù),到 27 年甚至 26 年,一定會有效果。

晚點:到時會有什么早期信號?

陳亦倫:行業(yè)從刷視頻 demo,轉(zhuǎn)向解決垂直領(lǐng)域的具體問題。整個行業(yè)的信心指數(shù)會不斷上升。為數(shù)不多的團(tuán)隊可以在一些具體場景上真的做出價值,比如有大客戶的真實采購;行業(yè)平均上可以展示出更強(qiáng)的具身智能能力。

晚點:它石會重點落地的場景是什么?

陳亦倫:消費級市場還需要時間。第一波我們會進(jìn)入工業(yè)制造,比如線束(Wire Harness)裝配。只要有電的地方就有線,汽車、家電、服務(wù)器里全是線。理線、插拔、裝配對傳統(tǒng)機(jī)器人來說太難了,因為線束是立體的、柔性的,而這種高技術(shù)門檻的領(lǐng)域正是我們的機(jī)會。



晚點:最后一個問題,現(xiàn)在具身領(lǐng)域有這么多公司,如何判斷誰是靠譜的?

陳亦倫:每個人可能都是靠譜的,關(guān)鍵看他有沒有想清楚自己要成為誰。我們很明確自己要做什么,所以我們會按照正確的方式一直跑下去。

題圖來源:它石

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
53歲李冰冰在巴黎殺瘋了!白到發(fā)光隱現(xiàn)腹肌,這狀態(tài)真不是人類?

53歲李冰冰在巴黎殺瘋了!白到發(fā)光隱現(xiàn)腹肌,這狀態(tài)真不是人類?

草莓解說體育
2026-02-06 05:59:56
比特幣反彈7.64%,市場恐懼指數(shù)仍然為10

比特幣反彈7.64%,市場恐懼指數(shù)仍然為10

財聞
2026-03-01 10:23:12
新華社快訊:伊朗媒體稱伊朗最高領(lǐng)袖哈梅內(nèi)伊遇害

新華社快訊:伊朗媒體稱伊朗最高領(lǐng)袖哈梅內(nèi)伊遇害

新華社
2026-03-01 09:33:15
河南籍在伊華人逃離德黑蘭:接到大使館通知當(dāng)日乘飛機(jī)離開,合伙人準(zhǔn)備撤離時購票網(wǎng)站已無法登錄

河南籍在伊華人逃離德黑蘭:接到大使館通知當(dāng)日乘飛機(jī)離開,合伙人準(zhǔn)備撤離時購票網(wǎng)站已無法登錄

大象新聞
2026-02-28 21:46:49
美國指責(zé)中國開展核爆炸試驗,外交部:美國為逃避國際軍控義務(wù),不惜栽贓抹黑別國

美國指責(zé)中國開展核爆炸試驗,外交部:美國為逃避國際軍控義務(wù),不惜栽贓抹黑別國

每日經(jīng)濟(jì)新聞
2026-02-25 16:40:30
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
美政府“第三國遣返”政策被裁定違法

美政府“第三國遣返”政策被裁定違法

參考消息
2026-03-01 14:57:04
下午4點,中國男籃vs中國臺北!傳來1壞消息,爆冷輸球=淪為墊底

下午4點,中國男籃vs中國臺北!傳來1壞消息,爆冷輸球=淪為墊底

侃球熊弟
2026-03-01 00:07:19
中東局勢對A股有何影響?短期回調(diào)也是上車機(jī)會,關(guān)注這些板塊

中東局勢對A股有何影響?短期回調(diào)也是上車機(jī)會,關(guān)注這些板塊

徐sir財經(jīng)
2026-03-01 12:55:35
普拉蒂尼:現(xiàn)在沒有特別突出的球員,上一個真正杰出的是梅西

普拉蒂尼:現(xiàn)在沒有特別突出的球員,上一個真正杰出的是梅西

懂球帝
2026-03-01 01:18:21
又一衛(wèi)健委主任被抓!

又一衛(wèi)健委主任被抓!

梅斯醫(yī)學(xué)
2026-02-28 07:53:41
林彪主持會議時,輪到陳賡發(fā)言,他卻笑著說道:我摸過林彪的腦殼

林彪主持會議時,輪到陳賡發(fā)言,他卻笑著說道:我摸過林彪的腦殼

文史明鑒
2026-01-17 23:55:16
OPPO誕生新卷王,7200mAh+100W+IP69防水,國補后有“真香價”

OPPO誕生新卷王,7200mAh+100W+IP69防水,國補后有“真香價”

小愚測評
2026-03-01 15:04:11
伊朗失守的一個側(cè)面:匯率雙軌,特權(quán)分蛋糕,普通人買單

伊朗失守的一個側(cè)面:匯率雙軌,特權(quán)分蛋糕,普通人買單

蛙蛙和洼
2026-01-18 09:25:01
山西婚鬧致死案:新郎被4個伴郎暴打致死,婚禮結(jié)束直接辦喪事

山西婚鬧致死案:新郎被4個伴郎暴打致死,婚禮結(jié)束直接辦喪事

明智家庭教育
2025-12-02 11:20:34
49歲的特朗普95年來香港,懷中抱著一位神秘中國女孩,她是誰?

49歲的特朗普95年來香港,懷中抱著一位神秘中國女孩,她是誰?

板栗說事
2025-02-17 07:54:14
伊朗終于發(fā)狠了,打擊力度升級,關(guān)鍵時刻,掏出中國一王牌武器

伊朗終于發(fā)狠了,打擊力度升級,關(guān)鍵時刻,掏出中國一王牌武器

史智文道
2026-02-28 16:27:37
阿爾茨海默病者逐漸增多,醫(yī)生提醒:50歲后,盡量改掉5個壞習(xí)慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:50歲后,盡量改掉5個壞習(xí)慣

奇妙的本草
2026-03-01 12:01:16
我們瞧不起漂亮國也不是一天兩天了

我們瞧不起漂亮國也不是一天兩天了

霹靂炮
2026-02-08 22:17:59
隨著41歲C羅離譜失點+率隊3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

隨著41歲C羅離譜失點+率隊3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

側(cè)身凌空斬
2026-03-01 05:16:08
2026-03-01 15:43:00
晚點LatePost
晚點LatePost
晚一點,好一點。商業(yè)的真相總是在晚點?!锻睃cLatePost》官方賬號
3086文章數(shù) 21893關(guān)注度
往期回顧 全部

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

頭條要聞

專家:伊朗局勢可參考委內(nèi)瑞拉 反美力量將進(jìn)一步削弱

頭條要聞

專家:伊朗局勢可參考委內(nèi)瑞拉 反美力量將進(jìn)一步削弱

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

手機(jī)
時尚
旅游
家居
公開課

手機(jī)要聞

小米盧偉冰官宣明日直播

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級又耐看

旅游要聞

2026新春走基層|玉淵潭頂流“螺螄粉”櫻,竟由“90后”隊長打造

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版