国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

成立一年半累計(jì)融資超 20 億,這個(gè)團(tuán)隊(duì)想搞定具身智能最難的「數(shù)據(jù)瓶頸」

0
分享至


用「無(wú)本體數(shù)采」的方式訓(xùn)練具身模型,靈初智能的這條路徑是 VLA 之后行業(yè)最熱的方向之一。


作者|Li Yuan

編輯|鄭玄

3 月 10 日,據(jù)極客公園獲悉,具身智能企業(yè)靈初智能首次對(duì)外披露其過(guò)往融資進(jìn)展:公司已先后完成天使輪及 Pre-A 輪融資,累計(jì)融資規(guī)模達(dá) 20 億元。

天使輪由國(guó)開(kāi)金融、國(guó)中資本、央視融媒體產(chǎn)業(yè)投資基金等國(guó)家級(jí)「國(guó)家隊(duì)」資本,某數(shù)千億上市公司旗下戰(zhàn)投、長(zhǎng)飛光纖旗下基金,兩大核心產(chǎn)業(yè)龍頭資本,沃德?tīng)柕戎a(chǎn)業(yè)資本,及元生創(chuàng)投、珠??萍籍a(chǎn)業(yè)集團(tuán)、鈞山投資、燕緣創(chuàng)投、大米資本、沃賦資本、彬復(fù)資本、泰合資本等多家知名基金共同投資。

Pre-A 輪由上海國(guó)資徐匯資本等基金領(lǐng)投,梁溪科創(chuàng)產(chǎn)業(yè)二期母基金 (博華資本管理)、錫創(chuàng)投等地方國(guó)資,及普豐資本、鈦銘資本等市場(chǎng)化基金跟投,多家老股東實(shí)現(xiàn)超額跟投。華興資本擔(dān)任長(zhǎng)期財(cái)務(wù)顧問(wèn)。

經(jīng)估算,公司估值一年內(nèi)大概翻了 6-7 倍,已經(jīng)向行業(yè)獨(dú)角獸邁進(jìn)。

靈初智能成立于 2024 年年底,此前宣傳并不多。

創(chuàng)始人兼 CEO 王啟斌在創(chuàng)辦靈初智能之前,先后就職于云跡科技和京東機(jī)器人,主要負(fù)責(zé)酒店配送機(jī)器人與物流配送機(jī)器人的研發(fā)。

聯(lián)合創(chuàng)始人陳源培出生于 2001 年,曾在北京大學(xué)楊耀東教授團(tuán)隊(duì)及斯坦福大學(xué)李飛飛實(shí)驗(yàn)室學(xué)習(xí)與研究。他此前的研究重點(diǎn)包括:利用強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)靈巧手完成復(fù)雜長(zhǎng)程任務(wù)與類(lèi)人操作,以及將人類(lèi)數(shù)據(jù)遷移到機(jī)器人系統(tǒng)中。

與今年年初獲得大額融資的多家具身智能公司類(lèi)似,靈初智能也將重心放在「具身大腦」方向。

公司當(dāng)前的核心路線,是用「無(wú)本體數(shù)采」的方式訓(xùn)練具身模型:通過(guò)人類(lèi)佩戴式設(shè)備采集操作數(shù)據(jù),以緩解具身智能長(zhǎng)期面臨的高質(zhì)量數(shù)據(jù)瓶頸。這條路徑在 VLA 之后成為行業(yè)最熱的方向之一。

在模型訓(xùn)練上,則采取強(qiáng)化學(xué)習(xí)為主、模仿學(xué)習(xí)為輔的方式,追求更高節(jié)拍與成功率。

極客公園采訪了靈初智能兩位創(chuàng)始人。兩人的分工和路線選擇都很清楚:CEO 王啟斌的表達(dá)更鋒利,核心抓手是落地與交付;聯(lián)合創(chuàng)始人陳源培更偏技術(shù)掌舵,對(duì)接下來(lái)技術(shù)路線要往哪走,有一套相對(duì)確定的判斷。

他們的共識(shí)也很明確:靈初智能不做整機(jī)硬件自研——在他們看來(lái),輪式底盤(pán)已經(jīng)供給過(guò)剩、缺乏差異化空間;但在決定長(zhǎng)期能力邊界的關(guān)鍵環(huán)節(jié)上,他們又非常強(qiáng)硬:一定要自研靈巧手和數(shù)據(jù)采集裝置,并把落地場(chǎng)景收斂在物流/商超,用一個(gè)足夠小、但可以持續(xù)外推泛化的細(xì)分任務(wù)打穿,跑出能夠持續(xù)回流的數(shù)據(jù)飛輪。

在采訪中,兩位反復(fù)強(qiáng)調(diào):他們已經(jīng)進(jìn)入真實(shí)世界部署階段——不是拍 demo、寫(xiě)論文,而是在客戶(hù)現(xiàn)場(chǎng)把系統(tǒng)跑起來(lái),再用現(xiàn)場(chǎng)數(shù)據(jù)反哺模型迭代。下面摘錄幾段最具代表性的原話,可以看出這是一支很務(wù)實(shí)、強(qiáng)落地導(dǎo)向的團(tuán)隊(duì):

·「夾爪能解決 80% 的問(wèn)題」其實(shí)是個(gè)偽命題。你真的進(jìn)到客戶(hù)現(xiàn)場(chǎng)就知道——一個(gè)倉(cāng)庫(kù)里 100 個(gè)物體你只能搞 80 個(gè),那剩下 20 個(gè)怎么辦?總不能扔掉。 ·很多公司說(shuō)要做商超,但你真正去商超現(xiàn)場(chǎng)看,會(huì)發(fā)現(xiàn)核心問(wèn)題根本不是「從貨架上拿東西」的這種抓取放置的工作(pick and place),商超的主戰(zhàn)場(chǎng)依然是有人作業(yè)。 ·我們的判斷是:人最終是「載體」,所以我們會(huì)盡可能把人的各類(lèi)模態(tài)都采下來(lái),從而最大程度避免數(shù)據(jù)未來(lái)「不可用」。
·未來(lái)數(shù)據(jù)采集本身會(huì)一直持續(xù),但它要么進(jìn)入少數(shù)算法能力很強(qiáng)的公司體系里;要么就只能退化成純?nèi)肆ν獍?。兩者的價(jià)值和定價(jià)會(huì)差非常多。 ·大廠只要肯投人、肯投錢(qián),收很多數(shù)據(jù)去訓(xùn)練,基本都能訓(xùn)出一些「看起來(lái)還可以」的模型。但如果我們把物流場(chǎng)景的數(shù)據(jù)牢牢握在手里——甚至不對(duì)外出售,同時(shí)把大部分物流場(chǎng)景占住——那別人再想進(jìn)來(lái),不管是數(shù)據(jù)質(zhì)量還是數(shù)據(jù)收集速度都會(huì)差很多,最終效果也會(huì)差很多。

以下是部分采訪紀(jì)要,經(jīng)極客公園整理。

01

靈初智能為什么要關(guān)注人類(lèi)數(shù)據(jù)?

問(wèn):過(guò)去幾年具身智能沒(méi)有落地的核心問(wèn)題是什么?

王啟斌:核心是數(shù)據(jù)問(wèn)題。

數(shù)據(jù)問(wèn)題大家都有共識(shí),但更底層的問(wèn)題在于:目前還沒(méi)有形成一種技術(shù)路徑與商業(yè)模式相結(jié)合的機(jī)制,使得數(shù)據(jù)能夠大規(guī)模、低成本地回流。也就是說(shuō),具身領(lǐng)域現(xiàn)在還不存在「特斯拉模式」。

我自己對(duì)特斯拉做過(guò)比較深入的研究:特斯拉模式之所以能啟動(dòng),是因?yàn)閺?2013 年開(kāi)始鋪墊,Model 3 在 2017 年發(fā)布后,很快做到年銷(xiāo)量上百萬(wàn)臺(tái),靠巨量部署讓數(shù)據(jù)快速回流,從而推動(dòng) FSD 快速迭代。但具身機(jī)器人今天最難的就是市場(chǎng)怎么冷啟動(dòng)、數(shù)據(jù)從哪里來(lái)——仿真數(shù)據(jù)的 gap 太大,而缺數(shù)據(jù)就無(wú)法大規(guī)模部署;無(wú)法部署就沒(méi)有低成本的數(shù)據(jù)回流,形成了一個(gè)典型的「雞生蛋、蛋生雞」的閉環(huán)難題。

所以現(xiàn)在大家都在搞數(shù)據(jù):美國(guó)頭部公司在做,中國(guó)從政府到頭部企業(yè)也都在做。但關(guān)鍵不在于「做不做數(shù)據(jù)」,而在于數(shù)據(jù)能不能形成一個(gè)有效、可持續(xù)的模式——從數(shù)據(jù)基礎(chǔ)設(shè)施(Infra)、數(shù)據(jù)采集方式、怎么采、怎么訓(xùn),到是否能訓(xùn)練出具備泛化能力的預(yù)訓(xùn)練模型,這些是具身繼續(xù)往前走必須跨過(guò)的幾步。

對(duì)靈初來(lái)說(shuō),今年的主旋律就是解決這個(gè)問(wèn)題。

我們?cè)谧鰯?shù)據(jù)采集設(shè)備上非常激進(jìn)——我們?cè)谧鲆惶子糜陬A(yù)訓(xùn)練的、無(wú)本體的多模態(tài)數(shù)據(jù)采集手套,目前已經(jīng)在北京規(guī)?;渴稹?/p>


靈初的思路其實(shí)很簡(jiǎn)單:我們會(huì)用人的多模態(tài)數(shù)據(jù)作為基礎(chǔ)——戴上數(shù)據(jù)手套,大規(guī)模采集從物流、商超到泛服務(wù)業(yè)的各類(lèi)真實(shí)作業(yè)數(shù)據(jù)。我們采的是長(zhǎng)程、多模態(tài)數(shù)據(jù):包括觸覺(jué)、頭部/手部等多視角視覺(jué),以及關(guān)節(jié)角等信息。然后用這些數(shù)據(jù)去訓(xùn)練我們的基礎(chǔ)模型。真正落地到某個(gè)機(jī)型時(shí),再針對(duì)目標(biāo)機(jī)型補(bǔ)充很少量的數(shù)據(jù)——通常是百小時(shí)量級(jí)的 teleop/遙操作數(shù)據(jù)——把它接到后訓(xùn)練里,去解決具體場(chǎng)景的問(wèn)題。

問(wèn):這套方案用的是真實(shí)人類(lèi)數(shù)據(jù),但是早期你們其實(shí)更多的用的是仿真強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練嗎,是做了轉(zhuǎn)向嗎?

陳源培:我們?cè)缙谄鋵?shí)更像是一套「混合方案」,仿真一直是其中的一部分。但我們也很早就在講人類(lèi)數(shù)據(jù),只是當(dāng)時(shí)行業(yè)里很多人未必能立刻理解,所以外界印象可能更集中在「仿真」上。

仿真的優(yōu)勢(shì)很明確:它可以用來(lái)冷啟動(dòng),也可以用來(lái)驗(yàn)證很多思路。比如我們?cè)缙谧龅囊恍?demo——像打麻將——很多數(shù)據(jù)就是從仿真里收集的,因?yàn)榉抡娌⑿行屎芨?、?shù)據(jù)量可以迅速堆起來(lái),所以短期內(nèi)容易做出成果。

但隨著行業(yè)發(fā)展,人類(lèi)數(shù)據(jù)規(guī)模變成可行方案之后,仿真在模型訓(xùn)練里的權(quán)重就會(huì)逐步下降。換句話說(shuō),不是仿真「完全沒(méi)用」,而是它更適合早期的冷啟動(dòng)與驗(yàn)證;當(dāng)真實(shí)數(shù)據(jù)能規(guī)?;瘯r(shí),訓(xùn)練主線會(huì)自然往真實(shí)數(shù)據(jù)遷移。

我們內(nèi)部也討論過(guò):未來(lái)的仿真大概可以分成三個(gè)階段。

第一階段,類(lèi)似現(xiàn)在 Isaac 這一套,主要是物理規(guī)則寫(xiě)死的仿真系統(tǒng)。

第二階段,是可微分仿真,能夠模擬一些軟體物體,并支持梯度回傳。

第三階段,則是端到端的「仿真」——也就是大家說(shuō)的視覺(jué)模型/世界模型:簡(jiǎn)單說(shuō),就是把視覺(jué)模型當(dāng)作仿真器來(lái)用。

我覺(jué)得如果未來(lái)「仿真」真的還能發(fā)揮很大作用,可能更像第三種:用世界模型做仿真器。因?yàn)槿绻€是純靠寫(xiě)規(guī)則,其實(shí)很難真正解決 sim-to-real gap,而且現(xiàn)在算力也基本到了一個(gè)卡點(diǎn),再往上堆也很難帶來(lái)質(zhì)變。也正因?yàn)槿绱?,大家現(xiàn)在都在往世界模型的方向轉(zhuǎn)。

我們也關(guān)注模型側(cè)的進(jìn)展,但真正投入比較多人力去做的,是一個(gè)我認(rèn)為長(zhǎng)期都會(huì)非常有用的方向:跨本體數(shù)據(jù)遷移。也就是怎么把人的數(shù)據(jù)遷移到機(jī)器人上,比如我輸入一段人類(lèi)操作的視頻,怎么把它轉(zhuǎn)換成機(jī)器人能夠執(zhí)行的操作序列。

02

全球首個(gè)靈巧手真實(shí)世界數(shù)采引擎,

意味著什么?

問(wèn):靈初智能的數(shù)據(jù)采集管線和其他公司有什么不同?

王啟斌:靈初智能一直關(guān)注長(zhǎng)程靈巧操作。

我們之前在看,全世界范圍內(nèi)有沒(méi)有人把靈巧手的人類(lèi)數(shù)據(jù)集真正做得很好?

我們的結(jié)論是沒(méi)有,從去年開(kāi)始基本全是夾爪的數(shù)據(jù)。我們做模型,對(duì)手部數(shù)據(jù)的需求非常清楚,所以我們判斷:這塊供應(yīng)缺口很大,我們有能力用類(lèi)似 UMI 的商業(yè)模式做出自己的方案,于是就自己開(kāi)始做數(shù)據(jù)采集工具。

我們做的是一套多模態(tài)的數(shù)據(jù)采集手套。強(qiáng)調(diào)「多模態(tài)」,是因?yàn)槿说牟僮髂芰Ρ举|(zhì)上就是多模態(tài)融合的:既有力/觸覺(jué)反饋,也有視覺(jué)信息,還包含 21 個(gè)關(guān)節(jié)角的數(shù)據(jù)。


human data 為中心來(lái)構(gòu)建數(shù)據(jù)體系,之后可以 retarget(重定向/遷移)到不同機(jī)器人的末端執(zhí)行器,甚至不同本體上去。

我觀察行業(yè)里目前很多方案,要么只是手套采關(guān)節(jié)角,但缺觸覺(jué);要么加了觸覺(jué),卻沒(méi)有把末端執(zhí)行器的高自由度位置等信息納入一個(gè)統(tǒng)一體系。

同時(shí)我們也是已經(jīng)進(jìn)行了規(guī)?;渴鸬摹皇亲鲆粋€(gè)樣機(jī)拍個(gè)片,發(fā)兩篇論文、寫(xiě)兩篇 PR 稿,你去看看行業(yè)里有沒(méi)有部署百臺(tái)以上的真實(shí)部署的?我們 3 月底會(huì)發(fā)布一個(gè)相對(duì)更大的數(shù)據(jù)集,今年的目標(biāo)是百萬(wàn)小時(shí)的數(shù)據(jù)。

問(wèn):夾爪不能通向未來(lái)嗎?

陳源培:我認(rèn)為未來(lái)只靠夾爪商業(yè)模式肯定是跑不通的。

原因很簡(jiǎn)單:所謂「夾爪能解決 80% 的問(wèn)題」其實(shí)是個(gè)偽命題。你真的進(jìn)到客戶(hù)現(xiàn)場(chǎng)就知道——一個(gè)倉(cāng)庫(kù)里 100 個(gè)物體你只能搞 80 個(gè),那剩下 20 個(gè)怎么辦?總不能扔掉,也不可能跟客戶(hù)說(shuō)「這 20 個(gè) SKU 你別下單了」。真實(shí)落地場(chǎng)景里很多時(shí)候是沒(méi)有討價(jià)還價(jià)空間的:哪怕有一個(gè) SKU 做不了,也算失敗,這個(gè)場(chǎng)景就落不了地。

很多人覺(jué)得「80% 也可以」,是因?yàn)樗麄冏龅氖?demo:100 個(gè)抓到 80 個(gè),剩下 20 個(gè)不展示就完了。但在真實(shí)場(chǎng)景里不可能這樣,你只有到現(xiàn)場(chǎng)做過(guò),才會(huì)知道夾爪的局限到底有多大。

比如很多公司說(shuō)要做商超,但你真正去商超現(xiàn)場(chǎng)看,會(huì)發(fā)現(xiàn)核心問(wèn)題根本不是「從貨架上拿東西」的這種抓取放置的工作(pick and place),商超的主戰(zhàn)場(chǎng)依然是有人作業(yè)。

真正剛需是人類(lèi)長(zhǎng)程作業(yè)鏈條。補(bǔ)貨(拆箱→分裝→推車(chē)→上架→整理)、掛鉤陳列、冰柜補(bǔ)貨(開(kāi)門(mén)/擺放/調(diào)整)、過(guò)期品處理等,都是長(zhǎng)程、強(qiáng)交互、強(qiáng)泛化的靈巧操作鏈路。

另外,從數(shù)據(jù)角度也很關(guān)鍵:如果你是夾爪路線,你換一個(gè)倉(cāng)、換一個(gè)任務(wù),末端結(jié)構(gòu)和執(zhí)行能力可能都要變,你的數(shù)據(jù)往往得重新收一遍,根本不通用。

這也是為什么我們要做多模態(tài)數(shù)據(jù):我們的判斷是:人最終是「載體」,所以我們會(huì)盡可能把人的各類(lèi)模態(tài)都采下來(lái),從而最大程度避免數(shù)據(jù)未來(lái)「不可用」。


相反,機(jī)器人的數(shù)據(jù)——包括各種 UMI/夾爪那類(lèi)數(shù)據(jù)——是有可能變得不可用的。因?yàn)闄C(jī)器人硬件會(huì)更新?lián)Q代:你今天用的夾爪可能過(guò)一兩年就不適用了,你可能要換末端結(jié)構(gòu);一旦末端構(gòu)型變了,過(guò)去那套數(shù)據(jù)很可能也就用不上了。但人是不變的,人的數(shù)據(jù)不僅量級(jí)最大、也最具多樣性,因此長(zhǎng)期價(jià)值更高,能最大限度降低「數(shù)據(jù)作廢」的風(fēng)險(xiǎn)。

問(wèn):成本如何?

王啟斌:數(shù)據(jù)成本有三個(gè)大來(lái)源:第一是硬件投入,第二是人員成本,第三是存儲(chǔ)成本。我們這套方案相比遙操作的數(shù)據(jù)采集,除了更有泛化性之外,整體成本 3 月份后,可以達(dá)到整機(jī)遙操作的 1/10。

后面我們還會(huì)有一些商業(yè)模式:比如從現(xiàn)在的室內(nèi)版本,往后做一個(gè)可攜帶、可眾包的 portable 版本,它會(huì)變成類(lèi)消費(fèi)品,大家戴著它,用眾籌/眾包的方式采集。人可以在自己的工作中,甚至在隱私保護(hù)的前提下,在生活中用它來(lái)采集數(shù)據(jù)。因?yàn)閭鹘y(tǒng)的數(shù)據(jù)采集場(chǎng)景離真實(shí)作業(yè)環(huán)境太遠(yuǎn),大家很難真實(shí)復(fù)刻工作生活里那么復(fù)雜的環(huán)境和物體堆放方式。

包括數(shù)據(jù)設(shè)備本身,我們也可能做眾籌模式,或者租賃平臺(tái)模式,把數(shù)據(jù)采集成本大幅降下來(lái)。


不過(guò)要記得:低成本只能保證數(shù)據(jù)能夠大規(guī)模生產(chǎn),并不能保證模型訓(xùn)練就一定能訓(xùn)出效果。如何把這樣大規(guī)模的數(shù)據(jù)訓(xùn)到模型里頭,訓(xùn)出效果來(lái),這是靈初的核心競(jìng)爭(zhēng)力。

問(wèn):靈初會(huì)把賣(mài)數(shù)據(jù)作為商業(yè)模式嗎?

陳源培:會(huì)有數(shù)據(jù)的售賣(mài)。但我們不會(huì)把自己定位成一個(gè)純粹的數(shù)據(jù)供應(yīng)商,單靠「賣(mài)數(shù)據(jù)」這個(gè)模式,是不強(qiáng)也不長(zhǎng)久的。

你看國(guó)內(nèi)很多所謂做數(shù)采的,本質(zhì)上就是人力采集、外包式的供給:短期可能有用,但長(zhǎng)期很容易因?yàn)閿?shù)據(jù)多樣性不足等問(wèn)題被淘汰。更關(guān)鍵的是,這種模式的壁壘不在技術(shù),而更像是人力外包——當(dāng)越來(lái)越多人都能做時(shí),它的價(jià)格會(huì)被打下去,公司價(jià)值也會(huì)快速下降。

數(shù)據(jù)本身永遠(yuǎn)是缺的,尤其在具身領(lǐng)域,有些長(zhǎng)尾需求可能一直都需要采,這個(gè)需求不會(huì)消失。所以我判斷未來(lái)會(huì)變成這樣:數(shù)據(jù)采集本身會(huì)一直持續(xù),但它要么進(jìn)入少數(shù)算法能力很強(qiáng)的公司體系里——因?yàn)檫@些公司能定義數(shù)據(jù)結(jié)構(gòu)、采集方式、設(shè)備形態(tài),并把數(shù)據(jù)真正訓(xùn)進(jìn)模型里;要么就只能退化成純?nèi)肆ν獍?,提供「勞?wù)式采集服務(wù)」,類(lèi)似現(xiàn)在一些云服務(wù)廠商提供的人力標(biāo)注/采集能力。兩者的價(jià)值和定價(jià)會(huì)差非常多。

03

百萬(wàn)小時(shí)物流場(chǎng)景專(zhuān)用數(shù)據(jù)

問(wèn):靈初智能之前提過(guò)今年做到百萬(wàn)小時(shí)數(shù)據(jù)的說(shuō)法,百萬(wàn)小時(shí)對(duì)于靈初意味著什么?

王啟斌:聊到「百萬(wàn)小時(shí)夠不夠」,我覺(jué)得首先得把范圍說(shuō)清楚。我們并不認(rèn)為百萬(wàn)小時(shí)就能直接通向所謂的 AGI 或家庭 ToC。

百萬(wàn)小時(shí)指的是在一個(gè)比較大的域里——比如物流和泛商超——這一級(jí)別的真實(shí)數(shù)據(jù)可以支撐一個(gè)基礎(chǔ)模型,覆蓋商超、物流的一些揀選、打包等任務(wù),但這還不足以泛化到家庭 ToC 場(chǎng)景。我們做的真實(shí)人類(lèi)數(shù)據(jù),也是大規(guī)模采集的從物流、商超到泛服務(wù)業(yè)的各類(lèi)真實(shí)作業(yè)數(shù)據(jù)。

問(wèn):為什么選擇物流?

王啟斌:公司成立后,我們花了接近半年把大量場(chǎng)景都梳理了一遍:看泛化性、看技能結(jié)構(gòu)、結(jié)合這一波具身的能力邊界,再看成功率要求和工程可交付性,看了個(gè)方向:制造業(yè)、物流、再到服務(wù)業(yè)/ToC。

如果把這些場(chǎng)景放在一條軸上看,你會(huì)發(fā)現(xiàn)有幾條「曲線」在拉扯:在工業(yè)端,精確性和節(jié)拍要求非常高,尤其是主線裝配這種場(chǎng)景,但它的泛化需求反而沒(méi)那么強(qiáng);而越往服務(wù)業(yè)、ToC 走,泛化性越來(lái)越強(qiáng),但對(duì)精確性、對(duì)節(jié)拍的要求形態(tài)又變了。

我們判斷這一波具身智能更合適的切入點(diǎn),是去找這些曲線的「交叉區(qū)間」——既有足夠泛化價(jià)值,又不像工業(yè)主線那樣對(duì)成功率/節(jié)拍要求極端到一開(kāi)始就很難啃動(dòng)。所以我們更傾向從物流和泛服務(wù)業(yè)切入。

我覺(jué)得大家聊物流經(jīng)常聊得太粗了,物流本身顆粒度非常大,里面又有生產(chǎn)物流、流通物流,倉(cāng)留到門(mén)店級(jí),一直到 ToC。

靈初現(xiàn)在做的不是「大物流」,我們做得很具體:目前我們選了三個(gè)場(chǎng)景。

第一個(gè)是衣服的供包(裝袋/打包),核心在柔性物體的抓取、掃碼、放置;


第二個(gè)是入箱檢,就是從標(biāo)準(zhǔn)周轉(zhuǎn)箱里把物品拿出來(lái)掃碼、再放置;

第三個(gè)是分撥墻,和入箱檢差不多。

我們之所以選這些細(xì)分場(chǎng)景,一方面它們有商業(yè)基礎(chǔ),算是相對(duì)通用、需求穩(wěn)定的場(chǎng)景;另一方面在技能結(jié)構(gòu)上,核心技能其實(shí)就是三到四個(gè),但真正難的是物品泛化在變、環(huán)境也在變。

比如服裝供包,我們面對(duì)的是上萬(wàn)件衣服,不同尺寸、不同顏色,而且不同倉(cāng)庫(kù)的燈光條件也不一樣;入箱檢也是一樣,物體數(shù)量多、混放與堆疊很復(fù)雜。物流的難點(diǎn)其實(shí)經(jīng)常被低估:除了物體和環(huán)境的泛化,你還要同時(shí)解決成功率和節(jié)拍。

我們選場(chǎng)景的邏輯,除了傳統(tǒng)「商業(yè)能不能跑通」之外,還疊加了一個(gè)更重要的維度:數(shù)據(jù)能不能在真實(shí)場(chǎng)景里形成增量,數(shù)據(jù)回流能不能反哺模型,形成飛輪。這也是我們選擇這些場(chǎng)景的核心原因。

問(wèn):當(dāng)前進(jìn)展如何?

王啟斌:以服裝供包為例,我們已經(jīng)進(jìn)入初步商業(yè)化階段。第一階段,我們能做到千件以上衣服的泛化——多件混放、隨手丟在一起,也能穩(wěn)定抓取處理;同時(shí)節(jié)拍也很高,最高可以做到800 UPH,應(yīng)該是國(guó)內(nèi)目前比較領(lǐng)先的水平。雖然我們真正做這個(gè)場(chǎng)景只有兩個(gè)多月,但已經(jīng)在客戶(hù)現(xiàn)場(chǎng)進(jìn)入「陪產(chǎn)」階段。

入箱檢(從周轉(zhuǎn)箱中取出物品掃碼、放置)這條線,我們也已經(jīng)在客戶(hù)現(xiàn)場(chǎng)完成了第一階段驗(yàn)證,目前正在做現(xiàn)場(chǎng)爬坡。之所以能推進(jìn)到這個(gè)程度,本質(zhì)上還是建立在模型能力和數(shù)據(jù)量之上,支撐我們?cè)诂F(xiàn)場(chǎng)快速迭代。

問(wèn):節(jié)拍怎么做到這么高?

陳源培:我們現(xiàn)在基本上已經(jīng)以強(qiáng)化學(xué)習(xí)為主了,模仿學(xué)習(xí)用得比較少。整體訓(xùn)練流程更像是一個(gè)offline-to-online RL的過(guò)程:從一開(kāi)始的 offline 階段(用數(shù)據(jù)集訓(xùn)練),我們就主要采用強(qiáng)化學(xué)習(xí)的方式去做,因?yàn)檫@樣和后續(xù)的 online 階段銜接更順、過(guò)渡也更自然。

強(qiáng)化學(xué)習(xí)在訓(xùn)練過(guò)程中會(huì)有一段「自我探索 + 加速」的階段,所以它在動(dòng)作速度上有機(jī)會(huì)超過(guò)人類(lèi)遙操作的上限。你會(huì)看到用強(qiáng)化學(xué)習(xí)訓(xùn)出來(lái)的動(dòng)作往往更干凈、更利落,也更「靈巧」。成功率也會(huì)持續(xù)攀升。

今年看起來(lái),對(duì)于模型來(lái)說(shuō)最有意義的還是后訓(xùn)練階段的強(qiáng)化:在真實(shí)場(chǎng)景里,通過(guò)一些human-in-the-loop的方法去解決實(shí)際落地的問(wèn)題——這一塊價(jià)值最大。

問(wèn):下一個(gè)階段的靈初智能的主要目標(biāo)是什么?

王啟斌:對(duì)靈初來(lái)說(shuō),今年的主旋律會(huì)先聚焦在兩件事:數(shù)據(jù)模型能力。在這個(gè)基礎(chǔ)上,我們?cè)儆媚P偷暮笥?xùn)練能力去落地一些細(xì)分的物流場(chǎng)景。

今年在物流方向,我們會(huì)把手頭這三個(gè)場(chǎng)景做到規(guī)模化發(fā)貨/交付,但不會(huì)為了擴(kuò)張而去做十個(gè)場(chǎng)景——擴(kuò)到更多場(chǎng)景會(huì)是明年的主旋律:等模型能力到了一定水平之后,再把能力往更多場(chǎng)景里擴(kuò)展會(huì)更自然。

我覺(jué)得這也代表了行業(yè)一個(gè)相對(duì)正常的節(jié)奏:在預(yù)訓(xùn)練和泛化能力還沒(méi)真正做強(qiáng)之前,單靠「一個(gè)場(chǎng)景一個(gè)場(chǎng)景」用真機(jī)遙操堆出來(lái),很難形成規(guī)模效應(yīng)。

問(wèn):怎么看待未來(lái)具身智能來(lái)自大廠的競(jìng)爭(zhēng)?

王啟斌:我覺(jué)得大廠推進(jìn)具身智能的想法是對(duì)的——做基模本來(lái)就是大廠應(yīng)該做的事。但他們的路徑和我們不太一樣:很多大廠的數(shù)據(jù)采集和訓(xùn)練,跟「具體場(chǎng)景」的關(guān)聯(lián)度其實(shí)沒(méi)那么高,另外在落地工具鏈這一整套上也未必是同一個(gè)體系。

說(shuō)白了,大廠只要肯投人、肯投錢(qián),收很多數(shù)據(jù)去訓(xùn)練,基本都能訓(xùn)出一些「看起來(lái)還可以」的模型,做 demo 是沒(méi)問(wèn)題的,這有點(diǎn)像大模型早期那種狀態(tài):砸資源總能做出一個(gè)像樣的展示。至于效果好壞,會(huì)有差異——你可能覺(jué)得某家現(xiàn)在更強(qiáng)、某家現(xiàn)在差一點(diǎn),但過(guò)一段時(shí)間排名又可能變化,我覺(jué)得這都很正常。

但我們追求的并不是「做出一個(gè)看起來(lái)不錯(cuò)的 demo」。我們更看重的是商業(yè)閉環(huán):能不能找到具身真正的落地場(chǎng)景,把數(shù)據(jù)飛輪轉(zhuǎn)起來(lái),并且快速把這一套模式跑通、跑規(guī)模,盡快占住新的行業(yè)位置——我覺(jué)得這才是關(guān)鍵。

也有人會(huì)類(lèi)比大模型,覺(jué)得最后可能變成「國(guó)內(nèi)就是大廠之間的競(jìng)爭(zhēng)」。但我認(rèn)為具身不太容易出現(xiàn)完全同樣的格局,因?yàn)榫呱碛幸粋€(gè)非常關(guān)鍵的問(wèn)題:數(shù)據(jù)孤島。大語(yǔ)言模型為什么能卷得那么快?因?yàn)閿?shù)據(jù)相對(duì)公開(kāi),大家都知道去哪拿,互聯(lián)網(wǎng)上一扒就有;自動(dòng)駕駛也是類(lèi)似。

但具身不一樣:你收集兩三年的物流場(chǎng)景數(shù)據(jù),和別人收集兩三年的工業(yè)場(chǎng)景數(shù)據(jù),本質(zhì)上是兩套完全不同的數(shù)據(jù)分布,訓(xùn)出來(lái)的模型也會(huì)完全不一樣。即使是大廠,很多時(shí)候也只能在內(nèi)部搭一個(gè)相對(duì)封閉的場(chǎng)景去采數(shù)據(jù);但如果我們把機(jī)器人真正部署進(jìn)真實(shí)業(yè)務(wù)環(huán)境,數(shù)據(jù)回流速度會(huì)非???,而這部分?jǐn)?shù)據(jù)大廠是拿不到的,模型偏差也會(huì)很大。

所以這恰恰構(gòu)成了初創(chuàng)公司的時(shí)間窗口:不是說(shuō)大廠投錢(qián)就做不到,而是大廠一定有組織和路徑依賴(lài);初創(chuàng)公司的機(jī)會(huì)在于能不能趁這個(gè)窗口期把場(chǎng)景和數(shù)據(jù)飛輪跑起來(lái)、把市場(chǎng)占住。大模型里很難形成這種壁壘,因?yàn)殚T(mén)檻更多在人才,而人才是流動(dòng)的;但具身不一樣,具身還有「數(shù)據(jù)」這一層。如果我們把物流場(chǎng)景的數(shù)據(jù)牢牢握在手里——甚至不對(duì)外出售,同時(shí)把大部分物流場(chǎng)景占住——那別人再想進(jìn)來(lái),不管是數(shù)據(jù)質(zhì)量還是數(shù)據(jù)收集速度都會(huì)差很多,最終效果也會(huì)差很多。

*頭圖來(lái)源:靈初智能

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你如何看待靈初智能?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
72歲上海知青重回云南看初戀,得知自己竟兒孫滿(mǎn)堂:是我對(duì)不起你

72歲上海知青重回云南看初戀,得知自己竟兒孫滿(mǎn)堂:是我對(duì)不起你

紅豆講堂
2024-10-07 10:57:14
男子讓女友當(dāng)小姐時(shí),女友和嫖客私奔了,2012年男子找到嫖客殺死

男子讓女友當(dāng)小姐時(shí),女友和嫖客私奔了,2012年男子找到嫖客殺死

漢史趣聞
2026-04-16 08:31:16
中國(guó)代表:中方否決涉霍爾木茲海峽決議草案避免了局勢(shì)升級(jí)

中國(guó)代表:中方否決涉霍爾木茲海峽決議草案避免了局勢(shì)升級(jí)

環(huán)球網(wǎng)資訊
2026-04-17 08:15:23
伊朗誠(chéng)摯感謝中方多次在困難時(shí)刻伸出援手

伊朗誠(chéng)摯感謝中方多次在困難時(shí)刻伸出援手

澎湃新聞
2026-04-17 01:19:03
重磅:烏克蘭摧毀俄羅斯1500公里外的導(dǎo)彈工廠!

重磅:烏克蘭摧毀俄羅斯1500公里外的導(dǎo)彈工廠!

項(xiàng)鵬飛
2026-04-16 19:18:56
確認(rèn)了!兩人系間諜

確認(rèn)了!兩人系間諜

浙江之聲
2026-04-16 22:16:31
零食包裝上寫(xiě)著“勿忘國(guó)恥是每個(gè)中國(guó)人的出廠設(shè)置”,廠家回應(yīng):這是老板的情懷,希望傳達(dá)正能量

零食包裝上寫(xiě)著“勿忘國(guó)恥是每個(gè)中國(guó)人的出廠設(shè)置”,廠家回應(yīng):這是老板的情懷,希望傳達(dá)正能量

極目新聞
2026-04-17 09:51:27
這則污蔑中國(guó)人的假消息,不少日本人看不下去了……

這則污蔑中國(guó)人的假消息,不少日本人看不下去了……

環(huán)球時(shí)報(bào)國(guó)際
2026-04-17 00:17:01
當(dāng)執(zhí)法者將國(guó)家法律摔在地上,請(qǐng)先別討論摩托能否上高速和張雪了

當(dāng)執(zhí)法者將國(guó)家法律摔在地上,請(qǐng)先別討論摩托能否上高速和張雪了

阿陸
2026-04-16 14:52:08
用魔法打敗魔法?當(dāng)美國(guó)也封鎖海峽時(shí),波斯終于明白這是違法的

用魔法打敗魔法?當(dāng)美國(guó)也封鎖海峽時(shí),波斯終于明白這是違法的

歷史擺渡
2026-04-16 13:00:03
官方回應(yīng)來(lái)了!Lululemon被調(diào)查,“或引發(fā)癌癥、不孕不育”

官方回應(yīng)來(lái)了!Lululemon被調(diào)查,“或引發(fā)癌癥、不孕不育”

北國(guó)向錫安
2026-04-16 09:05:37
5月1日起全國(guó)嚴(yán)查!以前的“小事”現(xiàn)在可能坐牢,抓緊了解一下!

5月1日起全國(guó)嚴(yán)查!以前的“小事”現(xiàn)在可能坐牢,抓緊了解一下!

老特有話說(shuō)
2026-04-16 14:59:37
李楠正式結(jié)束3年禁賽期:可回場(chǎng)邊輔佐許利民 本季北京主帥不會(huì)變

李楠正式結(jié)束3年禁賽期:可回場(chǎng)邊輔佐許利民 本季北京主帥不會(huì)變

醉臥浮生
2026-04-16 22:27:06
“見(jiàn)過(guò)最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

“見(jiàn)過(guò)最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

妍妍教育日記
2026-04-15 09:30:09
皇馬歐冠出局,卡馬文加剃光頭致歉:這鍋我背了!我對(duì)不起大家!

皇馬歐冠出局,卡馬文加剃光頭致歉:這鍋我背了!我對(duì)不起大家!

仰臥撐FTUer
2026-04-17 08:15:06
你何曾見(jiàn)過(guò)如此精致的女人,太干凈了

你何曾見(jiàn)過(guò)如此精致的女人,太干凈了

可樂(lè)談情感
2026-04-17 01:16:02
烏克蘭4年獲捐35.8億美元,都花在了哪里?

烏克蘭4年獲捐35.8億美元,都花在了哪里?

網(wǎng)易新聞出品
2026-04-16 15:44:52
最新:同濟(jì)大學(xué)已成立調(diào)查組

最新:同濟(jì)大學(xué)已成立調(diào)查組

南方都市報(bào)
2026-04-16 16:57:13
28.2%貧困率:米萊這瘋子,真把阿根廷從鬼門(mén)關(guān)拉回來(lái)了?

28.2%貧困率:米萊這瘋子,真把阿根廷從鬼門(mén)關(guān)拉回來(lái)了?

娛樂(lè)圈見(jiàn)解說(shuō)
2026-04-16 19:54:32
嚴(yán)月霞生平簡(jiǎn)介

嚴(yán)月霞生平簡(jiǎn)介

奇思妙想生活家
2026-04-16 15:55:11
2026-04-17 10:16:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11957文章數(shù) 78872關(guān)注度
往期回顧 全部

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

頭條要聞

小伙曾花80萬(wàn)開(kāi)店失敗被離婚:妻子覺(jué)得我很難翻身

頭條要聞

小伙曾花80萬(wàn)開(kāi)店失敗被離婚:妻子覺(jué)得我很難翻身

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

汽車(chē)要聞

空間大五個(gè)乘客都滿(mǎn)意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

教育
健康
旅游
手機(jī)
公開(kāi)課

教育要聞

用心陪伴,助力孩子綻放光芒——王越家教好故事

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

濰坊昌邑:牡丹真國(guó)色 花開(kāi)一城春

手機(jī)要聞

影像升級(jí):消息稱(chēng)iPhone 18 Pro可變光圈致動(dòng)器已啟動(dòng)量產(chǎn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版