国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

機(jī)器人“大腦”60年進(jìn)化史:基礎(chǔ)模型的五代進(jìn)化與三大閉源流派

0
分享至

撰稿 :Vicky

編輯:陳茜

2025年,機(jī)器人公司發(fā)布的Demo都有點(diǎn)魔幻:

首先是Figure AI,在10月發(fā)布了第三代機(jī)器人,能做各種家務(wù),Demo也很酷炫,但任務(wù)的成功率存在很多質(zhì)疑,而且臉的設(shè)計(jì),恐怖谷現(xiàn)象有點(diǎn)嚴(yán)重。

10月底發(fā)布demo的另一家明星公司1X,整個(gè)臉部設(shè)計(jì)就可愛(ài)了非常多,感覺(jué)是更愿意讓大家搬到家里的。但是叫做Neo的這款機(jī)器人依賴遠(yuǎn)程操控,被批評(píng)是“假智能”,而且有各種隱私問(wèn)題。


同時(shí),特斯拉的機(jī)器人雖然也發(fā)布了各種Demo的更新,包括在12月發(fā)布的非常順滑的跑步Demo,但明顯量產(chǎn)計(jì)劃在2025年遇到了極大的挑戰(zhàn),讓公司不得不暫停生產(chǎn),重新設(shè)計(jì)硬件。

我們的機(jī)器人系列已經(jīng)聊了靈巧手,以及2025年具身智能行業(yè)年度盤點(diǎn),本篇文章就來(lái)深聊一下這個(gè)產(chǎn)業(yè)的一個(gè)核心技術(shù):機(jī)器人基礎(chǔ)模型。我們?cè)噲D回答這樣一個(gè)問(wèn)題:為什么2025年突然變成了機(jī)器人基礎(chǔ)模型的“元年”?


我們也走訪了硅谷的前沿機(jī)器人公司和實(shí)驗(yàn)室,而基礎(chǔ)模型篇會(huì)分為“閉源”和“開(kāi)源”兩篇,系統(tǒng)拆解當(dāng)下主流機(jī)器人的“大腦”是如何被訓(xùn)練出來(lái)、如何接入真實(shí)世界、以及不同路線背后的技術(shù)與商業(yè)邏輯。帶你看清,大模型時(shí)代的機(jī)器人,大腦究竟是怎么長(zhǎng)成的。本篇文章我們先來(lái)聊一聊目前資本市場(chǎng)的寵兒——閉源系統(tǒng)。

01

機(jī)器人基礎(chǔ)模型從60年代到2025年的范式革命

如果要用一句話解釋機(jī)器人基礎(chǔ)模型,最簡(jiǎn)單的類比是:如果說(shuō)GPT是“會(huì)說(shuō)話的大腦”,那機(jī)器人基礎(chǔ)模型就是“會(huì)動(dòng)手的大腦”。

但這個(gè)“會(huì)動(dòng)手的大腦”,人類研究了整整60年才做出來(lái)。我們先來(lái)回顧一下,大模型出現(xiàn)以前的四大機(jī)器人范式。

Chapter 1.1 第一代:編程式機(jī)器人(1960s-1990s)

1961年,世界上第一臺(tái)工業(yè)機(jī)器人Unimate在通用汽車的工廠里“上班”了。它的工作很簡(jiǎn)單:從生產(chǎn)線上抓起滾燙的金屬零件,放到另一條生產(chǎn)線上。


從現(xiàn)在的眼光看,它蠻“傻”的,因?yàn)橥耆烤幊?,工程師用代碼告訴它:

步驟1:手臂向左移動(dòng)30厘米

步驟2:手爪閉合

步驟3:手臂向上移動(dòng)50厘米

步驟4:手臂向右旋轉(zhuǎn)90度

步驟5:手爪松開(kāi)


聽(tīng)起來(lái)很傻對(duì)吧?但在當(dāng)時(shí),這已經(jīng)是革命性的突破了。這種方式的問(wèn)題很明顯:零容錯(cuò)、零靈活性。

如果零件的位置偏了1厘米,機(jī)器人就抓不到,如果換一個(gè)不同尺寸的零件,就得重新寫代碼。更別說(shuō)應(yīng)對(duì)意外情況——比如零件掉在地上,機(jī)器人就徹底不知道該干什么了。

但在工廠這種高度可控的環(huán)境里,這套方法管用了幾十年。直到今天,很多汽車工廠的焊接機(jī)器人,還在用這套“編程式”的邏輯。

Chapter 1.2 第二代:基于SLAM的方法(1990s-2010s)

到了90年代,機(jī)器人學(xué)家們意識(shí)到:光靠編程不行,機(jī)器人得能“感知”環(huán)境。于是出現(xiàn)了SLAM(同時(shí)定位與地圖構(gòu)建)、運(yùn)動(dòng)規(guī)劃這些技術(shù)。

這里的核心思路是:先用傳感器“看”周圍環(huán)境,建立一個(gè)3D地圖,然后在地圖上規(guī)劃路徑,最后執(zhí)行動(dòng)作。這個(gè)方式最成功的應(yīng)用就是掃地機(jī)器人。


風(fēng)靡一時(shí)的Roomba就是這么工作的:它用激光雷達(dá)掃描房間,建立地圖;然后規(guī)劃一條覆蓋所有區(qū)域的路徑;再按照路徑移動(dòng),遇到障礙物就繞開(kāi)。

這套方法在“導(dǎo)航”任務(wù)上很成功:早期的無(wú)人車、無(wú)人機(jī)、物流機(jī)器人,基本都是這個(gè)套路。但在“操作”任務(wù)上就不行了,因?yàn)椴僮魅蝿?wù)太復(fù)雜了,比如讓機(jī)器人疊一條毛巾,傳統(tǒng)方法是四步:

1.用視覺(jué)識(shí)別毛巾的四個(gè)角

2.計(jì)算每個(gè)角的3D坐標(biāo)

3.規(guī)劃手臂的運(yùn)動(dòng)軌跡

4.執(zhí)行抓取、折疊、放下

聽(tīng)起來(lái)挺合理,但實(shí)際操作中到處是坑:毛巾可能皺成一團(tuán),根本識(shí)別不出“四個(gè)角”;毛巾是柔性的,你一抓它就變形,3D坐標(biāo)立刻失效;每一步都可能出錯(cuò),一出錯(cuò)整個(gè)流程就崩了。


2010年,加州伯克利的一個(gè)研究團(tuán)隊(duì)做過(guò)一個(gè)實(shí)驗(yàn):讓機(jī)器人疊毛巾,用的就是這套“感知→規(guī)劃→執(zhí)行”的方法。結(jié)果平均一條毛巾要花24分鐘。

而疊毛巾在如今AI時(shí)代來(lái)臨之后,也同樣是非常核心的,需要基礎(chǔ)模型去驅(qū)動(dòng)機(jī)器人攻破的任務(wù)。

Chapter 1.3 第三代:行為克?。?010s中期)

既然手工設(shè)計(jì)規(guī)則不行,那能不能讓機(jī)器人直接“學(xué)”人類怎么做?這就是行為克?。˙ehavior Cloning)的思路,也叫模仿學(xué)習(xí)(Imitation Learning)。

同樣以疊毛巾為例,機(jī)器人模仿學(xué)習(xí)會(huì)這么做:讓人類演示很多次怎么疊毛巾;記錄下每一幀的視覺(jué)輸入和動(dòng)作輸出;訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)輸入→輸出的映射;機(jī)器人看到毛巾,直接輸出該做什么動(dòng)作。


2015年,Google Brain的一個(gè)團(tuán)隊(duì)用這個(gè)方法,讓機(jī)器人學(xué)會(huì)了抓取各種物體。他們收集了數(shù)十萬(wàn)次抓取的數(shù)據(jù),訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),推動(dòng)了“視覺(jué)-動(dòng)作”學(xué)習(xí)在機(jī)器人抓取任務(wù)上的進(jìn)展。

這可以說(shuō)是個(gè)巨大的進(jìn)步!第一次,機(jī)器人不需要手工編寫規(guī)則,可以通過(guò)數(shù)據(jù)學(xué)習(xí)了。

但這個(gè)方法有個(gè)致命缺陷:數(shù)據(jù)效率太低。它需要數(shù)十萬(wàn)次抓取數(shù)據(jù)來(lái)訓(xùn)練,而且這只是“抓取”這一個(gè)動(dòng)作。如果要學(xué)“疊毛巾”,可能100萬(wàn)次演示都不夠了。

更要命的是,這個(gè)方法的泛化性很差。你用A型號(hào)機(jī)器人收集的數(shù)據(jù),訓(xùn)練出來(lái)的模型,在B型號(hào)機(jī)器人上基本不能用。

Chapter 1.4 第四代:強(qiáng)化學(xué)習(xí)(2010s后期)

2016年,AlphaGo戰(zhàn)勝李世石,證明了強(qiáng)化學(xué)習(xí)的威力。機(jī)器人科學(xué)家們想:能不能讓機(jī)器人也用強(qiáng)化學(xué)習(xí),自己摸索出怎么完成任務(wù)?

強(qiáng)化學(xué)習(xí)的核心思路是:不需要人類演示,讓機(jī)器人自己嘗試,做對(duì)了給獎(jiǎng)勵(lì),做錯(cuò)了給懲罰,機(jī)器人慢慢學(xué)會(huì)怎么做能獲得最多獎(jiǎng)勵(lì)。

當(dāng)時(shí),波士頓動(dòng)力的機(jī)器人就開(kāi)始將強(qiáng)化學(xué)習(xí)引入移動(dòng)控制系統(tǒng),讓它們能在各種復(fù)雜地形上行走、跳躍、后空翻。


強(qiáng)化學(xué)習(xí)也有個(gè)大問(wèn)題:太慢了。AlphaGo為了學(xué)會(huì)下圍棋,在仿真環(huán)境里自己和自己下了幾千萬(wàn)局,但機(jī)器人操作任務(wù),很難在仿真環(huán)境里練,因?yàn)榄h(huán)境復(fù)雜度太高,非常難設(shè)置,和真實(shí)物理世界差別較大,導(dǎo)致仿真不準(zhǔn)。

但真機(jī)試錯(cuò)呢?太慢、太貴、太危險(xiǎn)。想象一下,讓機(jī)器人學(xué)疊毛巾,它可能要試幾百萬(wàn)次,其中大部分時(shí)候會(huì)出現(xiàn)的情況是:抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。這樣學(xué)下去,要到猴年馬月?

而且強(qiáng)化學(xué)習(xí)有個(gè)更根本的問(wèn)題:它不知道“常識(shí)”。人類知道,毛巾是軟的、可以折疊的、有一定的摩擦力。但強(qiáng)化學(xué)習(xí)的機(jī)器人,需要通過(guò)無(wú)數(shù)次試錯(cuò)才能“發(fā)現(xiàn)”這些常識(shí),效率太低。

Chapter 1.5 第五代:VLA模型(2020s中期-現(xiàn)在)

大語(yǔ)言模型的出現(xiàn),改變了一切。2022年,ChatGPT橫空出世,人們發(fā)現(xiàn):大語(yǔ)言模型里蘊(yùn)含了人類世界的大量“常識(shí)”:它知道毛巾是什么、疊是什么意思、先做什么后做什么。它有推理能力、規(guī)劃能力、泛化能力。

行業(yè)里的第一反應(yīng)就是,能不能把大語(yǔ)言模型和機(jī)器人結(jié)合起來(lái)?于是,VLA(Vision-Language-Action)模型誕生了。VLA模型的革命性在于,它把三個(gè)東西統(tǒng)一到一個(gè)神經(jīng)網(wǎng)絡(luò)里

Vision(視覺(jué)):看到當(dāng)前的場(chǎng)景;Language(語(yǔ)言):理解任務(wù)目標(biāo)和常識(shí);Action(動(dòng)作):輸出具體的控制指令。

舉個(gè)例子,你對(duì)機(jī)器人說(shuō):“幫我把桌上的蘋果放到籃子里。”傳統(tǒng)方法需要四步:

1.視覺(jué)識(shí)別“蘋果”和“籃子”

2.規(guī)劃“抓取蘋果”的軌跡

3.規(guī)劃“移動(dòng)到籃子”的軌跡

4.規(guī)劃“放下”的動(dòng)作

VLA模型呢?一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),直接從“語(yǔ)言指令+視覺(jué)輸入”,輸出“下一步該做什么動(dòng)作”。


更神奇的是,它會(huì)“常識(shí)推理”。比如你說(shuō)“幫我準(zhǔn)備早餐”,面對(duì)著家庭環(huán)境,它知道:要從冰箱拿出雞蛋;雞蛋要小心拿,不能摔碎;面包要放進(jìn)烤面包機(jī)。

這些常識(shí),不需要你一條條編程,也不需要它自己試錯(cuò)幾百萬(wàn)次去“發(fā)現(xiàn)”。 因?yàn)榇笳Z(yǔ)言模型里已經(jīng)有了。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 我們?cè)诩軜?gòu)層面用的VLA,VLA簡(jiǎn)單來(lái)說(shuō)就是我們拿了大模型領(lǐng)域VLM作為所謂的backbone(核心),但是我們會(huì)在最終輸出結(jié)果的時(shí)候,把這個(gè)結(jié)果轉(zhuǎn)化成在機(jī)器人領(lǐng)域可用的action(動(dòng)作)。action(動(dòng)作)直觀理解就是,比如說(shuō)我要把這個(gè)手臂移動(dòng)到某一個(gè)坐標(biāo)點(diǎn)的這些命令。 VLA其實(shí)大家詬病最多的是:為什么我們需要L(Language、語(yǔ)言)?因?yàn)樵谶^(guò)去傳統(tǒng)的機(jī)器人算法里面很多都是純基于視覺(jué)。但是你仔細(xì)去想,其實(shí)你大腦其實(shí)會(huì)產(chǎn)生類似于語(yǔ)言的東西,去告訴你在一個(gè)長(zhǎng)線任務(wù)中,到底你第一步做什么,第二步做什么。
L的作用就在于對(duì)于一些非常復(fù)雜的任務(wù)的時(shí)候,它是可以通過(guò)在大語(yǔ)言上面已經(jīng)訓(xùn)練出來(lái)很多邏輯性的東西,比如說(shuō)你要喝水,它就會(huì)知道你需要找杯子或者找瓶子。這個(gè)是通過(guò)大語(yǔ)言模型已經(jīng)直接可以給你的一些東西。利用VLA的主要目的,其實(shí)就是如何把Language(語(yǔ)言)跟Vision(視覺(jué))能夠更好地結(jié)合起來(lái),否則你如果只有Vision(視覺(jué)),你能做的任務(wù)可能就都是短線的,你做不了任何長(zhǎng)線的、需要去做推理的一些任務(wù),所以這是我們?yōu)槭裁捶浅W⒌匾胝Z(yǔ)言這部分的主要原因。

那為什么2025年成了“具身機(jī)器人基礎(chǔ)模型元年”呢?因?yàn)槿齻€(gè)關(guān)鍵因素在這一年同時(shí)成熟了。

第一個(gè)因素:大語(yǔ)言模型“夠用了”。

2024年到2025年,OpenAI、Anthropic、Google這些公司陸續(xù)發(fā)布新模型,大語(yǔ)言模型已經(jīng)“成熟”了,至少對(duì)于機(jī)器人需要的那部分能力,理解指令、規(guī)劃任務(wù)、常識(shí)推理,已經(jīng)足夠好了。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 第一是大模型本身已經(jīng)趨近于成熟,你們可以看到最近不管是OpenAI還是其他的公司,發(fā)布的模型已經(jīng)是增量式的增長(zhǎng),它不是像從3.5到4的時(shí)候的這種跨越式的增長(zhǎng),所以我們覺(jué)得大模型的能力已經(jīng)趨于穩(wěn)定,而且已經(jīng)足夠可以為具身智能提供一個(gè)很好的基礎(chǔ),所以這是從模型層面的一個(gè)最重要的因素。

第二個(gè)因素:算力價(jià)格腰斬再腰斬。

2023年,租一張NVIDIA H100 GPU是天價(jià),還得排隊(duì)才能拿到貨,而隨著GPU云服務(wù)商價(jià)格戰(zhàn)打響,和NVIDIA的GPU大量鋪貨,初創(chuàng)公司都租得起幾千張卡來(lái)訓(xùn)練模型了。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 第二個(gè)因素是整體的算力強(qiáng)度肯定是越來(lái)越強(qiáng),每一年英偉達(dá)等芯片公司都會(huì)做更強(qiáng)的芯片,等效的算力價(jià)格其實(shí)也在降低,隔幾年可能等效的價(jià)格就變成了過(guò)去的一半,所以計(jì)算的增強(qiáng)對(duì)于整個(gè)具身智能也有很大的推進(jìn)影響。

第三個(gè)因素:硬件供應(yīng)鏈成熟。

這個(gè)變化很多人沒(méi)注意到。2024年,隨著人形機(jī)器人熱潮,大量資本涌入上游零部件廠商,特別是中國(guó)的供應(yīng)商們,電機(jī)、減速器、傳感器這些東西,原本都是小眾產(chǎn)品,但2024年開(kāi)始,好幾家供應(yīng)商都拿到了大額融資,開(kāi)始擴(kuò)產(chǎn),硬件便宜了,做機(jī)器人的門檻就降低了。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 第三是整個(gè)機(jī)器人硬件的各種零部件的成熟度是比較高的,特別是從去年開(kāi)始火熱起來(lái)的這一波人形機(jī)器人的助推讓大家花了很多的精力跟資本去投入到很多基礎(chǔ)部件,包括電機(jī)、減速器這些部件的研發(fā),這一塊的成熟度和成本都有提升和降低,所以我們覺(jué)得這個(gè)時(shí)機(jī)會(huì)比較成熟一些。

這三個(gè)關(guān)鍵元素,讓2025年成為了一個(gè)特殊的時(shí)間窗口,基于VLA的新一代范式的機(jī)器人跑出來(lái)了。


2025年是人形機(jī)器人大年,第一臺(tái)機(jī)器人管家終于登場(chǎng)了,人形機(jī)器人將有望成為史上最龐大的產(chǎn)業(yè)之一,這將是一個(gè)5萬(wàn)億的市場(chǎng),全世界將遍布十億臺(tái)機(jī)器人。

但VLA模型也不是完美的,而它的核心挑戰(zhàn)是數(shù)據(jù)。大語(yǔ)言模型可以用互聯(lián)網(wǎng)上的文本訓(xùn)練,但機(jī)器人需要的是“真機(jī)數(shù)據(jù)”——必須有機(jī)器人本體的傳感器數(shù)據(jù)。而這種數(shù)據(jù),互聯(lián)網(wǎng)上根本沒(méi)有。

YouTube上有無(wú)數(shù)人類疊衣服的視頻,但沒(méi)有一個(gè)視頻告訴你,疊衣服的時(shí)候手指關(guān)節(jié)的角度是多少、施加的力量是多少,這就是為什么,這場(chǎng)“軍備競(jìng)賽”的核心,除了算法,還有數(shù)據(jù)。誰(shuí)能用最低的成本,采集到最高質(zhì)量的數(shù)據(jù),誰(shuí)就能主導(dǎo)這個(gè)市場(chǎng)。

所以,機(jī)器人基礎(chǔ)模型不是憑空冒出來(lái)的,它是60年技術(shù)積累的集大成者,它繼承了:編程式機(jī)器人的“精確控制”;基于模型方法的“環(huán)境感知”;行為克隆的“示范學(xué)習(xí)”;強(qiáng)化學(xué)習(xí)的“自我優(yōu)化”;再加上了大語(yǔ)言模型的“常識(shí)推理”,這才是真正的“基礎(chǔ)模型”。

可能你想知道,現(xiàn)在搭載了VLA模型的機(jī)器人,都到什么程度了?我們這次也走訪了Dyna Robotics。


這家在硅谷炙手可熱的機(jī)器人明星公司的三位華人創(chuàng)始人中,Lindon Gao和York Yang是連續(xù)創(chuàng)業(yè)者,之前創(chuàng)立的AI購(gòu)物車公司Caper AI以3.5億美元的價(jià)格,被Instacart收購(gòu);Jason Ma則是前DeepMind研究科學(xué)家,專攻機(jī)器人基礎(chǔ)模型。

這家公司成立才一年,已經(jīng)完成兩輪融資:2025年3月種子輪2350萬(wàn)美元,同年的9月A輪1.2億美元,估值超過(guò)6億美元。投資方名單堪稱豪華:英偉達(dá)、亞馬遜、三星、LG。而讓他們最先火出圈的,并不是多么華麗的任務(wù)或者demo,而就是非常樸實(shí)的“疊毛巾”和“疊衣服”。


我們也和機(jī)器人以及和York比拼了一下手速,雖然在疊衣服這件事情上,我倆都比機(jī)器人快,但說(shuō)實(shí)話我覺(jué)得我倆真不一定有Dyna的機(jī)器人疊得好。并且,關(guān)鍵點(diǎn)在于:機(jī)器人雖然目前還比較慢,但它可以7*24運(yùn)作,還不用休息,只要經(jīng)濟(jì)賬算得過(guò)來(lái),落地就是可行的。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 因?yàn)檎H斯さ暮芏鄨?chǎng)景,你1個(gè)人就是8個(gè)小時(shí),而機(jī)器可以讓它跑15個(gè)小時(shí)或者24個(gè)小時(shí),可以彌補(bǔ)掉效率的一定的損失。 第二是疊毛巾本身確實(shí)是一個(gè)不錯(cuò)的商業(yè)落地場(chǎng)景,因?yàn)樗鄬?duì)比較單一,也是比較固定的一個(gè)任務(wù)。但是在像美國(guó)這樣高人工成本的國(guó)家,確實(shí)要花掉很多的資金在這件事情上面,所以我們聊的這些商家客戶都非常有意愿去使用機(jī)器人來(lái)做這件事情。

02

閉源模型機(jī)器人主要流派

看完Dyna的機(jī)器人,我們?cè)賮?lái)看看,2025年的機(jī)器人賽道,還有哪些玩家:

我們可以把他們分成三個(gè)流派來(lái)看,表面上看,他們爭(zhēng)的是技術(shù)路線、市場(chǎng)份額、融資估值,但本質(zhì)上,他們爭(zhēng)的是同一個(gè)問(wèn)題:什么才是實(shí)現(xiàn)“通用機(jī)器人”的正確路徑?

Chapter 2.1 流派一:全棧整合派

這一派的代表公司是特斯拉Optimus和Figure AI。核心信念是:機(jī)器人基礎(chǔ)模型不能和硬件分離,必須垂直整合、深度耦合,才能發(fā)揮最大效果。

作為這個(gè)流派最激進(jìn)的代表,特斯拉的CEO馬斯克曾經(jīng)說(shuō)過(guò)一句很狂的話:“特斯拉八成的價(jià)值將來(lái)自于Optimus機(jī)器人?!?/p>


馬斯克的自信來(lái)自特斯拉FSD(完全自動(dòng)駕駛)十年的積累,特斯拉Optimus前工程主管Milan Kovac曾經(jīng)說(shuō),“我們只是從輪子上的機(jī)器人變成長(zhǎng)著腿的機(jī)器人”。

特斯拉有數(shù)百萬(wàn)輛車收集的真實(shí)世界數(shù)據(jù)、端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu)、規(guī)模龐大的標(biāo)注團(tuán)隊(duì),所以他這個(gè)邏輯聽(tīng)起來(lái)無(wú)懈可擊:既然FSD能讓汽車在復(fù)雜路況中自主駕駛,那同樣的架構(gòu),為什么不能讓機(jī)器人在復(fù)雜環(huán)境中自主操作?都是感知、決策、執(zhí)行的閉環(huán),都是端到端的神經(jīng)網(wǎng)絡(luò),只是輸出從“方向盤角度”變成了“關(guān)節(jié)角度”而已。

但2025年的現(xiàn)實(shí)并沒(méi)有這么美好。年初,馬斯克在內(nèi)部會(huì)議上信誓旦旦地說(shuō):2025年要生產(chǎn)5000臺(tái)Optimus,其中1000臺(tái)會(huì)部署在特斯拉自己的工廠。但是到年中,實(shí)際上組裝了1000多臺(tái)后,特斯拉Optimus人形機(jī)器人的生產(chǎn)計(jì)劃就已經(jīng)暫停,面臨重新設(shè)計(jì)。


而Optimus最近還面臨一個(gè)更大的風(fēng)波,就是它在特斯拉活動(dòng)現(xiàn)場(chǎng)分發(fā)瓶裝水時(shí),突然做出了好像要把頭上某個(gè)不存在的東西拽下來(lái)的動(dòng)作,然后摔了一跤。 這個(gè)動(dòng)作實(shí)在是太像人類操作員摘下頭戴式設(shè)備的動(dòng)作,于是這段視頻馬上爆火,不少人馬上提出來(lái)質(zhì)疑:Optimus,是不是有操作員在遠(yuǎn)程操控?


Optimus的發(fā)展看起來(lái)不像馬斯克號(hào)稱的那么順利,問(wèn)題出在哪?

York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 他們本身是最早在人形機(jī)器人領(lǐng)域做出本體,有過(guò)一定的demo演示的公司。他們現(xiàn)在主要利用的是人類視頻做遷移,它的優(yōu)勢(shì)毋庸置疑,人類視頻其實(shí)是最容易采的,因?yàn)槟悴恍枰魏蔚耐庠O(shè)備,你采集的也是人手去操作的場(chǎng)景,可擴(kuò)展上來(lái)說(shuō),特斯拉這個(gè)模式是最高的。 但是它的幾個(gè)主要的問(wèn)題在于,第一,人類的手和機(jī)器人的手,如果你想讓它這個(gè)能力遷移得很好,需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手,非常接近人的自由度,這件事本身是一件非常困難的事情。
第二,但你再接近,它也不是完全一樣。所以在機(jī)器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會(huì)有一個(gè)鴻溝,就我們所謂的embodiment gap(物理差異),這個(gè)embodiment gap在當(dāng)前學(xué)術(shù)界也好、工業(yè)界也好,大家都公認(rèn)是一個(gè)比較難解決的問(wèn)題。所以這樣的數(shù)據(jù)遷移的效率會(huì)比較低,哪怕你采集了很多數(shù)據(jù),如果只有30%或者50%可用,你的總數(shù)量就會(huì)需要去乘以可能性的數(shù)字,所以這是它的一定的局限性。

特斯拉想用海量人類視頻訓(xùn)練基礎(chǔ)模型,但人手和機(jī)器手的物理差異(embodiment gap)是個(gè)繞不過(guò)去的坎。即使你有YouTube上所有的人類操作視頻,轉(zhuǎn)換效率也是個(gè)問(wèn)題。

這就是全棧整合派的第一個(gè)困境:你控制了全鏈條,但也意味著全鏈條的每個(gè)環(huán)節(jié)都是你的瓶頸。硬件不夠好,模型再?gòu)?qiáng)也白搭;模型不夠強(qiáng),硬件再好也發(fā)揮不出來(lái)。

但特斯拉的優(yōu)勢(shì)是錢多、人多、還有馬斯克,Optimus會(huì)不會(huì)最終成功?可能要再過(guò)兩年才能見(jiàn)分曉。


而Figure AI走的是類似特斯拉的路線,但更激進(jìn)。這家公司2022年才成立,創(chuàng)始人Brett Adcock之前做過(guò)電動(dòng)垂直起降飛機(jī),算是從“飛行機(jī)器人”跨界到“地面機(jī)器人”。

2024年初,F(xiàn)igure AI做了個(gè)大膽的決定:和OpenAI深度合作,將GPT-4直接接入人形機(jī)器人中。那段時(shí)間,他們放出來(lái)的demo震撼全行業(yè):機(jī)器人能聽(tīng)懂人類的指令,能和人對(duì)話,能自己決定做什么。比如你說(shuō)“可以給我點(diǎn)吃的嗎”,它會(huì)主動(dòng)遞給你一個(gè)蘋果。


但好景不長(zhǎng)。2025年2月,F(xiàn)igure AI突然主動(dòng)宣布和OpenAI“分手”:他們要獨(dú)立推出自己的基礎(chǔ)模型,不再依賴OpenAI的技術(shù)。分手后的Figure AI,兩周后就迅速推出新Helix模型,定位為通用人形機(jī)器人VLA模型,強(qiáng)調(diào)是完全自研、用于控制整個(gè)人形機(jī)器人。

不得不說(shuō),能夠放棄OpenAI的“粗大腿”,F(xiàn)igure AI確實(shí)有兩把刷子。

Helix創(chuàng)新地采用了“System 1,System 2”雙系統(tǒng)架構(gòu):System 2像你的大腦皮層,負(fù)責(zé)“想清楚該干什么”;System 1像你的小腦,負(fù)責(zé)“手腳怎么配合”。當(dāng)你拿杯子喝水時(shí),大腦皮層只需要決定“現(xiàn)在該拿杯子了”,小腦會(huì)自動(dòng)調(diào)動(dòng)20多塊肌肉完成抓取動(dòng)作,你根本不需要意識(shí)到。


這個(gè)架構(gòu)解決了一個(gè)長(zhǎng)期困擾機(jī)器人的問(wèn)題:視覺(jué)-語(yǔ)言模型很聰明但太慢,傳統(tǒng)機(jī)器人控制策略很快但不夠通用。Helix讓兩者各司其職、端到端訓(xùn)練,既能理解復(fù)雜指令,又能實(shí)時(shí)精確控制。

更酷的是,Helix用單一神經(jīng)網(wǎng)絡(luò)控制整個(gè)上半身的35個(gè)自由度——包括手腕、軀干、頭部、每根手指,它還能同時(shí)控制兩個(gè)機(jī)器人協(xié)作完成任務(wù)。這就是Figure 和OpenAI“分手”后交出的答卷。


2025年9月,F(xiàn)igure AI完成了10億美元的C輪融資,估值從26億美元飆升到390億美元——15倍的漲幅,不到一年時(shí)間。投資方名單讀起來(lái)像科技圈的奧斯卡頒獎(jiǎng)典禮:微軟、OpenAI、英偉達(dá)、貝佐斯、英特爾、三星……聽(tīng)起來(lái),已然成為具身機(jī)器人的“扛把子”。

總結(jié)一下,這一派的核心理念是:基礎(chǔ)模型的通用性來(lái)自于“足夠大、足夠端到端”,只要模型參數(shù)夠多、訓(xùn)練數(shù)據(jù)夠多、軟硬整合夠深,涌現(xiàn)能力就會(huì)自然出現(xiàn)。這是從GPT-4的成功中總結(jié)出來(lái)的經(jīng)驗(yàn)——但這個(gè)經(jīng)驗(yàn)在物理世界是否成立,還是個(gè)未知數(shù)。

Chapter 2.2 流派二:垂直突破派

如果說(shuō)全棧整合派追求的是“一步到位的通用性”,那垂直突破派追求的是“從專精到泛化的涌現(xiàn)”。

他們的核心信念是:與其訓(xùn)練一個(gè)什么都會(huì)但什么都做不好的大模型,不如先讓模型在某個(gè)垂直場(chǎng)景做到極致,在這個(gè)過(guò)程中積累的“學(xué)習(xí)能力”會(huì)自然遷移到其他場(chǎng)景。

Dyna Robotics是這個(gè)流派比較清晰的代表,他們走的路線很特別:做通用形態(tài)的機(jī)器人,但是在模型層面會(huì)先利用比較成熟的能力,落地一些可以打工的場(chǎng)景,用于了解行業(yè)的know how(實(shí)際知識(shí)),并更好的指導(dǎo)算法研究的方向。也就是說(shuō),先讓機(jī)器人在洗衣房、餐廳、健身房這些場(chǎng)景“打工”,邊干活邊學(xué)習(xí)。


在2025年4月,他們發(fā)布了“首個(gè)可在真實(shí)環(huán)境中持續(xù)高性能運(yùn)行的機(jī)器人基礎(chǔ)模型”DYNA-1。在24小時(shí)內(nèi),他們的機(jī)器人自主折疊了700多張餐巾,成功率超過(guò)99.4%,完全無(wú)需人工干預(yù),吞吐量達(dá)到人類速度的60%。但顯然,Dyna的野心不止于疊毛巾。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 第一是我們要澄清,我們不是一個(gè)做疊毛巾的公司,我們的基礎(chǔ)模型里面包含了各種各樣的數(shù)據(jù),有各種疊的:疊毛巾、疊餐巾、疊衣服,也有切菜、切水果、準(zhǔn)備食物,也有做早餐、清掃或者說(shuō)擺放、物流場(chǎng)景的一些分揀,其實(shí)各種各樣的數(shù)據(jù)我們都有,我們的基礎(chǔ)模型其實(shí)是一個(gè)非常廣的模型。
我們的泛化性最主要還是來(lái)自于基礎(chǔ)的大模型,我們是希望基礎(chǔ)大模型能夠有足夠強(qiáng)的能力,在大部分的任務(wù)上不太需要非常多的定制。在早期可能你會(huì)發(fā)現(xiàn)遷移到一個(gè)新的任務(wù)的過(guò)程會(huì)比較冗余、比較繁雜,你會(huì)需要再重新采很大一部分的數(shù)據(jù),然后混到一起去做訓(xùn)練,但隨著你的基礎(chǔ)大模型數(shù)據(jù)量越來(lái)越大之后,你會(huì)發(fā)現(xiàn)哪怕去遷移到一個(gè)從未見(jiàn)過(guò)的這個(gè)任務(wù)上面,它其實(shí)需要的遷移成本也會(huì)越來(lái)越低。 我們過(guò)去可能會(huì)需要采幾個(gè)月的數(shù)據(jù)去遷移某一個(gè)任務(wù),但是到現(xiàn)在可能有一些簡(jiǎn)單的任務(wù),可能一兩天的數(shù)據(jù)就可以遷移過(guò)去。所以整體來(lái)說(shuō)只要你的基礎(chǔ)模型能力越來(lái)越強(qiáng),學(xué)習(xí)能力越來(lái)越強(qiáng)的話,你去遷移到新任務(wù)的能力也會(huì)越來(lái)越強(qiáng)。


Dyna對(duì)基礎(chǔ)模型的理解和全棧整合派完全不同,他們的理解是:與其訓(xùn)練一個(gè)什么都會(huì)但什么都做不好的泛化模型,不如先讓模型在某個(gè)任務(wù)上深度專精。在這個(gè)過(guò)程中積累的“學(xué)習(xí)能力”會(huì)幫助它更快掌握其他任務(wù)。就像把鋼琴練到音樂(lè)學(xué)院水平的人,上手吉他會(huì)比完全沒(méi)學(xué)過(guò)樂(lè)器的人快得多,因?yàn)?strong>掌握了“如何學(xué)習(xí)”的元技能。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 我們確實(shí)也看到當(dāng)你單一任務(wù)的能力提升得很強(qiáng)之后,它對(duì)于學(xué)習(xí)新任務(wù)有一定的促進(jìn)作用,我們拿最優(yōu)質(zhì)的數(shù)據(jù)到基礎(chǔ)的數(shù)據(jù)集里面做預(yù)訓(xùn)練之后,這個(gè)模型再去擴(kuò)展到新的任務(wù)上,它會(huì)更快、需要的數(shù)據(jù)更少,所以這個(gè)也是我們?cè)趯?shí)踐過(guò)程中找到一個(gè)有點(diǎn)反直覺(jué),但是確實(shí)它發(fā)生了的一件事。我們對(duì)于它的理解可能就像人,如果你的學(xué)習(xí)能力本身很強(qiáng),那你學(xué)習(xí)新的東西的能力就會(huì)很強(qiáng),學(xué)習(xí)能力很強(qiáng)的前提是你可能過(guò)去已經(jīng)在很多任務(wù)上你自己做過(guò)實(shí)踐、做過(guò)學(xué)習(xí),你才會(huì)有強(qiáng)的學(xué)習(xí)能力。 所以我們覺(jué)得學(xué)習(xí)能力本身和學(xué)習(xí)的過(guò)程也是關(guān)聯(lián)的。

這個(gè)理念背后基于這樣一個(gè)觀點(diǎn):機(jī)器人基礎(chǔ)模型和大語(yǔ)言模型的Scaling Law(縮放定律)可能不一樣。

大語(yǔ)言模型的規(guī)律是:模型越大、數(shù)據(jù)越多,性能就越好,但機(jī)器人基礎(chǔ)模型的性能瓶頸,不只在“模型容量”和“數(shù)據(jù)量”,更在“數(shù)據(jù)質(zhì)量”和“物理一致性”。如果訓(xùn)練數(shù)據(jù)里的物理接觸不準(zhǔn)確,模型學(xué)到的就是錯(cuò)誤的物理直覺(jué),參數(shù)越大,錯(cuò)誤越被“放大”。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 為什么說(shuō)基于某種程度,它的Scaling Law(縮放定律)肯定不像大語(yǔ)言模型這么簡(jiǎn)單粗暴。因?yàn)槲覀冎耙埠屯Χ嘧龃笳Z(yǔ)言模型的這些人聊過(guò),他們已經(jīng)發(fā)現(xiàn),語(yǔ)言方向的數(shù)據(jù),哪怕用很多低質(zhì)量數(shù)據(jù),比如一堆文本,中間插了一段廣告,然后再是接著文本,就這樣的數(shù)據(jù)它一樣能訓(xùn)練出比較好的模型。因?yàn)槟P退吹臄?shù)據(jù)足夠多之后,它自動(dòng)就會(huì)過(guò)濾掉廣告。但是機(jī)器人當(dāng)前我們覺(jué)得規(guī)模化更多的是來(lái)自于需要比較高質(zhì)量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面,機(jī)器人模型可能就不知道我要注意力集中在哪一個(gè)地方,所以最終它其實(shí)出來(lái)的效果并沒(méi)有那么好。
我們現(xiàn)在看到的是如果你的數(shù)據(jù)質(zhì)量足夠好,隨著數(shù)據(jù)量的增加,數(shù)據(jù)多樣性的增加,整體的基礎(chǔ)模型能力就會(huì)有很大的提升,對(duì)下游的各種需要fine-tune(微調(diào))的一些小任務(wù)也會(huì)有很大的提升,這個(gè)是實(shí)打?qū)嵞軌蚩吹玫降摹?/blockquote>


圖片來(lái)源:Dyna

所以Dyna選擇“小而精”的路線:

  • 與其訓(xùn)練一個(gè)100億參數(shù)的泛化模型,不如訓(xùn)練一個(gè)10億參數(shù)的專精模型

  • 要保證每一條訓(xùn)練數(shù)據(jù)都是高質(zhì)量的真實(shí)物理交互

  • 讓模型在實(shí)際部署中通過(guò)強(qiáng)化學(xué)習(xí)自我優(yōu)化

他們認(rèn)為:深度專精某個(gè)任務(wù)的過(guò)程中,模型學(xué)到的不只是“怎么疊毛巾”,還有“怎么快速學(xué)習(xí)新任務(wù)”的元能力。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 所以我們現(xiàn)在挺關(guān)注的,比如像強(qiáng)化學(xué)習(xí)的一些路徑,像通過(guò)大模型的基礎(chǔ)能力的學(xué)習(xí),比如說(shuō)折疊能力、擺放能力的學(xué)習(xí),讓它擁有一個(gè)自我迭代、自我去學(xué)習(xí)新技能的能力,我覺(jué)得這個(gè)是最重要的。 但最終我們會(huì)覺(jué)得基礎(chǔ)的大模型可能在普通的一些任務(wù),比如說(shuō)家用的很多:你幫我拿一個(gè)水、你幫我開(kāi)一下門,類似的任務(wù)中,它應(yīng)該是可以直接完成的。

同樣重視元學(xué)習(xí)能力的,也還有諸如Skild AI這樣從“通用模型”切入,但并不做硬件的公司,他們核心邏輯是:用大規(guī)模仿真數(shù)據(jù)訓(xùn)練出一個(gè)通用的“大腦”,然后讓這個(gè)大腦能快速適配到不同的機(jī)器人硬件和任務(wù)場(chǎng)景。

比如說(shuō),同一個(gè)模型既能控制機(jī)械臂抓取物體,也能讓四足機(jī)器人行走,還能指揮人形機(jī)器人完成復(fù)雜操作,不需要每個(gè)任務(wù)都從頭訓(xùn)練,而是靠一個(gè)強(qiáng)大的基礎(chǔ)模型來(lái)遷移學(xué)習(xí)。有傳聞稱,英偉達(dá)和軟銀將領(lǐng)頭對(duì)它投資10億美元,估值將高達(dá)140億美元。


這個(gè)路線,還有一個(gè)特殊玩家值得一提:亞馬遜。2025年7月,亞馬遜宣布部署了第100萬(wàn)臺(tái)機(jī)器人。100萬(wàn)臺(tái)是什么概念?亞馬遜目前有156萬(wàn)名員工,也就是說(shuō)機(jī)器人數(shù)量即將超過(guò)人類員工

但這100萬(wàn)臺(tái)機(jī)器人,全都是專用機(jī)器人,針對(duì)具體場(chǎng)景優(yōu)化:Hercules能搬運(yùn)1250磅貨物,Pegasus用于包裹分揀、運(yùn)輸,但亞馬遜的野心不止于此。他們的Agentic AI團(tuán)隊(duì)正在開(kāi)發(fā)通用機(jī)器人基礎(chǔ)模型,還在舊金山辦公室建了個(gè)叫“humanoid park”的室內(nèi)測(cè)試場(chǎng),訓(xùn)練人形機(jī)器人應(yīng)對(duì)復(fù)雜障礙。


亞馬遜的策略和Dyna如出一轍:與其一開(kāi)始就做大而全的通用模型,不如先在垂直場(chǎng)景積累世界上最好的數(shù)據(jù)和最強(qiáng)的能力,然后再泛化。

Chapter 2.3 流派三:生態(tài)平臺(tái)派

如果說(shuō)前兩派是在爭(zhēng)“誰(shuí)的路線更快”,那第三派爭(zhēng)的是“誰(shuí)能制定行業(yè)標(biāo)準(zhǔn)”。他們的核心信念是:在基礎(chǔ)模型這個(gè)賽道,最終贏家不一定是技術(shù)最強(qiáng)的,而是生態(tài)控制力最強(qiáng)的。


首先,NVIDIA的邏輯很簡(jiǎn)單:做機(jī)器人界的Android。

2025年3月的GTC大會(huì)上,黃仁勛隆重介紹了GR00T N1,并且把它開(kāi)源了,聽(tīng)起來(lái)很美好,但你要用GR00T N1,就得用全套NVIDIA生態(tài),一個(gè)都跑不掉。這就是生態(tài)鎖定的威力:一旦你用了NVIDIA的全套工具鏈,切換成本高到讓人望而卻步。NVIDIA的護(hù)城河不是模型本身,而是整個(gè)生態(tài)。


Google走的是另一條路:通過(guò)開(kāi)源研究建立影響力。

Google在機(jī)器人通用策略上選擇了一條“研究驅(qū)動(dòng)、開(kāi)源優(yōu)先”的路線。它推出的RT系列,強(qiáng)調(diào)大規(guī)模機(jī)器人演示數(shù)據(jù)、跨任務(wù)/跨平臺(tái)通用模型,并通過(guò)論文+開(kāi)放數(shù)據(jù)集的方式在學(xué)術(shù)與研究社區(qū)建立了強(qiáng)大影響力。在Gemini 3發(fā)布后,Google最近也加快了步伐,還挖來(lái)了前波士頓動(dòng)力首席技術(shù)官Aaron Saunders,想推動(dòng)Gemini Al成為通用機(jī)器人控制平臺(tái)。

而OpenAI和Meta是這一派的另一種玩法:小步快跑,只為占坑。

OpenAI和機(jī)器人的關(guān)系,就像一對(duì)分分合合的情侶:早在2018年,他們就在機(jī)械手-操作任務(wù)上取得突破;但之后團(tuán)隊(duì)規(guī)模與優(yōu)先級(jí)有所收縮。到2024年和2025年初,他們上演了和Figure從熱戀到斷裂式分手的戲碼;但到了2025年下半年,他們又開(kāi)始招聘多位專注于人形機(jī)器人控制算法的研究人員。


此外,OpenAI也試圖通過(guò)撒錢投資的方式,打造自己的生態(tài)影響力,2024年11月,OpenAI與杰夫·貝佐斯共同參與了Physical Intelligence的4億美元融資。

Meta的策略類似但更低調(diào)。2025年初,Meta在其Reality Labs旗下組建了一個(gè)新機(jī)器人部門,由前Cruise CEO Marc Whitten牽頭,目標(biāo)是開(kāi)發(fā)類人機(jī)器人平臺(tái)。Meta CTO Andrew Bosworth曾公開(kāi)提到,其團(tuán)隊(duì)正在構(gòu)建一種“world model”,以支撐機(jī)器人完成比“行走”和“跑跳”更細(xì)致的操控動(dòng)作。


Chapter 2.4 三派之爭(zhēng)的本質(zhì):對(duì)“通用性”的不同賭注

表面上看,三派是在爭(zhēng)技術(shù)路線、爭(zhēng)市場(chǎng)、爭(zhēng)估值,但本質(zhì)上,他們賭的是關(guān)于“通用性”的三個(gè)相通、但又不同的假設(shè):


全棧整合派相信:通用性=足夠大的模型+足夠多的數(shù)據(jù)+足夠深的軟硬整合,只要這三個(gè)條件滿足,涌現(xiàn)能力會(huì)自然出現(xiàn),這是從GPT-4的成功中總結(jié)出來(lái)的經(jīng)驗(yàn)。

垂直突破派相信:通用性=深度專精帶來(lái)的遷移能力,機(jī)器人的Scaling Law和語(yǔ)言模型不同,“小而精”可能比“大而全”更有效,關(guān)鍵是找到正確的“元學(xué)習(xí)”路徑。

生態(tài)平臺(tái)派相信:通用性=生態(tài)標(biāo)準(zhǔn)化程度,技術(shù)路線誰(shuí)贏不重要,重要的是讓所有人都用你的工具鏈,最終贏家不是技術(shù)最強(qiáng)的,而是生態(tài)控制力最強(qiáng)的。

當(dāng)然,還有“半開(kāi)源半閉源”的兩家知名公司,Physical Intelligence(PI)和Genesis AI。我們會(huì)在我們的開(kāi)源篇文章里重點(diǎn)介紹他們。

這幾大派系誰(shuí)對(duì)誰(shuí)錯(cuò)?2025年還沒(méi)有答案。但可以確定的是:這場(chǎng)關(guān)于基礎(chǔ)模型的競(jìng)賽,才剛剛開(kāi)始。

03

2025年現(xiàn)狀

展示很精彩,落地還未知

馬斯克對(duì)特斯拉機(jī)器人的夢(mèng)想很宏大,但現(xiàn)實(shí)是Optimus還在艱難爬坡。

12月19日,特斯拉官方發(fā)布了一份名為《特斯拉人形機(jī)器人2025年度報(bào)告》的視頻回顧,詳細(xì)披露了其人形機(jī)器人Optimus在過(guò)去一年中的技術(shù)迭代與進(jìn)化路徑,視頻以O(shè)ptimus加速跑進(jìn)2026年的畫面收尾,暗示明年將有更大幅度的技術(shù)跨越。我們也拭目以待。


同時(shí),F(xiàn)igure AI拿了10億美元,估值390億,但真正商業(yè)化部署的也就幾十臺(tái)。NVIDIA的GR00T N1發(fā)布了,但有多少公司真正用起來(lái)了?不好說(shuō)。

但是,我們也看到了各家都在令人驚嘆的進(jìn)展,有特斯拉這樣手握重金押注,也有Figure、Dyna為代表的創(chuàng)業(yè)公司在快速前進(jìn),還有OpenAI、Meta的低調(diào)入局,都在用重金、重資產(chǎn)的方式推進(jìn)機(jī)器人基礎(chǔ)模型。

這讓我們相信,尤其是是在家用機(jī)器人領(lǐng)域,機(jī)器人開(kāi)始幫忙干些討厭的家務(wù),已不再那么遙遠(yuǎn)。


York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 我們是覺(jué)得最先肯定是在,像我們當(dāng)前在開(kāi)拓的一些市場(chǎng),比如商用服務(wù)的一些人工的部分,就是和人工一起去完成一些任務(wù)這樣的一些場(chǎng)景。但是我們覺(jué)得家用其實(shí)也沒(méi)有那么遙遠(yuǎn),并不需要完整的、非常通用的AGI。你可能只需要幾個(gè)任務(wù)就可以進(jìn)入到家庭的場(chǎng)景里,先讓機(jī)器人在家里面干起活來(lái),然后逐漸地通過(guò)模型的迭代讓它產(chǎn)生更多的能力。
我們自己的目標(biāo),在2026年我們至少希望在商用場(chǎng)景有比較大規(guī)模的部署,在家用我們會(huì)擇機(jī)看。比如像疊衣服,我們采訪過(guò)很多身邊的朋友,其實(shí)大家都覺(jué)得這個(gè)功能他們非常需要,當(dāng)我們的硬件成本降到普通家庭可承擔(dān)的范圍內(nèi),我們可能就會(huì)優(yōu)先,比如先以疊衣服的功能賣給家庭,然后逐漸去拓展一些其他的功能。所以這個(gè)時(shí)間線應(yīng)該也不遙遠(yuǎn),可能也就在1~2年左右。

怎么樣,幾百美元可以幫你疊衣服、準(zhǔn)備早餐和做清潔的機(jī)器人助手,你會(huì)買嗎?

有關(guān)閉源模型的內(nèi)容我們就先聊到這里,但有一群人在用完全不同的方式做同樣的事:他們開(kāi)源模型、他們分享數(shù)據(jù)、他們相信“聚沙成塔”的力量。他們說(shuō):“開(kāi)放才能實(shí)現(xiàn)具身智能?!?/p>

下一篇機(jī)器人的文章我們會(huì)聊到:NVIDIA的“開(kāi)放”到底有多開(kāi)放?它和真正的開(kāi)源有什么區(qū)別?為什么有人說(shuō)GR00T N1是“偽開(kāi)源”?Physical Intellig ence為什么要開(kāi)源π0?一個(gè)剛成立、剛拿到投資的公司,為什么要把最核心的模型免費(fèi)放出來(lái)?他們的商業(yè)模式是什么?開(kāi)源vs閉源,誰(shuí)會(huì)贏?這場(chǎng)戰(zhàn)爭(zhēng)的本質(zhì)是什么?是技術(shù)路線之爭(zhēng),還是商業(yè)模式之爭(zhēng)?

注:部分圖片來(lái)源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國(guó)內(nèi):B站|騰訊|視頻號(hào)|西瓜|頭條|百家號(hào)|36kr|微博|虎嗅

海外:Youtube

聯(lián)系我們:video@sv101.net

【創(chuàng)作團(tuán)隊(duì)】

監(jiān)制|泓君 陳茜

撰稿 |Vicky Xiao

編輯|陳茜

剪輯|Jacob

運(yùn)營(yíng)|王梓沁 孫澤平 何源清

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長(zhǎng)期熬夜后突發(fā)心梗倒地昏迷,搶救成功后回農(nóng)村靜養(yǎng),40歲心梗幸存者“二梨”:心臟疼痛必須立刻去醫(yī)院,倒在醫(yī)院被救活的概率比外面大

長(zhǎng)期熬夜后突發(fā)心梗倒地昏迷,搶救成功后回農(nóng)村靜養(yǎng),40歲心梗幸存者“二梨”:心臟疼痛必須立刻去醫(yī)院,倒在醫(yī)院被救活的概率比外面大

極目新聞
2026-03-27 23:24:09
實(shí)錘!伊朗導(dǎo)彈基地指揮官被以色列精準(zhǔn)斬首

實(shí)錘!伊朗導(dǎo)彈基地指揮官被以色列精準(zhǔn)斬首

老馬拉車莫少裝
2026-03-27 18:55:23
iPhone 50周年紀(jì)念版上架,真好看!

iPhone 50周年紀(jì)念版上架,真好看!

劉奔跑
2026-03-27 23:58:41
惡魔檢察官蔣英庫(kù) 8 年殺 21 人,滅口同行,2001 年被槍決伏法

惡魔檢察官蔣英庫(kù) 8 年殺 21 人,滅口同行,2001 年被槍決伏法

有書
2026-02-13 21:45:04
波蘭簽生死令:本國(guó)公民可合法入烏克蘭作戰(zhàn)

波蘭簽生死令:本國(guó)公民可合法入烏克蘭作戰(zhàn)

老馬拉車莫少裝
2026-03-28 09:13:29
山東一男嬰日夜啼哭,母親掀開(kāi)被子后,將月嫂當(dāng)場(chǎng)掐死

山東一男嬰日夜啼哭,母親掀開(kāi)被子后,將月嫂當(dāng)場(chǎng)掐死

罪案洞察者
2025-03-31 09:35:41
美軍被曝準(zhǔn)備對(duì)伊朗地面行動(dòng)

美軍被曝準(zhǔn)備對(duì)伊朗地面行動(dòng)

澎湃新聞
2026-03-29 12:03:02
美副總統(tǒng)稱無(wú)意滯留伊朗 將很快撤出

美副總統(tǒng)稱無(wú)意滯留伊朗 將很快撤出

每日經(jīng)濟(jì)新聞
2026-03-29 12:34:00
隊(duì)史首次進(jìn)季后賽!楊瀚森場(chǎng)均17分9板3助1帽!開(kāi)拓者主帥攤牌了

隊(duì)史首次進(jìn)季后賽!楊瀚森場(chǎng)均17分9板3助1帽!開(kāi)拓者主帥攤牌了

世界體育圈
2026-03-29 12:54:56
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
最狠軍事博弈:伊朗挖空3億年花崗巖,500米地下建導(dǎo)彈城

最狠軍事博弈:伊朗挖空3億年花崗巖,500米地下建導(dǎo)彈城

秋楓未語(yǔ)
2026-03-29 16:42:41
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
澳門世界杯:女單簽位公布!國(guó)乒阻擊早田希娜,王曼昱迎戰(zhàn)怪膠手

澳門世界杯:女單簽位公布!國(guó)乒阻擊早田希娜,王曼昱迎戰(zhàn)怪膠手

全言作品
2026-03-29 14:50:46
外媒:以色列警方驅(qū)散特拉維夫反戰(zhàn)集會(huì)

外媒:以色列警方驅(qū)散特拉維夫反戰(zhàn)集會(huì)

參考消息
2026-03-29 13:29:11
美副總統(tǒng)稱很快撤出伊朗!所有目標(biāo)已完成!伊朗這次堅(jiān)決不上當(dāng)

美副總統(tǒng)稱很快撤出伊朗!所有目標(biāo)已完成!伊朗這次堅(jiān)決不上當(dāng)

軒逸阿II
2026-03-29 17:36:52
CCTV5直播!國(guó)足VS喀麥隆隊(duì),邵佳一沖2連勝,贏球有望鎖定第1名

CCTV5直播!國(guó)足VS喀麥隆隊(duì),邵佳一沖2連勝,贏球有望鎖定第1名

霽寒飄雪
2026-03-29 10:03:35
員工曝光張雪峰真實(shí)的人品!太感人了,感嘆好人為何死的那么早?

員工曝光張雪峰真實(shí)的人品!太感人了,感嘆好人為何死的那么早?

談史論天地
2026-03-29 08:33:53
澳門乒乓世界杯賽程:3月30日國(guó)乒對(duì)陣表,CCTV5直播

澳門乒乓世界杯賽程:3月30日國(guó)乒對(duì)陣表,CCTV5直播

小犙拍客在北漂
2026-03-29 17:51:00
太好了!特朗普決心已下,要對(duì)伊朗發(fā)動(dòng)大規(guī)模地面進(jìn)攻

太好了!特朗普決心已下,要對(duì)伊朗發(fā)動(dòng)大規(guī)模地面進(jìn)攻

溫讀史
2026-03-29 17:02:08
奪命電飯煲已被曝光!米飯進(jìn)去秒變毒藥,內(nèi)膽是肝癌催化劑?

奪命電飯煲已被曝光!米飯進(jìn)去秒變毒藥,內(nèi)膽是肝癌催化劑?

岐黃傳人孫大夫
2026-03-16 18:47:19
2026-03-29 18:23:00
硅谷101 incentive-icons
硅谷101
從這里駛向未來(lái)
162文章數(shù) 105關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

單親爸爸記錄女兒成長(zhǎng)寫滿19個(gè)日記本 4年前患癌去世

頭條要聞

單親爸爸記錄女兒成長(zhǎng)寫滿19個(gè)日記本 4年前患癌去世

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂(lè)要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

教育
藝術(shù)
旅游
健康
公開(kāi)課

教育要聞

河南師范大學(xué)2026考研復(fù)試分?jǐn)?shù)線發(fā)布

藝術(shù)要聞

日本展出超清版《十七帖》,放大后的細(xì)節(jié)令人驚嘆,足以改寫書法史!

旅游要聞

春日限定!洛陽(yáng)伊濱4月活動(dòng)樂(lè)不停

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版