網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

機(jī)器人“大腦”60年進(jìn)化史：基礎(chǔ)模型的五代進(jìn)化與三大閉源流派

2026-01-15 10:20:12　來(lái)源: 硅谷101

上海舉報(bào)

分享至

撰稿：Vicky

編輯：陳茜

2025年，機(jī)器人公司發(fā)布的Demo都有點(diǎn)魔幻：

首先是Figure AI，在10月發(fā)布了第三代機(jī)器人，能做各種家務(wù)，Demo也很酷炫，但任務(wù)的成功率存在很多質(zhì)疑，而且臉的設(shè)計(jì)，恐怖谷現(xiàn)象有點(diǎn)嚴(yán)重。

10月底發(fā)布demo的另一家明星公司1X，整個(gè)臉部設(shè)計(jì)就可愛(ài)了非常多，感覺(jué)是更愿意讓大家搬到家里的。但是叫做Neo的這款機(jī)器人依賴遠(yuǎn)程操控，被批評(píng)是“假智能”，而且有各種隱私問(wèn)題。

同時(shí)，特斯拉的機(jī)器人雖然也發(fā)布了各種Demo的更新，包括在12月發(fā)布的非常順滑的跑步Demo，但明顯量產(chǎn)計(jì)劃在2025年遇到了極大的挑戰(zhàn)，讓公司不得不暫停生產(chǎn)，重新設(shè)計(jì)硬件。

我們的機(jī)器人系列已經(jīng)聊了靈巧手，以及2025年具身智能行業(yè)年度盤點(diǎn)，本篇文章就來(lái)深聊一下這個(gè)產(chǎn)業(yè)的一個(gè)核心技術(shù)：機(jī)器人基礎(chǔ)模型。我們?cè)噲D回答這樣一個(gè)問(wèn)題：為什么2025年突然變成了機(jī)器人基礎(chǔ)模型的“元年”？

我們也走訪了硅谷的前沿機(jī)器人公司和實(shí)驗(yàn)室，而基礎(chǔ)模型篇會(huì)分為“閉源”和“開(kāi)源”兩篇，系統(tǒng)拆解當(dāng)下主流機(jī)器人的“大腦”是如何被訓(xùn)練出來(lái)、如何接入真實(shí)世界、以及不同路線背后的技術(shù)與商業(yè)邏輯。帶你看清，大模型時(shí)代的機(jī)器人，大腦究竟是怎么長(zhǎng)成的。本篇文章我們先來(lái)聊一聊目前資本市場(chǎng)的寵兒——閉源系統(tǒng)。

機(jī)器人基礎(chǔ)模型從60年代到2025年的范式革命

如果要用一句話解釋機(jī)器人基礎(chǔ)模型，最簡(jiǎn)單的類比是：如果說(shuō)GPT是“會(huì)說(shuō)話的大腦”，那機(jī)器人基礎(chǔ)模型就是“會(huì)動(dòng)手的大腦”。

但這個(gè)“會(huì)動(dòng)手的大腦”，人類研究了整整60年才做出來(lái)。我們先來(lái)回顧一下，大模型出現(xiàn)以前的四大機(jī)器人范式。

Chapter 1.1 第一代：編程式機(jī)器人（1960s-1990s）

1961年，世界上第一臺(tái)工業(yè)機(jī)器人Unimate在通用汽車的工廠里“上班”了。它的工作很簡(jiǎn)單：從生產(chǎn)線上抓起滾燙的金屬零件，放到另一條生產(chǎn)線上。

從現(xiàn)在的眼光看，它蠻“傻”的，因?yàn)橥耆烤幊?，工程師用代碼告訴它：

步驟1：手臂向左移動(dòng)30厘米

步驟2：手爪閉合

步驟3：手臂向上移動(dòng)50厘米

步驟4：手臂向右旋轉(zhuǎn)90度

步驟5：手爪松開(kāi)

聽(tīng)起來(lái)很傻對(duì)吧？但在當(dāng)時(shí)，這已經(jīng)是革命性的突破了。這種方式的問(wèn)題很明顯：零容錯(cuò)、零靈活性。

如果零件的位置偏了1厘米，機(jī)器人就抓不到，如果換一個(gè)不同尺寸的零件，就得重新寫代碼。更別說(shuō)應(yīng)對(duì)意外情況——比如零件掉在地上，機(jī)器人就徹底不知道該干什么了。

但在工廠這種高度可控的環(huán)境里，這套方法管用了幾十年。直到今天，很多汽車工廠的焊接機(jī)器人，還在用這套“編程式”的邏輯。

Chapter 1.2 第二代：基于SLAM的方法（1990s-2010s）

到了90年代，機(jī)器人學(xué)家們意識(shí)到：光靠編程不行，機(jī)器人得能“感知”環(huán)境。于是出現(xiàn)了SLAM（同時(shí)定位與地圖構(gòu)建）、運(yùn)動(dòng)規(guī)劃這些技術(shù)。

這里的核心思路是：先用傳感器“看”周圍環(huán)境，建立一個(gè)3D地圖，然后在地圖上規(guī)劃路徑，最后執(zhí)行動(dòng)作。這個(gè)方式最成功的應(yīng)用就是掃地機(jī)器人。

風(fēng)靡一時(shí)的Roomba就是這么工作的：它用激光雷達(dá)掃描房間，建立地圖；然后規(guī)劃一條覆蓋所有區(qū)域的路徑；再按照路徑移動(dòng)，遇到障礙物就繞開(kāi)。

這套方法在“導(dǎo)航”任務(wù)上很成功：早期的無(wú)人車、無(wú)人機(jī)、物流機(jī)器人，基本都是這個(gè)套路。但在“操作”任務(wù)上就不行了，因?yàn)椴僮魅蝿?wù)太復(fù)雜了，比如讓機(jī)器人疊一條毛巾，傳統(tǒng)方法是四步：

1.用視覺(jué)識(shí)別毛巾的四個(gè)角

2.計(jì)算每個(gè)角的3D坐標(biāo)

3.規(guī)劃手臂的運(yùn)動(dòng)軌跡

4.執(zhí)行抓取、折疊、放下

聽(tīng)起來(lái)挺合理，但實(shí)際操作中到處是坑：毛巾可能皺成一團(tuán)，根本識(shí)別不出“四個(gè)角”；毛巾是柔性的，你一抓它就變形，3D坐標(biāo)立刻失效；每一步都可能出錯(cuò)，一出錯(cuò)整個(gè)流程就崩了。

2010年，加州伯克利的一個(gè)研究團(tuán)隊(duì)做過(guò)一個(gè)實(shí)驗(yàn)：讓機(jī)器人疊毛巾，用的就是這套“感知→規(guī)劃→執(zhí)行”的方法。結(jié)果平均一條毛巾要花24分鐘。

而疊毛巾在如今AI時(shí)代來(lái)臨之后，也同樣是非常核心的，需要基礎(chǔ)模型去驅(qū)動(dòng)機(jī)器人攻破的任務(wù)。

Chapter 1.3 第三代：行為克?。?010s中期）

既然手工設(shè)計(jì)規(guī)則不行，那能不能讓機(jī)器人直接“學(xué)”人類怎么做？這就是行為克?。˙ehavior Cloning）的思路，也叫模仿學(xué)習(xí)（Imitation Learning）。

同樣以疊毛巾為例，機(jī)器人模仿學(xué)習(xí)會(huì)這么做：讓人類演示很多次怎么疊毛巾；記錄下每一幀的視覺(jué)輸入和動(dòng)作輸出；訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)輸入→輸出的映射；機(jī)器人看到毛巾，直接輸出該做什么動(dòng)作。

2015年，Google Brain的一個(gè)團(tuán)隊(duì)用這個(gè)方法，讓機(jī)器人學(xué)會(huì)了抓取各種物體。他們收集了數(shù)十萬(wàn)次抓取的數(shù)據(jù)，訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)，推動(dòng)了“視覺(jué)-動(dòng)作”學(xué)習(xí)在機(jī)器人抓取任務(wù)上的進(jìn)展。

這可以說(shuō)是個(gè)巨大的進(jìn)步！第一次，機(jī)器人不需要手工編寫規(guī)則，可以通過(guò)數(shù)據(jù)學(xué)習(xí)了。

但這個(gè)方法有個(gè)致命缺陷：數(shù)據(jù)效率太低。它需要數(shù)十萬(wàn)次抓取數(shù)據(jù)來(lái)訓(xùn)練，而且這只是“抓取”這一個(gè)動(dòng)作。如果要學(xué)“疊毛巾”，可能100萬(wàn)次演示都不夠了。

更要命的是，這個(gè)方法的泛化性很差。你用A型號(hào)機(jī)器人收集的數(shù)據(jù)，訓(xùn)練出來(lái)的模型，在B型號(hào)機(jī)器人上基本不能用。

Chapter 1.4 第四代：強(qiáng)化學(xué)習(xí)（2010s后期）

2016年，AlphaGo戰(zhàn)勝李世石，證明了強(qiáng)化學(xué)習(xí)的威力。機(jī)器人科學(xué)家們想：能不能讓機(jī)器人也用強(qiáng)化學(xué)習(xí)，自己摸索出怎么完成任務(wù)？

強(qiáng)化學(xué)習(xí)的核心思路是：不需要人類演示，讓機(jī)器人自己嘗試，做對(duì)了給獎(jiǎng)勵(lì)，做錯(cuò)了給懲罰，機(jī)器人慢慢學(xué)會(huì)怎么做能獲得最多獎(jiǎng)勵(lì)。

當(dāng)時(shí)，波士頓動(dòng)力的機(jī)器人就開(kāi)始將強(qiáng)化學(xué)習(xí)引入移動(dòng)控制系統(tǒng)，讓它們能在各種復(fù)雜地形上行走、跳躍、后空翻。

但強(qiáng)化學(xué)習(xí)也有個(gè)大問(wèn)題：太慢了。AlphaGo為了學(xué)會(huì)下圍棋，在仿真環(huán)境里自己和自己下了幾千萬(wàn)局，但機(jī)器人操作任務(wù)，很難在仿真環(huán)境里練，因?yàn)榄h(huán)境復(fù)雜度太高，非常難設(shè)置，和真實(shí)物理世界差別較大，導(dǎo)致仿真不準(zhǔn)。

但真機(jī)試錯(cuò)呢？太慢、太貴、太危險(xiǎn)。想象一下，讓機(jī)器人學(xué)疊毛巾，它可能要試幾百萬(wàn)次，其中大部分時(shí)候會(huì)出現(xiàn)的情況是：抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。這樣學(xué)下去，要到猴年馬月？

而且強(qiáng)化學(xué)習(xí)有個(gè)更根本的問(wèn)題：它不知道“常識(shí)”。人類知道，毛巾是軟的、可以折疊的、有一定的摩擦力。但強(qiáng)化學(xué)習(xí)的機(jī)器人，需要通過(guò)無(wú)數(shù)次試錯(cuò)才能“發(fā)現(xiàn)”這些常識(shí)，效率太低。

Chapter 1.5 第五代：VLA模型（2020s中期-現(xiàn)在）

大語(yǔ)言模型的出現(xiàn)，改變了一切。2022年，ChatGPT橫空出世，人們發(fā)現(xiàn)：大語(yǔ)言模型里蘊(yùn)含了人類世界的大量“常識(shí)”：它知道毛巾是什么、疊是什么意思、先做什么后做什么。它有推理能力、規(guī)劃能力、泛化能力。

行業(yè)里的第一反應(yīng)就是，能不能把大語(yǔ)言模型和機(jī)器人結(jié)合起來(lái)？于是，VLA（Vision-Language-Action）模型誕生了。VLA模型的革命性在于，它把三個(gè)東西統(tǒng)一到一個(gè)神經(jīng)網(wǎng)絡(luò)里：

Vision（視覺(jué)）：看到當(dāng)前的場(chǎng)景；Language（語(yǔ)言）：理解任務(wù)目標(biāo)和常識(shí)；Action（動(dòng)作）：輸出具體的控制指令。

舉個(gè)例子，你對(duì)機(jī)器人說(shuō)：“幫我把桌上的蘋果放到籃子里。”傳統(tǒng)方法需要四步：

1.視覺(jué)識(shí)別“蘋果”和“籃子”

2.規(guī)劃“抓取蘋果”的軌跡

3.規(guī)劃“移動(dòng)到籃子”的軌跡

4.規(guī)劃“放下”的動(dòng)作

VLA模型呢？一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)，直接從“語(yǔ)言指令+視覺(jué)輸入”，輸出“下一步該做什么動(dòng)作”。

更神奇的是，它會(huì)“常識(shí)推理”。比如你說(shuō)“幫我準(zhǔn)備早餐”，面對(duì)著家庭環(huán)境，它知道：要從冰箱拿出雞蛋；雞蛋要小心拿，不能摔碎；面包要放進(jìn)烤面包機(jī)。

這些常識(shí)，不需要你一條條編程，也不需要它自己試錯(cuò)幾百萬(wàn)次去“發(fā)現(xiàn)”。因?yàn)榇笳Z(yǔ)言模型里已經(jīng)有了。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：我們?cè)诩軜?gòu)層面用的VLA，VLA簡(jiǎn)單來(lái)說(shuō)就是我們拿了大模型領(lǐng)域VLM作為所謂的backbone（核心），但是我們會(huì)在最終輸出結(jié)果的時(shí)候，把這個(gè)結(jié)果轉(zhuǎn)化成在機(jī)器人領(lǐng)域可用的action（動(dòng)作）。action（動(dòng)作）直觀理解就是，比如說(shuō)我要把這個(gè)手臂移動(dòng)到某一個(gè)坐標(biāo)點(diǎn)的這些命令。 VLA其實(shí)大家詬病最多的是：為什么我們需要L（Language、語(yǔ)言）？因?yàn)樵谶^(guò)去傳統(tǒng)的機(jī)器人算法里面很多都是純基于視覺(jué)。但是你仔細(xì)去想，其實(shí)你大腦其實(shí)會(huì)產(chǎn)生類似于語(yǔ)言的東西，去告訴你在一個(gè)長(zhǎng)線任務(wù)中，到底你第一步做什么，第二步做什么。

L的作用就在于對(duì)于一些非常復(fù)雜的任務(wù)的時(shí)候，它是可以通過(guò)在大語(yǔ)言上面已經(jīng)訓(xùn)練出來(lái)很多邏輯性的東西，比如說(shuō)你要喝水，它就會(huì)知道你需要找杯子或者找瓶子。這個(gè)是通過(guò)大語(yǔ)言模型已經(jīng)直接可以給你的一些東西。利用VLA的主要目的，其實(shí)就是如何把Language（語(yǔ)言）跟Vision（視覺(jué)）能夠更好地結(jié)合起來(lái)，否則你如果只有Vision（視覺(jué)），你能做的任務(wù)可能就都是短線的，你做不了任何長(zhǎng)線的、需要去做推理的一些任務(wù)，所以這是我們?yōu)槭裁捶浅Ｗ⒌匾胝Z(yǔ)言這部分的主要原因。

那為什么2025年成了“具身機(jī)器人基礎(chǔ)模型元年”呢？因?yàn)槿齻€(gè)關(guān)鍵因素在這一年同時(shí)成熟了。

第一個(gè)因素：大語(yǔ)言模型“夠用了”。

2024年到2025年，OpenAI、Anthropic、Google這些公司陸續(xù)發(fā)布新模型，大語(yǔ)言模型已經(jīng)“成熟”了，至少對(duì)于機(jī)器人需要的那部分能力，理解指令、規(guī)劃任務(wù)、常識(shí)推理，已經(jīng)足夠好了。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：第一是大模型本身已經(jīng)趨近于成熟，你們可以看到最近不管是OpenAI還是其他的公司，發(fā)布的模型已經(jīng)是增量式的增長(zhǎng)，它不是像從3.5到4的時(shí)候的這種跨越式的增長(zhǎng)，所以我們覺(jué)得大模型的能力已經(jīng)趨于穩(wěn)定，而且已經(jīng)足夠可以為具身智能提供一個(gè)很好的基礎(chǔ)，所以這是從模型層面的一個(gè)最重要的因素。

第二個(gè)因素：算力價(jià)格腰斬再腰斬。

2023年，租一張NVIDIA H100 GPU是天價(jià)，還得排隊(duì)才能拿到貨，而隨著GPU云服務(wù)商價(jià)格戰(zhàn)打響，和NVIDIA的GPU大量鋪貨，初創(chuàng)公司都租得起幾千張卡來(lái)訓(xùn)練模型了。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：第二個(gè)因素是整體的算力強(qiáng)度肯定是越來(lái)越強(qiáng)，每一年英偉達(dá)等芯片公司都會(huì)做更強(qiáng)的芯片，等效的算力價(jià)格其實(shí)也在降低，隔幾年可能等效的價(jià)格就變成了過(guò)去的一半，所以計(jì)算的增強(qiáng)對(duì)于整個(gè)具身智能也有很大的推進(jìn)影響。

第三個(gè)因素：硬件供應(yīng)鏈成熟。

這個(gè)變化很多人沒(méi)注意到。2024年，隨著人形機(jī)器人熱潮，大量資本涌入上游零部件廠商，特別是中國(guó)的供應(yīng)商們，電機(jī)、減速器、傳感器這些東西，原本都是小眾產(chǎn)品，但2024年開(kāi)始，好幾家供應(yīng)商都拿到了大額融資，開(kāi)始擴(kuò)產(chǎn)，硬件便宜了，做機(jī)器人的門檻就降低了。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：第三是整個(gè)機(jī)器人硬件的各種零部件的成熟度是比較高的，特別是從去年開(kāi)始火熱起來(lái)的這一波人形機(jī)器人的助推讓大家花了很多的精力跟資本去投入到很多基礎(chǔ)部件，包括電機(jī)、減速器這些部件的研發(fā)，這一塊的成熟度和成本都有提升和降低，所以我們覺(jué)得這個(gè)時(shí)機(jī)會(huì)比較成熟一些。

這三個(gè)關(guān)鍵元素，讓2025年成為了一個(gè)特殊的時(shí)間窗口，基于VLA的新一代范式的機(jī)器人跑出來(lái)了。

2025年是人形機(jī)器人大年，第一臺(tái)機(jī)器人管家終于登場(chǎng)了，人形機(jī)器人將有望成為史上最龐大的產(chǎn)業(yè)之一，這將是一個(gè)5萬(wàn)億的市場(chǎng)，全世界將遍布十億臺(tái)機(jī)器人。

但VLA模型也不是完美的，而它的核心挑戰(zhàn)是數(shù)據(jù)。大語(yǔ)言模型可以用互聯(lián)網(wǎng)上的文本訓(xùn)練，但機(jī)器人需要的是“真機(jī)數(shù)據(jù)”——必須有機(jī)器人本體的傳感器數(shù)據(jù)。而這種數(shù)據(jù)，互聯(lián)網(wǎng)上根本沒(méi)有。

YouTube上有無(wú)數(shù)人類疊衣服的視頻，但沒(méi)有一個(gè)視頻告訴你，疊衣服的時(shí)候手指關(guān)節(jié)的角度是多少、施加的力量是多少，這就是為什么，這場(chǎng)“軍備競(jìng)賽”的核心，除了算法，還有數(shù)據(jù)。誰(shuí)能用最低的成本，采集到最高質(zhì)量的數(shù)據(jù)，誰(shuí)就能主導(dǎo)這個(gè)市場(chǎng)。

所以，機(jī)器人基礎(chǔ)模型不是憑空冒出來(lái)的，它是60年技術(shù)積累的集大成者，它繼承了：編程式機(jī)器人的“精確控制”；基于模型方法的“環(huán)境感知”；行為克隆的“示范學(xué)習(xí)”；強(qiáng)化學(xué)習(xí)的“自我優(yōu)化”；再加上了大語(yǔ)言模型的“常識(shí)推理”，這才是真正的“基礎(chǔ)模型”。

可能你想知道，現(xiàn)在搭載了VLA模型的機(jī)器人，都到什么程度了？我們這次也走訪了Dyna Robotics。

這家在硅谷炙手可熱的機(jī)器人明星公司的三位華人創(chuàng)始人中，Lindon Gao和York Yang是連續(xù)創(chuàng)業(yè)者，之前創(chuàng)立的AI購(gòu)物車公司Caper AI以3.5億美元的價(jià)格，被Instacart收購(gòu)；Jason Ma則是前DeepMind研究科學(xué)家，專攻機(jī)器人基礎(chǔ)模型。

這家公司成立才一年，已經(jīng)完成兩輪融資：2025年3月種子輪2350萬(wàn)美元，同年的9月A輪1.2億美元，估值超過(guò)6億美元。投資方名單堪稱豪華：英偉達(dá)、亞馬遜、三星、LG。而讓他們最先火出圈的，并不是多么華麗的任務(wù)或者demo，而就是非常樸實(shí)的“疊毛巾”和“疊衣服”。

我們也和機(jī)器人以及和York比拼了一下手速，雖然在疊衣服這件事情上，我倆都比機(jī)器人快，但說(shuō)實(shí)話我覺(jué)得我倆真不一定有Dyna的機(jī)器人疊得好。并且，關(guān)鍵點(diǎn)在于：機(jī)器人雖然目前還比較慢，但它可以7*24運(yùn)作，還不用休息，只要經(jīng)濟(jì)賬算得過(guò)來(lái)，落地就是可行的。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：因?yàn)檎Ｈ斯さ暮芏鄨?chǎng)景，你1個(gè)人就是8個(gè)小時(shí)，而機(jī)器可以讓它跑15個(gè)小時(shí)或者24個(gè)小時(shí)，可以彌補(bǔ)掉效率的一定的損失。第二是疊毛巾本身確實(shí)是一個(gè)不錯(cuò)的商業(yè)落地場(chǎng)景，因?yàn)樗鄬?duì)比較單一，也是比較固定的一個(gè)任務(wù)。但是在像美國(guó)這樣高人工成本的國(guó)家，確實(shí)要花掉很多的資金在這件事情上面，所以我們聊的這些商家客戶都非常有意愿去使用機(jī)器人來(lái)做這件事情。

閉源模型機(jī)器人主要流派

看完Dyna的機(jī)器人，我們?cè)賮?lái)看看，2025年的機(jī)器人賽道，還有哪些玩家：

我們可以把他們分成三個(gè)流派來(lái)看，表面上看，他們爭(zhēng)的是技術(shù)路線、市場(chǎng)份額、融資估值，但本質(zhì)上，他們爭(zhēng)的是同一個(gè)問(wèn)題：什么才是實(shí)現(xiàn)“通用機(jī)器人”的正確路徑？

Chapter 2.1 流派一：全棧整合派

這一派的代表公司是特斯拉Optimus和Figure AI。核心信念是：機(jī)器人基礎(chǔ)模型不能和硬件分離，必須垂直整合、深度耦合，才能發(fā)揮最大效果。

作為這個(gè)流派最激進(jìn)的代表，特斯拉的CEO馬斯克曾經(jīng)說(shuō)過(guò)一句很狂的話：“特斯拉八成的價(jià)值將來(lái)自于Optimus機(jī)器人?！?/p>

馬斯克的自信來(lái)自特斯拉FSD（完全自動(dòng)駕駛）十年的積累，特斯拉Optimus前工程主管Milan Kovac曾經(jīng)說(shuō)，“我們只是從輪子上的機(jī)器人變成長(zhǎng)著腿的機(jī)器人”。

特斯拉有數(shù)百萬(wàn)輛車收集的真實(shí)世界數(shù)據(jù)、端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu)、規(guī)模龐大的標(biāo)注團(tuán)隊(duì)，所以他這個(gè)邏輯聽(tīng)起來(lái)無(wú)懈可擊：既然FSD能讓汽車在復(fù)雜路況中自主駕駛，那同樣的架構(gòu)，為什么不能讓機(jī)器人在復(fù)雜環(huán)境中自主操作？都是感知、決策、執(zhí)行的閉環(huán)，都是端到端的神經(jīng)網(wǎng)絡(luò)，只是輸出從“方向盤角度”變成了“關(guān)節(jié)角度”而已。

但2025年的現(xiàn)實(shí)并沒(méi)有這么美好。年初，馬斯克在內(nèi)部會(huì)議上信誓旦旦地說(shuō)：2025年要生產(chǎn)5000臺(tái)Optimus，其中1000臺(tái)會(huì)部署在特斯拉自己的工廠。但是到年中，實(shí)際上組裝了1000多臺(tái)后，特斯拉Optimus人形機(jī)器人的生產(chǎn)計(jì)劃就已經(jīng)暫停，面臨重新設(shè)計(jì)。

而Optimus最近還面臨一個(gè)更大的風(fēng)波，就是它在特斯拉活動(dòng)現(xiàn)場(chǎng)分發(fā)瓶裝水時(shí)，突然做出了好像要把頭上某個(gè)不存在的東西拽下來(lái)的動(dòng)作，然后摔了一跤。這個(gè)動(dòng)作實(shí)在是太像人類操作員摘下頭戴式設(shè)備的動(dòng)作，于是這段視頻馬上爆火，不少人馬上提出來(lái)質(zhì)疑：Optimus，是不是有操作員在遠(yuǎn)程操控？

Optimus的發(fā)展看起來(lái)不像馬斯克號(hào)稱的那么順利，問(wèn)題出在哪？

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：他們本身是最早在人形機(jī)器人領(lǐng)域做出本體，有過(guò)一定的demo演示的公司。他們現(xiàn)在主要利用的是人類視頻做遷移，它的優(yōu)勢(shì)毋庸置疑，人類視頻其實(shí)是最容易采的，因?yàn)槟悴恍枰魏蔚耐庠O(shè)備，你采集的也是人手去操作的場(chǎng)景，可擴(kuò)展上來(lái)說(shuō)，特斯拉這個(gè)模式是最高的。但是它的幾個(gè)主要的問(wèn)題在于，第一，人類的手和機(jī)器人的手，如果你想讓它這個(gè)能力遷移得很好，需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手，非常接近人的自由度，這件事本身是一件非常困難的事情。

第二，但你再接近，它也不是完全一樣。所以在機(jī)器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會(huì)有一個(gè)鴻溝，就我們所謂的embodiment gap（物理差異），這個(gè)embodiment gap在當(dāng)前學(xué)術(shù)界也好、工業(yè)界也好，大家都公認(rèn)是一個(gè)比較難解決的問(wèn)題。所以這樣的數(shù)據(jù)遷移的效率會(huì)比較低，哪怕你采集了很多數(shù)據(jù)，如果只有30%或者50%可用，你的總數(shù)量就會(huì)需要去乘以可能性的數(shù)字，所以這是它的一定的局限性。

特斯拉想用海量人類視頻訓(xùn)練基礎(chǔ)模型，但人手和機(jī)器手的物理差異（embodiment gap）是個(gè)繞不過(guò)去的坎。即使你有YouTube上所有的人類操作視頻，轉(zhuǎn)換效率也是個(gè)問(wèn)題。

這就是全棧整合派的第一個(gè)困境：你控制了全鏈條，但也意味著全鏈條的每個(gè)環(huán)節(jié)都是你的瓶頸。硬件不夠好，模型再?gòu)?qiáng)也白搭；模型不夠強(qiáng)，硬件再好也發(fā)揮不出來(lái)。

但特斯拉的優(yōu)勢(shì)是錢多、人多、還有馬斯克，Optimus會(huì)不會(huì)最終成功？可能要再過(guò)兩年才能見(jiàn)分曉。

而Figure AI走的是類似特斯拉的路線，但更激進(jìn)。這家公司2022年才成立，創(chuàng)始人Brett Adcock之前做過(guò)電動(dòng)垂直起降飛機(jī)，算是從“飛行機(jī)器人”跨界到“地面機(jī)器人”。

2024年初，F(xiàn)igure AI做了個(gè)大膽的決定：和OpenAI深度合作，將GPT-4直接接入人形機(jī)器人中。那段時(shí)間，他們放出來(lái)的demo震撼全行業(yè)：機(jī)器人能聽(tīng)懂人類的指令，能和人對(duì)話，能自己決定做什么。比如你說(shuō)“可以給我點(diǎn)吃的嗎”，它會(huì)主動(dòng)遞給你一個(gè)蘋果。

但好景不長(zhǎng)。2025年2月，F(xiàn)igure AI突然主動(dòng)宣布和OpenAI“分手”：他們要獨(dú)立推出自己的基礎(chǔ)模型，不再依賴OpenAI的技術(shù)。分手后的Figure AI，兩周后就迅速推出新Helix模型，定位為通用人形機(jī)器人VLA模型，強(qiáng)調(diào)是完全自研、用于控制整個(gè)人形機(jī)器人。

不得不說(shuō)，能夠放棄OpenAI的“粗大腿”，F(xiàn)igure AI確實(shí)有兩把刷子。

Helix創(chuàng)新地采用了“System 1，System 2”雙系統(tǒng)架構(gòu)：System 2像你的大腦皮層，負(fù)責(zé)“想清楚該干什么”；System 1像你的小腦，負(fù)責(zé)“手腳怎么配合”。當(dāng)你拿杯子喝水時(shí)，大腦皮層只需要決定“現(xiàn)在該拿杯子了”，小腦會(huì)自動(dòng)調(diào)動(dòng)20多塊肌肉完成抓取動(dòng)作，你根本不需要意識(shí)到。

這個(gè)架構(gòu)解決了一個(gè)長(zhǎng)期困擾機(jī)器人的問(wèn)題：視覺(jué)-語(yǔ)言模型很聰明但太慢，傳統(tǒng)機(jī)器人控制策略很快但不夠通用。Helix讓兩者各司其職、端到端訓(xùn)練，既能理解復(fù)雜指令，又能實(shí)時(shí)精確控制。

更酷的是，Helix用單一神經(jīng)網(wǎng)絡(luò)控制整個(gè)上半身的35個(gè)自由度——包括手腕、軀干、頭部、每根手指，它還能同時(shí)控制兩個(gè)機(jī)器人協(xié)作完成任務(wù)。這就是Figure 和OpenAI“分手”后交出的答卷。

2025年9月，F(xiàn)igure AI完成了10億美元的C輪融資，估值從26億美元飆升到390億美元——15倍的漲幅，不到一年時(shí)間。投資方名單讀起來(lái)像科技圈的奧斯卡頒獎(jiǎng)典禮：微軟、OpenAI、英偉達(dá)、貝佐斯、英特爾、三星……聽(tīng)起來(lái)，已然成為具身機(jī)器人的“扛把子”。

總結(jié)一下，這一派的核心理念是：基礎(chǔ)模型的通用性來(lái)自于“足夠大、足夠端到端”，只要模型參數(shù)夠多、訓(xùn)練數(shù)據(jù)夠多、軟硬整合夠深，涌現(xiàn)能力就會(huì)自然出現(xiàn)。這是從GPT-4的成功中總結(jié)出來(lái)的經(jīng)驗(yàn)——但這個(gè)經(jīng)驗(yàn)在物理世界是否成立，還是個(gè)未知數(shù)。

Chapter 2.2 流派二：垂直突破派

如果說(shuō)全棧整合派追求的是“一步到位的通用性”，那垂直突破派追求的是“從專精到泛化的涌現(xiàn)”。

他們的核心信念是：與其訓(xùn)練一個(gè)什么都會(huì)但什么都做不好的大模型，不如先讓模型在某個(gè)垂直場(chǎng)景做到極致，在這個(gè)過(guò)程中積累的“學(xué)習(xí)能力”會(huì)自然遷移到其他場(chǎng)景。

Dyna Robotics是這個(gè)流派比較清晰的代表，他們走的路線很特別：做通用形態(tài)的機(jī)器人，但是在模型層面會(huì)先利用比較成熟的能力，落地一些可以打工的場(chǎng)景，用于了解行業(yè)的know how（實(shí)際知識(shí)），并更好的指導(dǎo)算法研究的方向。也就是說(shuō)，先讓機(jī)器人在洗衣房、餐廳、健身房這些場(chǎng)景“打工”，邊干活邊學(xué)習(xí)。

在2025年4月，他們發(fā)布了“首個(gè)可在真實(shí)環(huán)境中持續(xù)高性能運(yùn)行的機(jī)器人基礎(chǔ)模型”DYNA-1。在24小時(shí)內(nèi)，他們的機(jī)器人自主折疊了700多張餐巾，成功率超過(guò)99.4%，完全無(wú)需人工干預(yù)，吞吐量達(dá)到人類速度的60%。但顯然，Dyna的野心不止于疊毛巾。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：第一是我們要澄清，我們不是一個(gè)做疊毛巾的公司，我們的基礎(chǔ)模型里面包含了各種各樣的數(shù)據(jù)，有各種疊的：疊毛巾、疊餐巾、疊衣服，也有切菜、切水果、準(zhǔn)備食物，也有做早餐、清掃或者說(shuō)擺放、物流場(chǎng)景的一些分揀，其實(shí)各種各樣的數(shù)據(jù)我們都有，我們的基礎(chǔ)模型其實(shí)是一個(gè)非常廣的模型。

我們的泛化性最主要還是來(lái)自于基礎(chǔ)的大模型，我們是希望基礎(chǔ)大模型能夠有足夠強(qiáng)的能力，在大部分的任務(wù)上不太需要非常多的定制。在早期可能你會(huì)發(fā)現(xiàn)遷移到一個(gè)新的任務(wù)的過(guò)程會(huì)比較冗余、比較繁雜，你會(huì)需要再重新采很大一部分的數(shù)據(jù)，然后混到一起去做訓(xùn)練，但隨著你的基礎(chǔ)大模型數(shù)據(jù)量越來(lái)越大之后，你會(huì)發(fā)現(xiàn)哪怕去遷移到一個(gè)從未見(jiàn)過(guò)的這個(gè)任務(wù)上面，它其實(shí)需要的遷移成本也會(huì)越來(lái)越低。我們過(guò)去可能會(huì)需要采幾個(gè)月的數(shù)據(jù)去遷移某一個(gè)任務(wù)，但是到現(xiàn)在可能有一些簡(jiǎn)單的任務(wù)，可能一兩天的數(shù)據(jù)就可以遷移過(guò)去。所以整體來(lái)說(shuō)只要你的基礎(chǔ)模型能力越來(lái)越強(qiáng)，學(xué)習(xí)能力越來(lái)越強(qiáng)的話，你去遷移到新任務(wù)的能力也會(huì)越來(lái)越強(qiáng)。

Dyna對(duì)基礎(chǔ)模型的理解和全棧整合派完全不同，他們的理解是：與其訓(xùn)練一個(gè)什么都會(huì)但什么都做不好的泛化模型，不如先讓模型在某個(gè)任務(wù)上深度專精。在這個(gè)過(guò)程中積累的“學(xué)習(xí)能力”會(huì)幫助它更快掌握其他任務(wù)。就像把鋼琴練到音樂(lè)學(xué)院水平的人，上手吉他會(huì)比完全沒(méi)學(xué)過(guò)樂(lè)器的人快得多，因?yàn)?strong>掌握了“如何學(xué)習(xí)”的元技能。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：我們確實(shí)也看到當(dāng)你單一任務(wù)的能力提升得很強(qiáng)之后，它對(duì)于學(xué)習(xí)新任務(wù)有一定的促進(jìn)作用，我們拿最優(yōu)質(zhì)的數(shù)據(jù)到基礎(chǔ)的數(shù)據(jù)集里面做預(yù)訓(xùn)練之后，這個(gè)模型再去擴(kuò)展到新的任務(wù)上，它會(huì)更快、需要的數(shù)據(jù)更少，所以這個(gè)也是我們?cè)趯?shí)踐過(guò)程中找到一個(gè)有點(diǎn)反直覺(jué)，但是確實(shí)它發(fā)生了的一件事。我們對(duì)于它的理解可能就像人，如果你的學(xué)習(xí)能力本身很強(qiáng)，那你學(xué)習(xí)新的東西的能力就會(huì)很強(qiáng)，學(xué)習(xí)能力很強(qiáng)的前提是你可能過(guò)去已經(jīng)在很多任務(wù)上你自己做過(guò)實(shí)踐、做過(guò)學(xué)習(xí)，你才會(huì)有強(qiáng)的學(xué)習(xí)能力。所以我們覺(jué)得學(xué)習(xí)能力本身和學(xué)習(xí)的過(guò)程也是關(guān)聯(lián)的。

這個(gè)理念背后基于這樣一個(gè)觀點(diǎn)：機(jī)器人基礎(chǔ)模型和大語(yǔ)言模型的Scaling Law（縮放定律）可能不一樣。

大語(yǔ)言模型的規(guī)律是：模型越大、數(shù)據(jù)越多，性能就越好，但機(jī)器人基礎(chǔ)模型的性能瓶頸，不只在“模型容量”和“數(shù)據(jù)量”，更在“數(shù)據(jù)質(zhì)量”和“物理一致性”。如果訓(xùn)練數(shù)據(jù)里的物理接觸不準(zhǔn)確，模型學(xué)到的就是錯(cuò)誤的物理直覺(jué)，參數(shù)越大，錯(cuò)誤越被“放大”。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：為什么說(shuō)基于某種程度，它的Scaling Law（縮放定律）肯定不像大語(yǔ)言模型這么簡(jiǎn)單粗暴。因?yàn)槲覀冎耙埠屯Χ嘧龃笳Z(yǔ)言模型的這些人聊過(guò)，他們已經(jīng)發(fā)現(xiàn)，語(yǔ)言方向的數(shù)據(jù)，哪怕用很多低質(zhì)量數(shù)據(jù)，比如一堆文本，中間插了一段廣告，然后再是接著文本，就這樣的數(shù)據(jù)它一樣能訓(xùn)練出比較好的模型。因?yàn)槟Ｐ退吹臄?shù)據(jù)足夠多之后，它自動(dòng)就會(huì)過(guò)濾掉廣告。但是機(jī)器人當(dāng)前我們覺(jué)得規(guī)模化更多的是來(lái)自于需要比較高質(zhì)量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面，機(jī)器人模型可能就不知道我要注意力集中在哪一個(gè)地方，所以最終它其實(shí)出來(lái)的效果并沒(méi)有那么好。

我們現(xiàn)在看到的是如果你的數(shù)據(jù)質(zhì)量足夠好，隨著數(shù)據(jù)量的增加，數(shù)據(jù)多樣性的增加，整體的基礎(chǔ)模型能力就會(huì)有很大的提升，對(duì)下游的各種需要fine-tune（微調(diào)）的一些小任務(wù)也會(huì)有很大的提升，這個(gè)是實(shí)打?qū)嵞軌蚩吹玫降摹?/blockquote>

圖片來(lái)源：Dyna
所以Dyna選擇“小而精”的路線：
與其訓(xùn)練一個(gè)100億參數(shù)的泛化模型，不如訓(xùn)練一個(gè)10億參數(shù)的專精模型
要保證每一條訓(xùn)練數(shù)據(jù)都是高質(zhì)量的真實(shí)物理交互
讓模型在實(shí)際部署中通過(guò)強(qiáng)化學(xué)習(xí)自我優(yōu)化
他們認(rèn)為：深度專精某個(gè)任務(wù)的過(guò)程中，模型學(xué)到的不只是“怎么疊毛巾”，還有“怎么快速學(xué)習(xí)新任務(wù)”的元能力。
York Yang Dyna Robotics聯(lián)合創(chuàng)始人: 所以我們現(xiàn)在挺關(guān)注的，比如像強(qiáng)化學(xué)習(xí)的一些路徑，像通過(guò)大模型的基礎(chǔ)能力的學(xué)習(xí)，比如說(shuō)折疊能力、擺放能力的學(xué)習(xí)，讓它擁有一個(gè)自我迭代、自我去學(xué)習(xí)新技能的能力，我覺(jué)得這個(gè)是最重要的。但最終我們會(huì)覺(jué)得基礎(chǔ)的大模型可能在普通的一些任務(wù)，比如說(shuō)家用的很多：你幫我拿一個(gè)水、你幫我開(kāi)一下門，類似的任務(wù)中，它應(yīng)該是可以直接完成的。
同樣重視元學(xué)習(xí)能力的，也還有諸如Skild AI這樣從“通用模型”切入，但并不做硬件的公司，他們核心邏輯是：用大規(guī)模仿真數(shù)據(jù)訓(xùn)練出一個(gè)通用的“大腦”，然后讓這個(gè)大腦能快速適配到不同的機(jī)器人硬件和任務(wù)場(chǎng)景。
比如說(shuō)，同一個(gè)模型既能控制機(jī)械臂抓取物體，也能讓四足機(jī)器人行走，還能指揮人形機(jī)器人完成復(fù)雜操作，不需要每個(gè)任務(wù)都從頭訓(xùn)練，而是靠一個(gè)強(qiáng)大的基礎(chǔ)模型來(lái)遷移學(xué)習(xí)。有傳聞稱，英偉達(dá)和軟銀將領(lǐng)頭對(duì)它投資10億美元，估值將高達(dá)140億美元。

這個(gè)路線，還有一個(gè)特殊玩家值得一提：亞馬遜。2025年7月，亞馬遜宣布部署了第100萬(wàn)臺(tái)機(jī)器人。100萬(wàn)臺(tái)是什么概念？亞馬遜目前有156萬(wàn)名員工，也就是說(shuō)機(jī)器人數(shù)量即將超過(guò)人類員工。
但這100萬(wàn)臺(tái)機(jī)器人，全都是專用機(jī)器人，針對(duì)具體場(chǎng)景優(yōu)化：Hercules能搬運(yùn)1250磅貨物，Pegasus用于包裹分揀、運(yùn)輸，但亞馬遜的野心不止于此。他們的Agentic AI團(tuán)隊(duì)正在開(kāi)發(fā)通用機(jī)器人基礎(chǔ)模型，還在舊金山辦公室建了個(gè)叫“humanoid park”的室內(nèi)測(cè)試場(chǎng)，訓(xùn)練人形機(jī)器人應(yīng)對(duì)復(fù)雜障礙。

亞馬遜的策略和Dyna如出一轍：與其一開(kāi)始就做大而全的通用模型，不如先在垂直場(chǎng)景積累世界上最好的數(shù)據(jù)和最強(qiáng)的能力，然后再泛化。
Chapter 2.3 流派三：生態(tài)平臺(tái)派
如果說(shuō)前兩派是在爭(zhēng)“誰(shuí)的路線更快”，那第三派爭(zhēng)的是“誰(shuí)能制定行業(yè)標(biāo)準(zhǔn)”。他們的核心信念是：在基礎(chǔ)模型這個(gè)賽道，最終贏家不一定是技術(shù)最強(qiáng)的，而是生態(tài)控制力最強(qiáng)的。

首先，NVIDIA的邏輯很簡(jiǎn)單：做機(jī)器人界的Android。
2025年3月的GTC大會(huì)上，黃仁勛隆重介紹了GR00T N1，并且把它開(kāi)源了，聽(tīng)起來(lái)很美好，但你要用GR00T N1，就得用全套NVIDIA生態(tài)，一個(gè)都跑不掉。這就是生態(tài)鎖定的威力：一旦你用了NVIDIA的全套工具鏈，切換成本高到讓人望而卻步。NVIDIA的護(hù)城河不是模型本身，而是整個(gè)生態(tài)。

Google走的是另一條路：通過(guò)開(kāi)源研究建立影響力。
Google在機(jī)器人通用策略上選擇了一條“研究驅(qū)動(dòng)、開(kāi)源優(yōu)先”的路線。它推出的RT系列，強(qiáng)調(diào)大規(guī)模機(jī)器人演示數(shù)據(jù)、跨任務(wù)／跨平臺(tái)通用模型，并通過(guò)論文＋開(kāi)放數(shù)據(jù)集的方式在學(xué)術(shù)與研究社區(qū)建立了強(qiáng)大影響力。在Gemini 3發(fā)布后，Google最近也加快了步伐，還挖來(lái)了前波士頓動(dòng)力首席技術(shù)官Aaron Saunders，想推動(dòng)Gemini Al成為通用機(jī)器人控制平臺(tái)。
而OpenAI和Meta是這一派的另一種玩法：小步快跑，只為占坑。
OpenAI和機(jī)器人的關(guān)系，就像一對(duì)分分合合的情侶：早在2018年，他們就在機(jī)械手-操作任務(wù)上取得突破；但之后團(tuán)隊(duì)規(guī)模與優(yōu)先級(jí)有所收縮。到2024年和2025年初，他們上演了和Figure從熱戀到斷裂式分手的戲碼；但到了2025年下半年，他們又開(kāi)始招聘多位專注于人形機(jī)器人控制算法的研究人員。

此外，OpenAI也試圖通過(guò)撒錢投資的方式，打造自己的生態(tài)影響力，2024年11月，OpenAI與杰夫·貝佐斯共同參與了Physical Intelligence的4億美元融資。
Meta的策略類似但更低調(diào)。2025年初，Meta在其Reality Labs旗下組建了一個(gè)新機(jī)器人部門，由前Cruise CEO Marc Whitten牽頭，目標(biāo)是開(kāi)發(fā)類人機(jī)器人平臺(tái)。Meta CTO Andrew Bosworth曾公開(kāi)提到，其團(tuán)隊(duì)正在構(gòu)建一種“world model”，以支撐機(jī)器人完成比“行走”和“跑跳”更細(xì)致的操控動(dòng)作。

Chapter 2.4 三派之爭(zhēng)的本質(zhì)：對(duì)“通用性”的不同賭注
表面上看，三派是在爭(zhēng)技術(shù)路線、爭(zhēng)市場(chǎng)、爭(zhēng)估值，但本質(zhì)上，他們賭的是關(guān)于“通用性”的三個(gè)相通、但又不同的假設(shè)：

全棧整合派相信：通用性=足夠大的模型+足夠多的數(shù)據(jù)+足夠深的軟硬整合，只要這三個(gè)條件滿足，涌現(xiàn)能力會(huì)自然出現(xiàn)，這是從GPT-4的成功中總結(jié)出來(lái)的經(jīng)驗(yàn)。
垂直突破派相信：通用性=深度專精帶來(lái)的遷移能力，機(jī)器人的Scaling Law和語(yǔ)言模型不同，“小而精”可能比“大而全”更有效，關(guān)鍵是找到正確的“元學(xué)習(xí)”路徑。
生態(tài)平臺(tái)派相信：通用性=生態(tài)標(biāo)準(zhǔn)化程度，技術(shù)路線誰(shuí)贏不重要，重要的是讓所有人都用你的工具鏈，最終贏家不是技術(shù)最強(qiáng)的，而是生態(tài)控制力最強(qiáng)的。
當(dāng)然，還有“半開(kāi)源半閉源”的兩家知名公司，Physical Intelligence（PI）和Genesis AI。我們會(huì)在我們的開(kāi)源篇文章里重點(diǎn)介紹他們。
這幾大派系誰(shuí)對(duì)誰(shuí)錯(cuò)？2025年還沒(méi)有答案。但可以確定的是：這場(chǎng)關(guān)于基礎(chǔ)模型的競(jìng)賽，才剛剛開(kāi)始。
03
2025年現(xiàn)狀
展示很精彩，落地還未知
馬斯克對(duì)特斯拉機(jī)器人的夢(mèng)想很宏大，但現(xiàn)實(shí)是Optimus還在艱難爬坡。
12月19日，特斯拉官方發(fā)布了一份名為《特斯拉人形機(jī)器人2025年度報(bào)告》的視頻回顧，詳細(xì)披露了其人形機(jī)器人Optimus在過(guò)去一年中的技術(shù)迭代與進(jìn)化路徑，視頻以O(shè)ptimus加速跑進(jìn)2026年的畫面收尾，暗示明年將有更大幅度的技術(shù)跨越。我們也拭目以待。

同時(shí)，F(xiàn)igure AI拿了10億美元，估值390億，但真正商業(yè)化部署的也就幾十臺(tái)。NVIDIA的GR00T N1發(fā)布了，但有多少公司真正用起來(lái)了？不好說(shuō)。
但是，我們也看到了各家都在令人驚嘆的進(jìn)展，有特斯拉這樣手握重金押注，也有Figure、Dyna為代表的創(chuàng)業(yè)公司在快速前進(jìn)，還有OpenAI、Meta的低調(diào)入局，都在用重金、重資產(chǎn)的方式推進(jìn)機(jī)器人基礎(chǔ)模型。
這讓我們相信，尤其是是在家用機(jī)器人領(lǐng)域，機(jī)器人開(kāi)始幫忙干些討厭的家務(wù)，已不再那么遙遠(yuǎn)。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人：我們是覺(jué)得最先肯定是在，像我們當(dāng)前在開(kāi)拓的一些市場(chǎng)，比如商用服務(wù)的一些人工的部分，就是和人工一起去完成一些任務(wù)這樣的一些場(chǎng)景。但是我們覺(jué)得家用其實(shí)也沒(méi)有那么遙遠(yuǎn)，并不需要完整的、非常通用的AGI。你可能只需要幾個(gè)任務(wù)就可以進(jìn)入到家庭的場(chǎng)景里，先讓機(jī)器人在家里面干起活來(lái)，然后逐漸地通過(guò)模型的迭代讓它產(chǎn)生更多的能力。
我們自己的目標(biāo)，在2026年我們至少希望在商用場(chǎng)景有比較大規(guī)模的部署，在家用我們會(huì)擇機(jī)看。比如像疊衣服，我們采訪過(guò)很多身邊的朋友，其實(shí)大家都覺(jué)得這個(gè)功能他們非常需要，當(dāng)我們的硬件成本降到普通家庭可承擔(dān)的范圍內(nèi)，我們可能就會(huì)優(yōu)先，比如先以疊衣服的功能賣給家庭，然后逐漸去拓展一些其他的功能。所以這個(gè)時(shí)間線應(yīng)該也不遙遠(yuǎn)，可能也就在1~2年左右。
怎么樣，幾百美元可以幫你疊衣服、準(zhǔn)備早餐和做清潔的機(jī)器人助手，你會(huì)買嗎？
有關(guān)閉源模型的內(nèi)容我們就先聊到這里，但有一群人在用完全不同的方式做同樣的事：他們開(kāi)源模型、他們分享數(shù)據(jù)、他們相信“聚沙成塔”的力量。他們說(shuō)：“開(kāi)放才能實(shí)現(xiàn)具身智能?！?/p>
下一篇機(jī)器人的文章我們會(huì)聊到：NVIDIA的“開(kāi)放”到底有多開(kāi)放？它和真正的開(kāi)源有什么區(qū)別？為什么有人說(shuō)GR00T N1是“偽開(kāi)源”？Physical Intellig ence為什么要開(kāi)源π0？一個(gè)剛成立、剛拿到投資的公司，為什么要把最核心的模型免費(fèi)放出來(lái)？他們的商業(yè)模式是什么？開(kāi)源vs閉源，誰(shuí)會(huì)贏？這場(chǎng)戰(zhàn)爭(zhēng)的本質(zhì)是什么？是技術(shù)路線之爭(zhēng)，還是商業(yè)模式之爭(zhēng)？
注：部分圖片來(lái)源于網(wǎng)絡(luò)
【本期節(jié)目不構(gòu)成任何投資建議】
【視頻播放渠道】
國(guó)內(nèi)：B站｜騰訊｜視頻號(hào)｜西瓜｜頭條｜百家號(hào)｜36kr｜微博｜虎嗅
海外：Youtube
聯(lián)系我們：video@sv101.net
【創(chuàng)作團(tuán)隊(duì)】
監(jiān)制｜泓君陳茜
撰稿｜Vicky Xiao
編輯｜陳茜
剪輯｜Jacob
運(yùn)營(yíng)｜王梓沁孫澤平何源清

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.