国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話螞蟻靈波首席科學(xué)家沈宇軍:2萬小時真機數(shù)據(jù),用“慢功夫”做具身智能|甲子光年

0
分享至



在基座模型階段,螞蟻靈波選擇那條“慢”但正確的路。

作者|周悅

編輯|王博

1956年的好萊塢電影《禁忌星球》里,有一個名叫Robby的機器人。

它力大無窮、邏輯嚴(yán)密,卻被設(shè)定了一條不可違背的禁令——不能傷害人類。這是人類對機器人走入現(xiàn)實世界最早的想象之一。


Robby機器人(圖左),圖片來源:電影《禁忌星球》

七十年后,這個名字在螞蟻集團(以下簡稱“螞蟻”)內(nèi)部被重新提起。從Robby到Robbyant,最終定格為旗下具身智能公司的名字“螞蟻靈波”。

此前,外界對螞蟻靈波的認(rèn)知,大多停留在2025年外灘大會上那臺會炒菜的R1機器人,一個生動直觀,但更像技術(shù)層面展示的Demo。


Robbyant-R1,圖片來源:螞蟻靈波

但在2026年1月底,這種印象被迅速改寫。

短短一周內(nèi),螞蟻靈波密集發(fā)布了四個具身智能模型:LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA,并同步開放了模型權(quán)重、代碼。LingBot-Depth還將開源200萬對高質(zhì)量RGB-深度配對數(shù)據(jù)集,LingBot-VLA 開源了完整后訓(xùn)練工具鏈。

不同于行業(yè)常見的“半開源”,這幾乎是一次將工程體系整體攤開的發(fā)布,在開源社區(qū)引發(fā)不小反響。

其中,LingBot-World引發(fā)的關(guān)注度最高。作為世界模型,它能夠生成高保真高動態(tài)的物理交互場景,效果直觀,肉眼可見,迅速登頂X平臺科技板塊熱榜和Hugging Face熱門論文榜。

但如果只看這一次“出圈”,反而容易忽略螞蟻靈波真正的選擇。

在具身智能領(lǐng)域,技術(shù)路線尚未收斂,選擇并不少。螞蟻靈波選擇的,卻是一條更慢但更扎實的路線。

在 VLA 模型的訓(xùn)練中,螞蟻靈波團隊聯(lián)合星海圖、松靈機器人等合作伙伴,積累了涵蓋 9 種主流雙臂機器人配置、總計約20,000 小時的真實世界操作數(shù)據(jù),是當(dāng)前開源社區(qū)中真機數(shù)據(jù)規(guī)模最大的VLA 模型。在 GM-100 的真機測評中,取得了標(biāo)志性意義的高分,超越了Pi0.5。

同時,螞蟻靈波團隊還堅定布局具身世界模型,率先推出了業(yè)界首個自回歸視覺—動作世界模型。這背后是螞蟻靈波作為具身世界模型拓荒者,對下一代具身模型技術(shù)路線的判斷。LingBot-VA 發(fā)布不到一周,英偉達(dá)也發(fā)布了 VA 模型。

螞蟻靈波為什么偏要選擇這條難走的路?

近期,在接受「甲子光年」專訪時,螞蟻靈波首席科學(xué)家沈宇軍給出的判斷是:具身智能仍處于“GPT-1時刻”。在他們看來,數(shù)據(jù)稀缺、范式未定,這是一場沒有捷徑可走的硬戰(zhàn)。

這一判斷并非憑空而來。

在學(xué)術(shù)訓(xùn)練之外,沈宇軍經(jīng)歷過從算法研究到真實落地的反復(fù)試錯。這讓他對模型能力與工程現(xiàn)實之間的差距格外關(guān)注。正因此,他更傾向于將當(dāng)前階段視為具身智能的“GPT-1 時刻”,而不是押注短期可見的效果。

基于“GPT-1時刻”這一判斷,螞蟻靈波團隊構(gòu)建了一套打持久戰(zhàn)的完整體系:

  • LingBot-Depth:解決感知層“看不清”的問題,為上層模型提供穩(wěn)定、精準(zhǔn)的視覺輸入;

  • LingBot-World:負(fù)責(zé)世界模擬與數(shù)據(jù)生成,緩解真實數(shù)據(jù)不足的問題;

  • LingBot-VLA:基于海量真實數(shù)據(jù),學(xué)會如何執(zhí)行基礎(chǔ)動作;

  • LingBot-VA:引入因果預(yù)測,探索更高層次的規(guī)劃和控制能力。

沈宇軍將這套體系形容為“四個模型‘一盤棋’”,它們是同一系統(tǒng)中的不同模塊,而非彼此獨立。

在團隊內(nèi)部,圍繞取舍的爭論并不少見,甚至?xí)芭淖雷映臣堋?。但一旦方向定下,所有人又會擰成一股繩死磕到底。這也決定了這支團隊的氣質(zhì):一支愿意啃硬骨頭的隊伍。

從百靈大模型,到靈光、阿福等AI助手,再到今天把模型推向物理世界的靈波,螞蟻在AI路徑上補上了此前缺失的一段,一條“基礎(chǔ)模型-通用應(yīng)用-實體交互”的全棧路徑,正在清晰浮現(xiàn)出來。

1.四個模型“一盤棋”

甲子光年:螞蟻集團一直被看做金融科技企業(yè),這次突然密集發(fā)布四個具身智能模型,確實讓很多人意外。首先好奇一個問題,螞蟻靈波這個名字有什么特殊的來歷嗎?

沈宇軍:這挺有意思的。Robby是好萊塢科幻電影(《禁忌星球》)里最早的機器人名字之一。而我們團隊又來自螞蟻,所以就叫Robbyant。

而在中文里,Robby的音譯正好是“靈波”,跟我們的百靈大模型(Ling)一脈相承。具身模型叫LingBot,既是Ling系列的延伸,同時讀快一點也很像“靈波”,代表了我們對機器人靈動、敏捷的最初想象。

甲子光年:帶著螞蟻的光環(huán),又正好撞上Google Project Genie的時間點上發(fā)布,你們覺得當(dāng)前的反饋符合預(yù)期嗎?

沈宇軍:整體上還是符合預(yù)期。我們是2024年11月成立,過去一年幾乎沒有對外發(fā)聲。

具身智能模型跟大語言模型不太一樣,C端用戶很難立刻感知。更多還是同行、專業(yè)人士的反饋。我們也更愿意把評價權(quán)交給社區(qū)——模型、代碼、權(quán)重、數(shù)據(jù)集都開源了,好不好用,由社區(qū)來給出真實判斷。

甲子光年:這次一口氣開源了LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA四個模型。這是四個模型框架是一開始就規(guī)劃好的嗎,還是迭代出來的?

沈宇軍:從一開始我們就比較篤定。機器人最終要部署在物理世界里,繞不開兩個核心問題:一是輸入端,也就是機器人能獲取哪些信號;二是智能端,拿到這些信號之后,如何形成決策。

這次發(fā)布的一些模型,比如 LingBot-VLA、LingBot-VA,都是我們在這兩個方向上的探索。但坦率講,我們也清楚,這還遠(yuǎn)遠(yuǎn)不夠。我們更希望,具身智能最終能形成一套屬于自己(螞蟻靈波)的范式。

對我們來說,內(nèi)部始終只有“一盤棋”。這四個模型是同一張大拼圖里的不同模塊,只是隨著進(jìn)展逐步釋放出來。所以這次大家看到的這些模型,其實只是這盤棋中的一些局部碎片。

甲子光年:這四個模型之間怎么串成一條完整的路徑?

沈宇軍:機器人最終部署在物理世界里,傳感器誤差和硬件誤差是繞不開的現(xiàn)實問題。LingBot-Depth對應(yīng)最底層感知能力,輸入層數(shù)據(jù)質(zhì)量,基本決定智能層上限,未來螞蟻靈波的大多數(shù)模型都會用到它。

比如在LingBot-VLA里,我們展示過一個用法,把LingBot-Depth的特征蒸餾進(jìn)去,解決空間盲視的問題。

這次發(fā)布的LingBot-World和LingBot-VA,則是探索性的嘗試。

整個行業(yè)目前都面臨同一個問題:數(shù)據(jù)依然緊缺。在數(shù)據(jù)有限的情況下,想真正通過Scaling Up把模型能力完全釋放出來,為時尚早。

在無法完全釋放Scaling Up潛力的情況下,我們階段性地借助了數(shù)字世界中已經(jīng)完成Scaling的模型能力,如多模態(tài)和視頻生成模型,來作為過渡。

我們一直在嘗試把這些數(shù)字世界中預(yù)訓(xùn)練好的能力,引入到具身智能里,這正是LingBot-VLA和LingBot-VA出現(xiàn)的背景。當(dāng)然,在實踐中我們也發(fā)現(xiàn),它們本身同樣存在局限。

而LingBot-World則是我們在驗證技術(shù)路線時的“沿途下蛋”。

甲子光年:這也正是外界最好奇的點。LingBot-World在C端的關(guān)注度最高,很多人覺得它更像AIGC或視頻生成,為什么你們反而說它是“沿途下蛋”?

沈宇軍:確實有不少人會覺得,LingBot-World看起來和具身智能有點遠(yuǎn),但其實不是這樣。

在內(nèi)部,LingBot-World和LingBot-VA并不是兩條獨立路線,而是耦合得非常深,甚至可以說是同一套技術(shù)體系的不同側(cè)重,前者更多使用通用數(shù)據(jù),后者更多使用具身數(shù)據(jù)。

底層的數(shù)據(jù)引擎、代碼框架和優(yōu)化方法,都高度共通。只是這次對外發(fā)布時,我們沒有把這些細(xì)節(jié)全部展開。

之所以說它是“沿途下蛋”,是因為在最早做具身智能時,我們并不能確定視頻生成這條路一定能走通,而世界模型這個方向可以更快給我們反饋,比如長時間推理能力和生成質(zhì)量。

如果一項技術(shù)在世界模型里都跑不通,它在具身智能中大概率也走不遠(yuǎn);反過來,視頻生成能力越強,其實對機器人是有正向收益的。從這個角度看,這些模型最終指向的都是同一個目標(biāo):具身智能。

甲子光年:這套架構(gòu)大概是什么時候定型的?中間有過自我懷疑的時刻嗎?

沈宇軍:大概在2025年11月左右,我們已經(jīng)看到了比較有希望的結(jié)果,那時每一條路線大概都做到了80%。倒沒有覺得“完全走不通”的時刻,但真正難的是后面那20%。那是一種持續(xù)的消耗感。我們沒有哪一刻想過放棄,更多是覺得“煎熬”。因為從驗證到真正達(dá)到工業(yè)級標(biāo)準(zhǔn),這個過程比我們最初預(yù)想的要困難得多。

甲子光年:下一步的目標(biāo)是什么?

沈宇軍:這次發(fā)布之后,我們對這兩套模型的邊界有了比之前更清楚的認(rèn)識——不敢說已經(jīng)完全明晰,但至少看到了各自的短板。

往下看,我們大致會采取“兩條腿走路”的方式:一方面持續(xù)積累具身智能數(shù)據(jù);另一條方面等數(shù)據(jù)量達(dá)到一定規(guī)模后,從零搭建真正面向具身智能的預(yù)訓(xùn)練模型,而不再依賴VLM或視頻生成模型。這條路徑有點類似自動駕駛的發(fā)展過程。

在數(shù)據(jù)尚未積累到那個階段之前,這兩套模型仍然會結(jié)合使用。至于具體如何結(jié)合,可以關(guān)注我們后續(xù)的工作。

2.LingBot-VA是關(guān)鍵下注

甲子光年:這次發(fā)布的LingBot-VA技術(shù)路線備受關(guān)注。它的出發(fā)點是什么?想要解決主流VLA路線的什么痛點?

沈宇軍:當(dāng)前主流VLA路線的邏輯是“看圖說話”:給一張圖像,加上預(yù)訓(xùn)練好的語言或視覺語言模型,預(yù)測下一步動作,這條路是有效的。

但在機器人領(lǐng)域,它缺失了一個關(guān)鍵要素Dynamic Prior(動態(tài)先驗)。機器人本身在學(xué)動作,而圖片本身沒有動作信息。

所以一個很自然的想法是,能不能引入視頻層面的先驗?因為視頻本身記錄了人和物體的動作。這也是LingBot-VA模型設(shè)計中最簡單、也是最直接的一層哲學(xué)。

當(dāng)模型已經(jīng)見過各種各樣的操作視頻之后,即便在下游只用少量任務(wù)數(shù)據(jù)進(jìn)行fine-tune或adaptation,它本身也已經(jīng)具備了動作層面的經(jīng)驗。

甲子光年:這種引入“視頻先驗”的思路在實際任務(wù)中有什么具體優(yōu)勢?

沈宇軍:最大的優(yōu)勢是記憶能力。舉個例子,讓機器人擦三次盤子。對VLA來說,第一次擦完和第二次擦完,看到的畫面(Observation)幾乎是一樣的。

如果沒有記憶,模型就會陷入“看到盤子——去擦”的死循環(huán),一直擦下去。但LingBot-VA采用的是自回歸結(jié)構(gòu),天然具備比較好的記憶能力。在這些 memory test(記憶測試)上,它的表現(xiàn)會顯著優(yōu)于VLA架構(gòu)。

其次是少量樣本下的泛化能力?,F(xiàn)在機器人在部署到新的環(huán)境時,通常都需要重新采集一些數(shù)據(jù)。而VA的核心優(yōu)勢在于,它的視頻先驗已經(jīng)編碼了大量的動態(tài)信息。

模型中學(xué)到的動作先驗越強,在面對沒有見過的新場景時,模型進(jìn)行 adaptation 所需要的新數(shù)據(jù)就越少。

甲子光年:在LingBot-VA模型里,最難的部分是偏模型結(jié)構(gòu)本身,還是在推理系統(tǒng)和工程化部署上?

沈宇軍:難點主要在工程部署這一塊。模型結(jié)構(gòu)本身的收斂,我們其實在比較早期就已經(jīng)跑通了。后續(xù)更多的工作,主要集中在數(shù)據(jù)的scaling up,以及訓(xùn)練效率的優(yōu)化上,但這些本質(zhì)上都屬于infra層面的事情。

真正給我們帶來比較大挑戰(zhàn)的,是模型在真實系統(tǒng)里的部署,這也是我認(rèn)為目前VA相比VLA 的一個明顯劣勢。

在真機部署中,我們遇到的第一個問題就是延遲顯著上升。測試結(jié)果顯示,VLA 通常可以控制在100 毫秒左右,而 VA 往往需要300–400毫秒,差距主要來自視頻生成帶來的額外開銷。

因此,我們在工程上投入了大量精力去做異步推理框架以及系統(tǒng)側(cè)的加速優(yōu)化

甲子光年:這似乎有個矛盾,VA好像去掉了中間的language(語言)層,這聽起來更像人類的肌肉記憶或者下意識的動作,理論上應(yīng)該推理速度更快,但實際驗證推理反而更慢,這矛盾嗎?

沈宇軍:我覺得不矛盾。首先需要澄清,VA并不是沒有l(wèi)anguage,模型仍然通過語言來接收人類指令,這一點和直覺理解可能不太一樣。

第二是關(guān)于推理速度。速度更多取決于工程和infra(基礎(chǔ)設(shè)施)層面的優(yōu)化,而不是模型范式本身。更現(xiàn)實的問題是,現(xiàn)有的工程基礎(chǔ)設(shè)施,能否支撐這種范式把速度提上來,這也是接下來需要解決的核心問題。

最終都是輸入輸出形式相同,差異在于中間的對齊順序。傳統(tǒng)VLM是先對齊vision和language,VLA則是在這個vision–language空間里,再把action往里對齊。

而VA強調(diào)的是另一條路徑:先對齊 video(motion、dynamics)和 action,也就是先解決“怎么動”。最終都是輸入輸出形式相同,差異在于中間的對齊路徑。

第二點是推理速度。VA在理念上確實更接近人類的肌肉記憶或下意識動作,這個理解沒問題。

現(xiàn)在慢,并不是因為這種范式本身慢,而是因為實現(xiàn)方式還依賴像素級的視頻生成,需要先把畫面“畫”出來。這一步在訓(xùn)練階段很有價值,但對實時推理并非必要。

從長期看,隨著具身數(shù)據(jù)規(guī)模擴大,更適合機器人實時執(zhí)行的預(yù)訓(xùn)練模型會出現(xiàn)。到那時,基于動作和動態(tài)的“肌肉記憶”,反而可能比當(dāng)前這種顯式推理更快。

甲子光年:LingBot-VA真機部署時遇到哪些典型問題?

沈宇軍:最大的問題還是幻覺。視頻模型有時候會“無中生有”,比如桌上明明沒有瓶子,模型生成畫面里卻多了一個瓶子,導(dǎo)致機械臂去抓空氣。

目前的解法是提高刷新率,一幀一幀地生成和修正。只要刷新得夠快,利用真實世界的觀測不斷校準(zhǔn),單幀的幻覺就不會累積錯誤。另一個方向是后訓(xùn)練獎勵模型、引入強化學(xué)習(xí)去約束幻覺,這也是持續(xù)探索的方向。

甲子光年:再聊聊LingBot-World。它發(fā)布時正好撞上Google Project Genie更新,C端討論很熱烈。你們怎么看待 LingBot-World 和 Genie3、Sora這兩個模型的異同?

沈宇軍:我其實不太想用“差異”這個詞來形容,更準(zhǔn)確地說是定位不一樣。

如果和Sora放在一起看,我覺得通義萬相、Sora、Veo 3、可靈,這些本質(zhì)上是一條賽道,它們的目標(biāo)是做視頻生成的基模。

而我們和 Genie3并不是在做一個基模,我們是基于已有模型,在后面做世界建模相關(guān)的事情。嚴(yán)格來說,我們更像是視頻生成體系里的一個子方向,而不是最大的那條主賽道。

LingBot-World生成場景,視頻來源:螞蟻靈波官網(wǎng)

甲子光年:如果把LingBot-World和Genie 3做一個更直接的對比呢?

沈宇軍:Genie 3發(fā)布更早、迭代更久,很多關(guān)鍵能力并沒有開源,我們也很難做真正意義上的對比。

還有一個繞不開的因素是算力體系。Google 很大的優(yōu)勢在于TPU。舉個例子,TPU架構(gòu)對Ring Attention(環(huán)狀注意力)這類技術(shù)非常友好。但在GPU體系下,卡間的通信帶寬會受到限制,要在工程上實現(xiàn)同等性能,難度大得多。

我們的模型是真正開源出來的。如果開發(fā)者想改模型結(jié)構(gòu)、想做二創(chuàng),那在LingBot-World這條路線上,這是可以做的。

甲子光年:你們的世界模型最終會走向哪里?會獨立成一個產(chǎn)品嗎?

沈宇軍:LingBot-World并不是一個獨立存在的終點,它最終一定會回到機器人。

開發(fā)世界模型是為了驗證視頻生成路線在具身智能中到底行不行——這叫“沿途下蛋”。如果視頻生成都做不好,那基于視頻的機器人控制就更別想了。

可以期待下一版LingBot-World,會和機器人更貼近。到那個階段,大家可能就不會再覺得LingBot-World和LingBot-VA像是兩條分開的線。

LingBot-VA已經(jīng)在這一步做了一些探索。

3.具身智能Scaling Law的“隱形陷阱”

甲子光年:在LingBot-VLA的論文標(biāo)題里,你們用了一個詞Pragmatic(務(wù)實的)。為什么要特意強調(diào)“實用性”?

沈宇軍:這次更多是面向開源社區(qū)。過去半年里,“超越Pi0.5”的說法很多,但實際情況是,Pi0.5依然是被大量高校和研究者實際使用的好模型。既然大家還在用,它一定有價值。

我們強調(diào)pragmatic,不是為了宣稱超越誰,而是希望把模型真實地交出來,讓社區(qū)自己評測。所以這次發(fā)布里,我們沒有刻意談“超不超越”,而是把模型、后訓(xùn)練與加速優(yōu)化的完整代碼一并開源。

很多“開源”其實只是“半開源”,但這次我們把模型、代碼,甚至部分?jǐn)?shù)據(jù)集都放出來,尤其LingBot-VLA連后訓(xùn)練代碼庫也全部開放。只有真正被用起來,問題才會暴露,這正是我們開源的初衷。


LingBot-VLA模型概要,圖片來源:螞蟻靈波官網(wǎng)

甲子光年:驗證ScalingLaw用了2萬小時數(shù)據(jù)和9種機器人構(gòu)型。這對外界來說可能只是一個數(shù)字,但在工程上究竟意味著什么?

沈宇軍:外界容易輕視工程,覺得無非是把2000小時的數(shù)據(jù)難度乘以10倍。但我們發(fā)現(xiàn)復(fù)雜度是指數(shù)級上升的。很多“坑”只有數(shù)據(jù)量大到一定程度,才會發(fā)現(xiàn)并且掉進(jìn)去。這背后有三個原因。

第一,國內(nèi)真正訓(xùn)練過2萬小時規(guī)模VLA、還把模型開源出來給社區(qū)用的公司很少。2萬小時訓(xùn)練數(shù)據(jù)背后,前端采集量遠(yuǎn)不止2萬小時,中間有數(shù)據(jù)漏斗:采集、清洗、篩選都會損耗。

第二,我們做 LingBot-VLA 不是為了證明能力,而是希望社區(qū)真的能用起來。所以除了模型本身,我們在代碼庫、訓(xùn)練流程和復(fù)用性上都下了很多功夫,目標(biāo)不是demo,而是可落地。

第三,也是最重要的一點:這種規(guī)模的數(shù)據(jù)和模型,本質(zhì)上是一個系統(tǒng)工程。包括數(shù)據(jù)如何組織、管線如何設(shè)計、如何穩(wěn)定處理;這次我們做了大約300個任務(wù)的評測,同時跑五六個模型,本身就是非常復(fù)雜的工程協(xié)同。

這種復(fù)雜度,不是單一科研機構(gòu)能解決的。我們先把這些坑踩一遍,再把結(jié)果開源給社區(qū)。


LingBot-VLA 9種機器人本體,圖片來源:螞蟻靈波官網(wǎng)

甲子光年:哪些“坑”讓你們覺得很suffer?

沈宇軍:很多所謂的“坑”,只有在數(shù)據(jù)量達(dá)到一定程度才會暴露出來。比如數(shù)據(jù)規(guī)模上來后,存儲怎么設(shè)計?高并發(fā)訪問、訓(xùn)練調(diào)度怎么做?多團隊協(xié)作時流程如何對齊?

如果系統(tǒng)設(shè)計不到位,就會出現(xiàn)大量隱性問題:數(shù)據(jù)被重復(fù)處理、被刪掉又重新拉回;某一輪質(zhì)檢沒通過,但信息沒同步,下游仍然當(dāng)成合格數(shù)據(jù);模型訓(xùn)練異常,最后追溯發(fā)現(xiàn)問題出在很早期的數(shù)據(jù)處理階段。排查這些問題的成本,遠(yuǎn)遠(yuǎn)高于調(diào)模型或換結(jié)構(gòu)。

其實模型架構(gòu)本身,我們很早就定型了。但從架構(gòu)定型到最終發(fā)布,中間消耗精力最多的,并不是算法設(shè)計,而是系統(tǒng)工程、流程設(shè)計和協(xié)同問題。

所以這次把模型、代碼、后訓(xùn)練腳本盡量完整地開源,希望后來的研究者不用再從 0 到 1 把這些坑重新踩一遍,站在新的起點往前走。

4.“我們還在GPT-1時刻”

甲子光年:在具身智能數(shù)據(jù)路線上,你們堅定地選擇了“真機數(shù)據(jù)”,而對“合成數(shù)據(jù)”持保留態(tài)度。為什么?

沈宇軍:這兩條路線這兩年討論很多,我們的選擇相對明確:在具身智能的基座模型階段,更傾向真實數(shù)據(jù)。

我們更堅定選擇真實數(shù)據(jù),是基于工業(yè)界的判斷。真機采集降本的速度,會快于物理引擎質(zhì)變的速度。

如果是“成本高”,隨著設(shè)備升級和工具鏈成熟,行業(yè)總能把價格打下來;但如果是“物理保真度”不夠,那需要基礎(chǔ)科學(xué)和頂級人才的漫長攻關(guān)。

作為一家做基座模型的公司,我們必須讓模型學(xué)習(xí)真實的物理規(guī)律。當(dāng)然,仿真數(shù)據(jù)在后訓(xùn)練階段依然有價值,但在基座模型階段,我們選擇那條“慢”但正確的路。

甲子光年:這次推進(jìn)如此徹底的開源(包括代碼和數(shù)據(jù)管線),背后的考量是什么?

沈宇軍:原因很簡單。不想做井底之蛙,也不想讓大家重復(fù)造輪子。具身智能還處在技術(shù)路線未收斂的早期。只靠內(nèi)部評測,很容易陷入思維盲區(qū);只有讓社區(qū)用起來,才能發(fā)現(xiàn)那些我們預(yù)料不到的bug和用法。

學(xué)界不缺想法,缺的是一個“能站上去的底座”。我們提供底座,讓大家在此基礎(chǔ)上往前走,而不是每個人都從0到1去復(fù)現(xiàn)一遍基礎(chǔ)工作。

甲子光年:你們有沒有考慮過做一款自己的機器人本體?

沈宇軍:從個人直覺上判斷,機器人很難出現(xiàn)一種構(gòu)型通吃所有場景的情況。平整地面適合輪式,復(fù)雜地形需要足式。不同場景對負(fù)載、速度、成本的要求天差地別。

如果具身智能想在足夠多的真實場景落地,它必須是跨本體的。除非未來真出現(xiàn)了通用本體,但在現(xiàn)階段,我們更傾向于做一套適配不同身體的通用大腦。

甲子光年:類比語言模型,你覺得具身智能模型現(xiàn)在大概處在什么階段?什么時候能被看作GPT-3時刻?

沈宇軍:我個人覺得可能還在GPT-1階段。

一個核心問題是,行業(yè)里還沒有一個真正屬于具身智能的原生預(yù)訓(xùn)練模型。我們在用多模態(tài)模型、視頻模型,是在拼湊能力。

它們各有優(yōu)勢,也有明顯短板,如果我們想改底層邏輯,會發(fā)現(xiàn)改不動,因為沒有一個為物理世界量身定制的基座。

我認(rèn)為GPT-3時刻是數(shù)據(jù)量足夠大,從頭訓(xùn)練出了那個原生的具身基座那時它不再是生成視頻,而是天生理解物理交互、高效執(zhí)行動作。

甲子光年:那什么時候算是ChatGPT時刻?

沈宇軍:在我看來,ChatGPT時刻發(fā)生在有了基模之后,大家找到了一種方式,讓它可以非??焖俚剡m配不同機器人和不同任務(wù)。

比如one-shot、five-shot,人類示范幾次,它就能學(xué)會一個新任務(wù)。如果做到這一步,機器人行業(yè)才真正具備大規(guī)模發(fā)展的可能性——任何團隊只要采幾條數(shù)據(jù)、微調(diào)一下就能跑通新任務(wù)——機器人行業(yè)才真正具備了大規(guī)模爆發(fā)的可能。

甲子光年:距離GPT-3時刻還有多遠(yuǎn)?

沈宇軍:我個人的判斷是,至少三年。這個時間其實可以拆成三步:

  • 第一,解決數(shù)據(jù)怎么采(高效采集);

  • 第二,解決數(shù)據(jù)怎么選(質(zhì)量分布與Scaling);

  • 第三,真正訓(xùn)出原生基礎(chǔ)模型。

如果樂觀一點看,也許可以一年解決一個關(guān)鍵問題。如果整個行業(yè)是在一起加速,我個人認(rèn)為2026、2027、2028年,有可能分別跨過這些節(jié)點。

5.螞蟻靈波的“MagicMoment”

甲子光年:螞蟻切入具身,出乎很多人意外,做具身智能,你們真正的“獨門武器”是什么?

沈宇軍:如果一定要選一個最核心的優(yōu)勢,我會先說團隊本身。

這支團隊在想象力、工程能力和“啃硬骨頭”的耐力上,都非常強。大家過去分散在不同技術(shù)方向,各自積累了不少能力,借著機器人這個新賽道,真正擰成了一股繩。

另一點也需要客觀地說,螞蟻集團在AI方向上的長期投入,為我們提供了非常扎實的基礎(chǔ)設(shè)施底座。

無論是算力、存儲,還是整體工程體系,這些能力本身并不是為靈波單獨準(zhǔn)備的,但在這次快速迭代過程中,起到了關(guān)鍵支撐作用。

甲子光年:聽說你們內(nèi)部在研發(fā)過程中也有不少爭論?

沈宇軍:是的。但我們最大的優(yōu)勢是彼此相信。大家的爭執(zhí)不是為了針對個人,而是為了技術(shù)路線。我們允許激烈的沖突,但一旦事情定下來,所有人都會沿著既定方向死磕。

這一點我其實挺自豪的。對于一個以Researcher(研究員)為主的團隊,最怕的不是沒人才,而是人才太多、方向不統(tǒng)一,最后變成一盤散沙。

甲子光年:在大廠做研究,會面臨OKR的壓力嗎,你們?nèi)绾纹胶鈱W(xué)術(shù)探索和商業(yè)落地?

沈宇軍:這是一個OKR方式的問題。我不認(rèn)為我們擁有絕對的“學(xué)術(shù)自由”,我們擁有的是“路徑自由”。

首要原則是目標(biāo)不能變,手段可以變。今年要攻克這個問題,此路不通就換條路,但一旦定下目標(biāo),這座山頭必須拿下。

其次是不做空中樓閣。我們做的一切研究,哪怕短期落不了地,也必須是奔著“未來能落地”設(shè)計的。如果一個Idea純粹為了新穎性,完全不考慮落地,我們堅決不做。

甲子光年:回看過去一年,對你個人或團隊來說,有沒有一個特別的Magic Moment?

沈宇軍:我會選2025年11月底。那是LingBot-Depth模型第一次在真實測試中跑贏現(xiàn)有方案的時刻,這打響了第一槍,讓我們相信這條路能走通。

我們第一次看到一個接近工業(yè)級標(biāo)準(zhǔn)、真正“走得通”的結(jié)果,也讓我們開始認(rèn)真思考能不能把這些模型串起來,作為一個整體來推進(jìn),甚至一起開源。

在那之前,大家其實都很辛苦,但一直沒有看到一個明確的正反饋。那一刻算是第一次看到方向是對的。從那之后,團隊整體的信心明顯提升。

另一個對我個人比較有感觸的節(jié)點,是2026年1月15日,四個模型全部封版。那意味著模型不再迭代,只為發(fā)布做準(zhǔn)備。對我來說,更像是給自己、也給團隊交了一份階段性答卷。

甲子光年:封版那一刻,團隊有沒有什么儀式感的慶祝?比如吃頓大餐,或者給自己放個假?

沈宇軍:那倒沒有,封版后只是代碼不再動了,但人還得接著熬。過去這一年,我們?nèi)∠嗽镜膱F建,大家都很拼,一直到模型正式發(fā)布,才稍微喘了一口氣。

甲子光年:不過我們看近期看國內(nèi)外開發(fā)者對這些模型的評價還不錯。

沈宇軍:反饋到底算不算好,其實我們自己不敢下判斷,我不喜歡夸大成果。這次的技術(shù)報告,我們堅持只陳述客觀事實。既然選擇了開源——模型給了,代碼給了,權(quán)重也給了——那評價權(quán)就在社區(qū)開發(fā)者手里。喜歡也好,不喜歡也好,我們更希望聽到真實的聲音。

甲子光年:2026年,你們有什么計劃?

沈宇軍:我認(rèn)為有三個重點。

  • 第一,數(shù)據(jù)的scale up,這是最核心的基礎(chǔ)。

  • 第二,我們已經(jīng)比較清楚地看到了多模態(tài)和視頻生成各自的短板,接下來會更有針對性地補這些問題,把它們的優(yōu)勢真正發(fā)揮出來。

  • 第三,是移動能力。這次發(fā)布主要集中在操作(manipulation),移動相關(guān)還沒有展開。今年在移動和探索能力上,我們會有一些新的進(jìn)展。

機器人遲早會遇到一個問題:被放進(jìn)一個完全陌生的環(huán)境時,怎么辦?沒有高精地圖、沒有GPS,只告訴它“我要去某個地方”,它能不能自己探索、找到路徑。我覺得這是機器人真正落地時,非常基礎(chǔ)、也非常關(guān)鍵的能力。

甲子光年:如果把靈波當(dāng)成一個人來看,你們覺得他現(xiàn)在大概幾歲?

沈宇軍:那就是一歲吧。靈波去年成立,到現(xiàn)在正好一歲。

(封面圖來源:電影《禁忌星球》)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
居然是真的,特斯拉新車漲價了 !

居然是真的,特斯拉新車漲價了 !

花果科技
2026-03-01 20:29:33
人在醫(yī)院能愚蠢到啥程度?網(wǎng)友:完美詮釋了不作不死的真義

人在醫(yī)院能愚蠢到啥程度?網(wǎng)友:完美詮釋了不作不死的真義

帶你感受人間冷暖
2026-01-27 00:10:05
缺陣即崩塌!無哈登騎士加時再折戟,兩連敗敲響崩盤警鐘

缺陣即崩塌!無哈登騎士加時再折戟,兩連敗敲響崩盤警鐘

愛體育
2026-03-01 23:38:22
人到中年才明白:長時間不見面的關(guān)系,維持不了多久

人到中年才明白:長時間不見面的關(guān)系,維持不了多久

木言觀
2026-03-01 21:17:25
迪拜機場航站樓被炸!中國旅客發(fā)聲:航班停飛自己被疏散,回住處點外賣并囤物資

迪拜機場航站樓被炸!中國旅客發(fā)聲:航班停飛自己被疏散,回住處點外賣并囤物資

浙江之聲
2026-03-01 13:39:40
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
賬號被封禁,所有作品已清空!

賬號被封禁,所有作品已清空!

艷姐的搞笑視頻
2026-01-16 10:10:11
鎢價已瘋漲,銦才剛起步!2026小金屬風(fēng)口看懂不踩坑

鎢價已瘋漲,銦才剛起步!2026小金屬風(fēng)口看懂不踩坑

別人都叫我阿腈
2026-03-01 18:01:39
離開了?TVB官網(wǎng)刪除蔡思貝資料,網(wǎng)友:被耽誤了這么多年沒戲拍

離開了?TVB官網(wǎng)刪除蔡思貝資料,網(wǎng)友:被耽誤了這么多年沒戲拍

娛樂寡姐
2026-03-01 16:57:48
伊朗總統(tǒng)發(fā)表聲明

伊朗總統(tǒng)發(fā)表聲明

澎湃新聞
2026-03-01 19:02:58
全軍啟用預(yù)備役人員證

全軍啟用預(yù)備役人員證

界面新聞
2026-03-01 10:34:50
1日下午大滿貫:決賽產(chǎn)生黑馬出局 鰻魚立大功 莎莎邱導(dǎo)收看直播!

1日下午大滿貫:決賽產(chǎn)生黑馬出局 鰻魚立大功 莎莎邱導(dǎo)收看直播!

順靜自然
2026-03-02 00:48:24
稀土庫存全面告急,美企破防,美媒:中國再不批準(zhǔn),談判等于作廢

稀土庫存全面告急,美企破防,美媒:中國再不批準(zhǔn),談判等于作廢

紀(jì)中百大事
2026-03-01 11:56:34
穆里尼奧談執(zhí)教皇馬:如果我想回歸皇馬,就不會對弗洛倫蒂諾說不

穆里尼奧談執(zhí)教皇馬:如果我想回歸皇馬,就不會對弗洛倫蒂諾說不

夏侯看英超
2026-03-02 01:35:31
石油基金LOF:將于3月2日開市起至當(dāng)日10:30停牌

石油基金LOF:將于3月2日開市起至當(dāng)日10:30停牌

界面新聞
2026-03-01 18:27:23
確認(rèn)參賽!941萬美金戰(zhàn)場,鄭欽文攜新帥出征,首戰(zhàn)即考驗?

確認(rèn)參賽!941萬美金戰(zhàn)場,鄭欽文攜新帥出征,首戰(zhàn)即考驗?

卿子書
2026-03-01 09:25:20
伊朗稱報復(fù)性打擊目標(biāo)是中東地區(qū)所有美軍基地

伊朗稱報復(fù)性打擊目標(biāo)是中東地區(qū)所有美軍基地

界面新聞
2026-02-28 17:55:20
好奇怪!伊朗對科威特、卡塔爾、阿聯(lián)酋等國空襲,但沒人出來指責(zé)

好奇怪!伊朗對科威特、卡塔爾、阿聯(lián)酋等國空襲,但沒人出來指責(zé)

我心縱橫天地間
2026-03-01 14:15:40
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
2026-03-02 05:59:00
甲子光年
甲子光年
中國科技產(chǎn)業(yè)化前沿智庫
3353文章數(shù) 9261關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

房產(chǎn)
親子
手機
公開課
軍事航空

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

手機要聞

現(xiàn)場直擊!榮耀Robot Phone機器人手機長啥樣

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進(jìn)入關(guān)懷版