国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身智能機器人年度總結(jié),來自英偉達機器人主管

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

“機器人領(lǐng)域仍處于蠻荒時代。”

這是英偉達機器人主管Jim Fan,在2025年,即將收官之際給出的判斷。

乍一聽,這個結(jié)論多少有些刺耳。

畢竟,在這一年里,我們已經(jīng)看到機器人打乒乓球、打籃球,完成復雜的長程搬運與跨場景任務(wù)——



當然,也少不了各種翻車“冥”場面。



但就像Jim Fan,以及聰明的網(wǎng)友反復指出的那樣:

  • 很多演示,本質(zhì)上只是從上百次嘗試中,挑選出來的最好一次。



這背后,恰恰暴露出機器人領(lǐng)域至今缺乏統(tǒng)一、可復現(xiàn)的標準評測體系的核心問題。

也正因如此,幾乎人人都能通過添加限定詞,宣稱自己達到了SOTA。



除此之外,Jim Fan還指出——

當前機器人硬件進展快于軟件,但硬件可靠性不足,反而限制了軟件的迭代速度;同時,主流的VLM→VLA技術(shù)范式本身也存在結(jié)構(gòu)性問題。

以下為分享全文:

2025年,機器人領(lǐng)域教給我的3件事

所有人都在為vibe coding感到興奮。在節(jié)日氣氛中,請允許我分享一下我對“機器人領(lǐng)域狂野西部”的焦慮——這是我在2025年學到的3個教訓。

硬件走在軟件前面,但硬件可靠性嚴重限制了軟件迭代速度

我們已經(jīng)看到了極其精妙的工程杰作:Optimus、e-Atlas、Figure、Neo、G1等等。

但問題是,我們最好的AI還遠沒有把這些前沿硬件的潛力榨干。(機器人)身體的能力,明顯強過大腦目前能發(fā)出的指令

然而,要“伺候”這些機器人,往往需要一整個運維團隊。

機器人不像人類那樣會自我修復:過熱、馬達損壞、詭異的固件問題,幾乎是日常噩夢。

錯誤一旦發(fā)生,就是不可逆、也不寬容的。

真正被scaling的,只有我的耐心。

機器人領(lǐng)域的基準測試,依然是一場史詩級災(zāi)難

在大模型世界里,人人都知道MMLU、SWE-Bench是怎么回事。

但在機器人領(lǐng)域沒有任何共識:用什么硬件平臺、任務(wù)如何定義、評分標準是什么、用哪種模擬器,還是直接上真實世界?

按定義來說,每個人都是SOTA——因為每次發(fā)新聞,都會臨時定義一個新的benchmark。

每個人都會從100次失敗里,挑出那次最好看的demo

到2026年,我們這個領(lǐng)域必須做得更好,不能再把可復現(xiàn)性和科學規(guī)范當成二等公民。

基于VLM的VLA路線,總感覺不太對

VLA指的是Vision-Language-Action(視覺-語言-動作)模型,目前這是機器人大腦的主流范式。

配方也很簡單:拿一個預(yù)訓練好的VLM checkpoint,在上面“嫁接”一個動作模塊。

但仔細想想就會發(fā)現(xiàn)問題。VLM 本質(zhì)上是被高度優(yōu)化用來爬諸如視覺問答這類 benchmark的,這直接帶來兩個后果:

  • VLM的大多數(shù)參數(shù),都服務(wù)于語言和知識,而不是物理世界;
  • 視覺編碼器被主動訓練去丟棄低層細節(jié),因為問答任務(wù)只需要高層理解,但對機器人來說,微小細節(jié)對靈巧操作至關(guān)重要。

因此,VLA 的性能沒有理由隨著VLM參數(shù)規(guī)模的增長而線性提升。問題出在預(yù)訓練目標本身就不對齊。

相比之下,視頻世界模型(video world model)顯然是一個更合理的機器人策略預(yù)訓練目標。我正在在這個方向上下重注。

在Jim Fan的推文下面,不少網(wǎng)友也表示了贊同。

有網(wǎng)友表示,硬件的容錯能力確實非常重要:

  • 硬件約束導致迭代變慢,是一個常被低估的瓶頸。軟件可以高頻更新,但物理系統(tǒng)必須建立在可靠的機械基礎(chǔ)上,而這需要真實時間去驗證和打磨。



硬件很關(guān)鍵,但數(shù)據(jù)很重要

在Jim Fan的討論中,硬件被放到了核心位置,但與此同時,我們也發(fā)現(xiàn)數(shù)據(jù)作為一個核心元素被忽略了。

在機器人研究中,數(shù)據(jù)塑造模型能力,而模型的發(fā)揮又離不開硬件,這是其典型的全棧特性。

在今年,我們已經(jīng)看到了像Figure03、宇樹H2、眾擎T800、小鵬IRON機器人、智元精靈G2等全新硬件本體。



從展示效果看,這些新硬件在運動能力上表現(xiàn)亮眼:

無論是宇樹的翻跟頭,還是小鵬機器人的步態(tài)控制,都已明顯超出年初的平均水平,并且證明了大型機器人(成年人身高)也能像小型機器人一樣靈活。

但真正現(xiàn)實的問題可能正如Jim和網(wǎng)友談到的,如何在維持高性能的同時,進一步提升硬件可靠性,例如抗摔性、電池發(fā)熱、長時間運行穩(wěn)定性等工程層面的挑戰(zhàn)。



在數(shù)據(jù)方面,今年最值得注意的例子之一是Generalist,它通過大量的數(shù)據(jù)規(guī)模證明了具身智能的Scaling law。



其中,數(shù)據(jù)越大,模型參數(shù)越高,模型在具體任務(wù)上的表現(xiàn)也就越好,符合我們在LLM上觀察到的現(xiàn)象。



與此同時,也出現(xiàn)了像Sunday這樣方便數(shù)據(jù)采集的定制化機器人硬件。



這套系統(tǒng)與機器人的手部協(xié)同設(shè)計,利用技能捕捉手套采集人類動作數(shù)據(jù),并能以近90%的成功率轉(zhuǎn)換為機器人可用數(shù)據(jù)。

同樣受到關(guān)注的還有Egocentric-10K,一個匯集了1萬小時工作數(shù)據(jù)的大型數(shù)據(jù)集。



可以說,在具身智能領(lǐng)域,數(shù)據(jù)的重要性已不言自明。但具體的數(shù)據(jù)路線仍未收斂:人類中心采集(可穿戴設(shè)備、Umi、視頻)、真機遙操數(shù)據(jù)、仿真數(shù)據(jù),以及互聯(lián)網(wǎng)數(shù)據(jù)、數(shù)據(jù)模態(tài)、配比仍是開放問題。

2025機器人年度詞匯——VLA

在模型方面,VLA毫無疑問是2025機器人領(lǐng)域最熱的詞匯。

根據(jù)倫敦國王學院、香港理工大學等研究機構(gòu)的最新綜述,僅2025年一年就發(fā)表了超200篇VLA工作。



前段時間更是有網(wǎng)友調(diào)侃道:2026年可能會有一萬篇VLA工作。

那么,VLA到底是啥呢?

簡單來說,VLA 賦予了機器人一個大腦,這個“大腦”可以同時處理以下三種模態(tài)的信息:

  • 視覺 (Vision, V): 通過攝像頭感知環(huán)境,理解物體的形狀、位置、顏色、狀態(tài)和場景布局。
  • 語言 (Language, L): 理解人類的自然語言指令(例如,“把桌上的紅蘋果放到碗里”)并進行高層推理。
  • 動作 (Action, A): 將理解的指令轉(zhuǎn)化為機器人可以執(zhí)行的低級物理動作序列(例如,移動關(guān)節(jié)、抓取、推動等)。

傳統(tǒng)機器人通常需要為每個新任務(wù)進行專門編程或訓練,而VLA模型通過大規(guī)模數(shù)據(jù)學習,能夠執(zhí)行訓練中未明確見過的任務(wù),甚至在陌生環(huán)境下也能工作,從而具備泛化性。



但正如Jim Fan在上面提到的,基于VLM (視覺-語言模型) 的VLA模型,其骨架本質(zhì)上是為問答和知識推理而優(yōu)化的,其龐大的參數(shù)庫和服務(wù)目標,與機器人所需的物理世界精細操作存在嚴重錯位。

在這篇綜述中,我們也找到了對Jim Fan提出的觀點的一些回應(yīng),以問答形式梳理如下:

Q:VLM的視覺編碼器傾向丟棄低層物理細節(jié),僅保留高層語義(如“這是蘋果”)。而這些微小細節(jié)恰恰決定了抓取、推動等動作的成功率

A:未來的 VLA 需要整合物理驅(qū)動的世界模型,內(nèi)部表征 3D 幾何、物理動態(tài)、因果關(guān)系和可供性,實現(xiàn)語義指令與物理精度的統(tǒng)一。

Q:由于VLM預(yù)訓練目標與機器人控制不對齊,增加模型參數(shù)并不會線性提升性能。

A:通過“形態(tài)無關(guān)表征”解耦高層語義規(guī)劃與低層本體感知控制,使通用機器人大腦能夠通過輕量適配器實現(xiàn)零樣本跨具身遷移,從而發(fā)揮數(shù)據(jù)規(guī)模帶來的泛化能力,而非盲目堆疊參數(shù)。

Q:Jim Fan建議以視頻世界模型作為機器人預(yù)訓練目標,因為它天然編碼時序動態(tài)與物理規(guī)律。

A:當前研究趨勢是將世界模型能力“嫁接”到VLM上,例如訓練數(shù)據(jù)驅(qū)動模擬器學習物理動態(tài),再嵌入VLA作為解耦內(nèi)部模擬器,實現(xiàn)顯式規(guī)劃,使VLA從“被動序列生成器”轉(zhuǎn)向主動物理感知智能體。

此外,在數(shù)據(jù)和評測基準方面,綜述更傾向“仿真派”,提出以模擬優(yōu)先、失敗為中心的數(shù)據(jù)范式。

一方面,依賴真實世界的大規(guī)模異構(gòu)數(shù)據(jù)不可持續(xù),未來需轉(zhuǎn)向高保真模擬環(huán)境生成多樣化軌跡。

另一方面,應(yīng)充分利用失敗軌跡,從中學習,提高數(shù)據(jù)利用效率。

在評測方面,現(xiàn)有標準過于依賴二元成功率,難以反映魯棒性、效率和安全裕度。未來必須進行更全面的能力評估。

One more thing

最后插播兩條趨勢性消息:

據(jù)摩根士丹利的研究,機器人產(chǎn)業(yè)有望從當前的910億美元激增至2050年的25萬億美元。



與此同時,硅谷巨頭除微軟/Anthropic外,全部加碼機器人軟/硬件。



所以,雖然現(xiàn)實很骨感,但機器人題材依舊sexy~

[1]https://suyuz1.github.io/Survery/

[2]https://x.com/DrJimFan/status/2005340845055340558[3]https://x.com/rohanpaul_ai/status/2004891515878080673

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
70歲老太總覺得肚里有東西爬,兒子帶她檢查,診斷單讓醫(yī)生傻眼了

70歲老太總覺得肚里有東西爬,兒子帶她檢查,診斷單讓醫(yī)生傻眼了

徐俠客有話說
2025-07-11 10:59:24
全球最小的發(fā)達國家,快被中國人“買”下了,中國移民占比87%!

全球最小的發(fā)達國家,快被中國人“買”下了,中國移民占比87%!

財叔
2025-12-28 22:59:30
香港下雪?網(wǎng)傳歐洲模型料“超級寒潮”月中襲港,最低跌至1°C,香港天文臺回應(yīng)

香港下雪?網(wǎng)傳歐洲模型料“超級寒潮”月中襲港,最低跌至1°C,香港天文臺回應(yīng)

星島記事
2026-01-07 22:16:11
臨近過年 問界M7遭到大量投訴 銷量增多眾多問題顯現(xiàn)

臨近過年 問界M7遭到大量投訴 銷量增多眾多問題顯現(xiàn)

中車網(wǎng)評
2026-01-05 19:23:51
洛杉磯迪士尼排隊沖突!守規(guī)則的游客遭暴打,只因一句“別插隊”

洛杉磯迪士尼排隊沖突!守規(guī)則的游客遭暴打,只因一句“別插隊”

北美省錢快報
2026-01-07 08:28:23
離譜!1個月前剛上演首秀 荷甲18歲小將宣布退役:我不想要這人生

離譜!1個月前剛上演首秀 荷甲18歲小將宣布退役:我不想要這人生

風過鄉(xiāng)
2026-01-07 06:44:37
社會主義中國不能允許如此大規(guī)模當?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟觀察
2025-12-18 09:35:23
中國白忙活了?柬埔寨撕毀?;饏f(xié)議,洪森果然要“打到底”?

中國白忙活了?柬埔寨撕毀停火協(xié)議,洪森果然要“打到底”?

無情有思ss
2026-01-07 04:15:42
《紅白》驚見不雅畫面!女歌手肉色戰(zhàn)袍「像沒穿」正面開腿…挨轟低俗

《紅白》驚見不雅畫面!女歌手肉色戰(zhàn)袍「像沒穿」正面開腿…挨轟低俗

ETtoday星光云
2026-01-05 09:50:07
陽壽即將耗盡的人,吃飯往往會有這3個特點,其家屬要注意

陽壽即將耗盡的人,吃飯往往會有這3個特點,其家屬要注意

古怪奇談錄
2026-01-07 16:51:49
我國存款最安全的3大銀行,永遠都不會倒閉,你知道是哪3家嗎?

我國存款最安全的3大銀行,永遠都不會倒閉,你知道是哪3家嗎?

小熊侃史
2026-01-07 11:17:59
元旦結(jié)束后,社會卻出現(xiàn)4大“反?!爆F(xiàn)象,百姓的風向徹底變了!

元旦結(jié)束后,社會卻出現(xiàn)4大“反?!爆F(xiàn)象,百姓的風向徹底變了!

阿纂看事
2026-01-07 23:48:14
電力行業(yè)的朋友回來,說現(xiàn)在去國外搞工程,和以前完全不一樣了。

電力行業(yè)的朋友回來,說現(xiàn)在去國外搞工程,和以前完全不一樣了。

百態(tài)人間
2026-01-07 16:39:30
半場-巴薩暫4-0畢巴 費爾明2傳1射拉菲尼亞、巴德吉傳射西蒙送禮

半場-巴薩暫4-0畢巴 費爾明2傳1射拉菲尼亞、巴德吉傳射西蒙送禮

硯底沉香
2026-01-08 03:58:17
阿莫林下課前的瘋狂吐槽!點名三大名帥,竟戳破曼聯(lián)高層的秘密

阿莫林下課前的瘋狂吐槽!點名三大名帥,竟戳破曼聯(lián)高層的秘密

瀾歸序
2026-01-08 03:54:20
王岳倫送女返校!16歲王詩齡眼前一亮,終于不再穿的像個40歲婦女

王岳倫送女返校!16歲王詩齡眼前一亮,終于不再穿的像個40歲婦女

小娛樂悠悠
2026-01-07 13:31:24
上海華人大會竟用英文主持!獲獎?wù)吲e動不約而同,網(wǎng)友吵翻了

上海華人大會竟用英文主持!獲獎?wù)吲e動不約而同,網(wǎng)友吵翻了

Thurman在昆明
2026-01-06 12:41:37
解密抓捕馬杜羅驚心動魄全過程,美國下個目標是格陵蘭島?

解密抓捕馬杜羅驚心動魄全過程,美國下個目標是格陵蘭島?

碼頭青年
2026-01-05 17:37:12
陳志遣返!全球“殺豬盤”教父落網(wǎng)

陳志遣返!全球“殺豬盤”教父落網(wǎng)

不正確
2026-01-08 00:18:24
冰凍、大風!江蘇氣溫即將大反轉(zhuǎn)!

冰凍、大風!江蘇氣溫即將大反轉(zhuǎn)!

江南晚報
2026-01-08 03:36:26
2026-01-08 05:03:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11983文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會:揭秘新款大殺器

頭條要聞

美軍扣押俄潛艇護航的油輪 俄羅斯外交部回應(yīng)

頭條要聞

美軍扣押俄潛艇護航的油輪 俄羅斯外交部回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

本地
手機
旅游
藝術(shù)
公開課

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項行動

手機要聞

曝Galaxy S26系列2月25日發(fā)布,不會漲價!

旅游要聞

嗨到凌晨3點!仙游一網(wǎng)紅夜市即將啟用!0成本即可當老板...

藝術(shù)要聞

24位國畫大師聯(lián)手,震撼美學體驗等你來!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版