国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話八位具身智能大咖:模型之爭、數(shù)據(jù)來源與第一性原理|甲子光年

0
分享至




具身智能是通往AGI的必經(jīng)之路。

作者|劉楊楠

編輯|王博

“你認為具身智能是通往AGI(通用人工智能)的必經(jīng)之路嗎?3、2、1——請舉牌!”

話音剛落,臺上的八位行業(yè)頂尖專家毫不猶豫,齊刷刷舉牌——全場一致同意。

這不僅是一次簡單的共識,更是當前AI浪潮轉(zhuǎn)向物理世界的一個縮影。隨著大模型在虛擬世界的潛力被不斷挖掘,如何讓智能擁有身體,能夠理解、決策并改變真實的物理環(huán)境,已成為全球科技競爭的下一個前沿。

具身智能,正從機器人產(chǎn)業(yè)的專屬,演進為構(gòu)建下一代通用AI的基石。

在11月20日舉辦的智源具身OpenDay上,甲子光年創(chuàng)始人、CEO張一甲主持的這場BAAI具身模型會客廳,正是一次對這一前沿領域的集中叩問。她與八位來自產(chǎn)業(yè)界與學術界的核心踐行者展開對話,他們代表了推動具身智能落地的關鍵力量:

  • 招商局集團AI首席科學家 張家興

  • 清華大學助理教授、星海圖聯(lián)合創(chuàng)始人 趙行

  • 智元機器人合伙人、首席科學家,上海創(chuàng)智學院導師 羅劍嵐

  • 智源研究院院長 王仲遠

  • 北京大學助理教授、銀河通用創(chuàng)始人及首席技術官 王鶴

  • 加速進化創(chuàng)始人&CEO 程昊

  • 自變量創(chuàng)始人&CEO 王潛

  • 中國科學院大學教授 趙冬斌

在這場深度討論中,共識是清晰的——具身智能是通往AGI的必經(jīng)之路。

但非共識是存在的,挑戰(zhàn)也是現(xiàn)實的。宏偉的愿景之下,是數(shù)據(jù)、模型與機器人本體之間相互掣肘的現(xiàn)實困境。全行業(yè)都在共同摸索:如何找到一條高效、低成本的道路,打破枷鎖,讓智能真正“身”“心”合一。

本文為“BAAI具身模型會客廳”對話實錄,經(jīng)「甲子光年」整理編輯,在不改變原意的基礎上略有刪改。

1.世界模型是實現(xiàn)具身智能的關鍵嗎?

張一甲:今年世界模型概念很熱,和世界模型的結(jié)合是實現(xiàn)具身智能的關鍵嗎?

王鶴:我目前持中立態(tài)度。因為它其實取決于我們?nèi)绾味x“世界模型”。在強化學習里,世界模型最早是指根據(jù)當前狀態(tài)和我采取的動作,來預測下一步狀態(tài)的變化。但這一概念經(jīng)過Sora等視頻生成模型的不斷演變,如今已經(jīng)變得越來越模糊了。

今天我們常常希望用人類的視頻數(shù)據(jù)去訓練模型,再教機器人像人一樣去“想象”人類的行為并照著做。但這并不完全成立。原因在于,機器人的本體,比如輪式、雙臂結(jié)構(gòu),都和人類身體存在很大差異。即便是最像人的人形機器人,在操作的靈巧度、手臂活動范圍等方面,與真人動作仍有明顯差距。因此,即使機器人能像人一樣“聯(lián)想”,這類數(shù)據(jù)也不一定對我們的具身智能有實質(zhì)幫助。

不過從長遠來看,具身機器人和人類一樣,都需要具備一種對未來狀態(tài)的預測和預判能力,都需要根據(jù)我想要達成的目標,反向推導現(xiàn)在該執(zhí)行什么動作——既有前向推理,也有反向規(guī)劃。所以我認為,世界模型作為一種對未來預測的機制,是不可或缺的。只不過,它的訓練數(shù)據(jù)中必須包含更多機器人本身的數(shù)據(jù),才能真正學出一個屬于機器人自己的世界模型。

王仲遠:我是認同的。目前世界模型的定義確實還沒有形成完全的共識。如果世界模型僅僅指視頻生成,那它雖然可能對具身智能有一定作用,但未必是后者必須依賴的基座。

而我們所理解的世界模型,更多是指“下一個狀態(tài)預測”,也就是基于先前的時空狀態(tài),去預測下一個時空狀態(tài)。

舉個例子,剛才我要回答時,需要基于一甲提出的問題、王鶴老師的回應,來決定我如何回應、是否要拿起話筒,這本身就是一個決策過程。我們所認知的世界模型,需要基于已有的時空狀態(tài),理解現(xiàn)場的環(huán)境與上下文,進而給出下一步的行動與響應,這才是核心。

張一甲:Transformer這類統(tǒng)一架構(gòu)催生了ChatGPT這樣的爆款應用。你們認為具身智能未來也會收斂到某一種統(tǒng)一架構(gòu)之下嗎?換句話說,具身智能是否需要自己的“Transformer”?

(現(xiàn)場舉牌,除了趙冬斌,其他嘉賓都認為“會收斂到某一種統(tǒng)一架構(gòu)之下”)

趙冬斌:我持觀望態(tài)度。目前來看,具身模型的訓練方法比較多樣化。除了模型架構(gòu)本身的探索之外,我們也通過預訓練、后訓練以及思維鏈推理等方式來持續(xù)提升模型性能,在制作咖啡、擺放碟子、整理盒子、折疊衣物等中多個任務上展現(xiàn)出通用能力。隨著技術不斷發(fā)展,未來有可能會出現(xiàn)一個收斂的單一模型,但也可能繼續(xù)保持模型多樣化的路徑。兩者皆有可能。

張一甲:最有可能成為那個“Transformer”的技術路徑會是什么?

張家興:就像人類智能的演進過程:我們是先有動作能力,再發(fā)展出視覺,最后才誕生語言。而今天的VLA結(jié)構(gòu),恰恰是在視覺和動作之間插入了一個語言模塊,這其實并不符合我們?nèi)祟愒趯嶋H操作中的本質(zhì)邏輯。比如當我們開車時,可以一邊說話一邊駕駛,這說明視覺(Vision)和動作(Action)之間本身就有直接通路,并不一定需要語言(Language)的全程參與。

因此,我們應該思考構(gòu)建一個完全面向具身智能的、獨立的系統(tǒng)架構(gòu),而不必非得從當前以語言模型為核心的技術體系中脫胎。

張一甲:你心目中那個理想的“具身智能Transformer”,目前出現(xiàn)了嗎?

張家興:目前還沒有真正出現(xiàn)。實際上,我們確實仍在期待大模型領域能帶來一些根本性的創(chuàng)新。目前硅谷的一些頂尖團隊正在探索新型多模態(tài)大模型架構(gòu),在這些架構(gòu)中,語言(L)將不再占據(jù)那么核心的位置。這是一個重要的方向。

坦白說,目前確實是大模型團隊在率先進行這類探索,而他們的方向恰好與我們具身智能所追求的目標不謀而合。本質(zhì)上,我們期待的是大模型領域能夠?qū)崿F(xiàn)一次范式轉(zhuǎn)換:從過去三年一直堅持的“l(fā)anguage first”,轉(zhuǎn)向“vision first”或“vision-action first”。

趙行:我非常同意這個觀點。我們確實需要一個與大語言模型平行的基礎模型,它更有可能是一個“大型行動模型”(Large Action Model)。這個模型首先應建立在視覺基礎上,因為視覺是世界上最通用的感知信息來源;隨后再融入語言能力。這與生物進化的規(guī)律高度吻合——世界上先出現(xiàn)能夠運動的生物,隨后它們演化出視覺,最終才誕生像人類這樣的高級智能生命。

因此,我們期待的是一種“行動優(yōu)先、視覺隨后、語言最后”的模型構(gòu)建路徑。這個模型與大語言模型有一個關鍵區(qū)別,它必須是一個閉環(huán)系統(tǒng)。大語言模型更多是開環(huán)的——用戶提問,模型給出回答,若答案正確,流程就結(jié)束了,中間的處理過程完全在模型內(nèi)部完成。

但具身智能不同。它不是經(jīng)過一番思考后執(zhí)行單一動作,而是每執(zhí)行一個動作,就立即獲得來自世界的反饋,隨即調(diào)整自身行為,并繼續(xù)執(zhí)行下一步。因此,我希望未來具身智能的“基礎行動模型”是一個能夠與環(huán)境實時交互、持續(xù)調(diào)整的閉環(huán)模型。

羅劍嵐:目前還沒有出現(xiàn)一個能夠統(tǒng)一所有智能形態(tài)的“大一統(tǒng)模型”。智能問題更可能被一個完整系統(tǒng)所解決,而非依賴單一模型。這個系統(tǒng)包括幾個核心要素。除了VLA,系統(tǒng)中還需要一個世界模型,能夠進行反思、預測,并在隱空間中進行推演和想象。當然,也離不開強化學習。這些組件整合在一起,形成一個真正的閉環(huán)系統(tǒng),數(shù)據(jù)在其中流動,推動系統(tǒng)不斷自我提升。

王仲遠:首先,智源研究院肯定相信,從終極狀態(tài)來看,一定要有一個相對統(tǒng)一架構(gòu)的模型,來解決預訓練、世界模型等各種問題。這也是我們在布局像多模態(tài)世界模型的一個很重要原因。

當然,這種模型所需要的數(shù)據(jù)量顯然是非常非常大的,甚至不一定三年、五年就一定能夠完全實現(xiàn)。它可能需要等到更多機器人真正落地,開始解決很具體的問題,累積起足夠的數(shù)據(jù)量,出現(xiàn)“具身智能的互聯(lián)網(wǎng)”之后,有了這樣的數(shù)據(jù)基礎,才有可能出現(xiàn)更好的大一統(tǒng)模型。

從架構(gòu)上來講,我們正在探索一系列具有潛力的大一統(tǒng)架構(gòu),當然未來是否會出現(xiàn)別的架構(gòu),我們也樂見其成。所以從長期來看,我相信這是一個我們必須突破、必須解決的關鍵問題。

王鶴:關于“具身Transformer”這個問題,其實它更偏向架構(gòu)層面。

具身智能的復雜性在于,人類擁有視覺、聽覺、觸覺等多種感知方式,就像我們常說的“眼耳口鼻舌”。從注意力機制的角度,所有這些感知信號理論上都可以被token化并輸入Transformer。目前主要的瓶頸在于輸出部分還不夠理想,動作的生成與響應還不夠自然。

因此,如果我們能逐步解決輸出層面的問題,從架構(gòu)上講,是有可能形成一個統(tǒng)一范式的。但相比之下,數(shù)據(jù)問題以及與之對應的學習范式,才是更長期、更根本的挑戰(zhàn)。

目前我們的數(shù)據(jù)還遠遠不夠。無論是視頻生成模型還是對話模型,本質(zhì)上都依賴海量的互聯(lián)網(wǎng)數(shù)據(jù)。而今天我們?nèi)粝胙邪l(fā)出一個“行動優(yōu)先”的模型,面臨的核心問題是:全球可能僅有約一千臺、甚至更少的人形機器人處于前沿場景中運行。如此少的數(shù)量,遠不足以支撐我們探索出一個成熟的“行動優(yōu)先”架構(gòu)與模型。

因此我的看法是:短期內(nèi),我們更需要依靠仿真模擬與合成數(shù)據(jù)來推進探索,這比受限于少量真實數(shù)據(jù)會走得更快;而從長期來看,地球上的“人形機器人口”必須實現(xiàn)持續(xù)高速增長。當然,這也與其能力提升相輔相成。只有當這個“人口基數(shù)”足夠大時,才有可能孕育出真正強大的大模型。

程昊:過去一年多來,幾乎所有人形機器人的運動控制都在朝著同一個方向努力:只要獲取到人體各種運動軌跡數(shù)據(jù),機器人就能夠復現(xiàn)執(zhí)行。相應地,我們也希望能有一個具身模型,可以基于任務需求與環(huán)境狀態(tài),實時輸出未來數(shù)十幀內(nèi)機器人該如何動作,就像在腦海中生成一段動畫,機器人隨之執(zhí)行,并自主判斷是該拿起鏟子、杯子,還是去開門。一旦這樣的模型跑通,具身智能的落地就會順利很多,但目前來看,這樣的模型尚未出現(xiàn)。

我們之所以特別關注世界模型,核心原因之一就是“預測”能力——既要預測“我打算做什么”,也要預測“外部環(huán)境會發(fā)生什么”。當然,團隊內(nèi)部也認為這個目標挑戰(zhàn)很大、路徑較長,因此我們也在考慮分階段推進:先通過分層方法構(gòu)建一些智能體(agent),在相對簡單的場景中實現(xiàn)落地,比如拿快遞、搬箱子這類任務,而像做飯就是一件非常非常難的事情。

這樣做的好處是,一旦在真實場景中部署,就能采集到大量機器人實際運行數(shù)據(jù)。正如剛才王鶴老師所說,一旦機器人真正落地創(chuàng)造價值,大家就會有意愿、有資源去部署更多機器人,形成“機器人公民”規(guī)模的擴大。這些數(shù)據(jù)回流后,將反哺整個具身智能大模型的研發(fā)。

王潛:“Transformer”這個說法可能稍微有些誤導性,因為它本質(zhì)上是一種架構(gòu)。事實上,如今在語言模型中也不一定全都采用Transformer。由于超長序列處理等需求,很多團隊已經(jīng)開始轉(zhuǎn)向類似狀態(tài)空間模型(State Space Model)等其他架構(gòu)。所以,語言模型領域也未必都是Transformer。

當然,我理解這個問題的實質(zhì)是:我們是否會形成一整套完整的方法論與模型體系,就像當年GPT那樣成為基礎模型范式?從這個角度看,我認為這樣的體系是可能出現(xiàn)的。至于它具體采用哪種架構(gòu)形式——是決策型、自回歸、狀態(tài)空間還是其他注意力變體——其實并沒有那么重要。就像建造一棟大樓,Transformer可能只是其中的磚塊或鋼筋,我們可以替換為其他材料,而不影響整體功能。更重要的是設計整座建筑的結(jié)構(gòu)、外觀與功能,并通入水電、完成內(nèi)裝,最終才能成為真正可用的建筑。

從語言模型的發(fā)展中,我們可以汲取幾點重要經(jīng)驗:

第一是數(shù)據(jù)規(guī)模的重要性。這一點剛才多位老師都提到了。但大家對“數(shù)據(jù)規(guī)模”可能存在一些誤解,第一反應往往是“大力出奇跡”。確實,我們需要海量數(shù)據(jù),但光有數(shù)量是不夠的。就像家興老師和仲遠老師在大語言模型時代的實踐所證明的:單純堆數(shù)據(jù)未必能帶來理想結(jié)果,反而是更高效、更高質(zhì)量的數(shù)據(jù)才能實現(xiàn)突破。這也是為什么我們堅持以物理世界真實數(shù)據(jù)為主——我們相信數(shù)據(jù)質(zhì)量優(yōu)先于數(shù)據(jù)總量,這能在數(shù)據(jù)效率上帶來數(shù)量級的提升。

第二是通用模型(通才模型)的價值。這正是我開場時提到的:我們正在構(gòu)建的是一個平行于虛擬世界的、屬于物理世界的基礎模型。根本原因在于虛擬世界與物理世界的基本屬性,或者說“統(tǒng)一性原理”,差異太大。

核心差異在于,物理世界中存在大量的接觸、摩擦、碰撞等高度隨機的過程,這些過程通常難以用語言完整描述,也難以通過圖像準確表達。盡管目前已有一些利用圖像進行描述的嘗試,但在我看來,這些嘗試效果有限,因為它們難以捕捉其中涉及的大量精細物理現(xiàn)象。

正因如此,我們認為在當前階段,這方面仍存在不少障礙。最主要的原因在于,我們對這些物理過程的認知與建模方法仍不成熟,對其內(nèi)在機制的理解尚不完善。因此,我們最終仍需要一個平行且獨立于虛擬世界的物理模型,來精確刻畫這些細致而復雜的物理過程。

這樣一個模型究竟應該具備哪些功能?它當然要能控制機器人,這一點毋庸置疑。但與此同時,它還應具備更多元的輸出能力。在我們看來,世界模型、VLA等概念之爭意義有限,因為從我們的實踐來看,所有這些能力都被集成在同一個模型中:它既能輸出動作指令,也能生成視頻;既能做隱藏狀態(tài)的預測,也能完成三維重建,甚至輸出體積信息等任意形式的內(nèi)容。

我們將其視為一個“物理世界的基礎模型”,背后的邏輯是什么?這源于我們從語言模型發(fā)展中獲得的啟示:為什么一定要做通用模型?關鍵在于,通用模型學習到的內(nèi)容與專用模型完全不同。它捕捉的是所有任務之間的交集,可稱為“共同結(jié)構(gòu)”、常識,或是本質(zhì)規(guī)律。

因此,從語言模型中我們能夠習得邏輯推理能力、常識認知等關鍵要素——這些確實是語言模型帶給我們的核心價值。但回到現(xiàn)實問題:我們是否應該直接繼承現(xiàn)有的多模態(tài)模型作為主干,將其作為基礎來推進具身智能領域的工作?

對此我的看法可能與主流觀點相左。我認為在不久的將來,或許不用十年,甚至五年內(nèi),真正主導的多模態(tài)模型,反而會是由具身智能推動發(fā)展的那類模型。當前僅依靠從物理世界采集數(shù)據(jù)構(gòu)建的模型路徑可能難以走通,而基于具身智能發(fā)展的多模態(tài)體系,反而很可能反過來主導甚至取代我們今天所見的多模態(tài)范式。

這是一個符合發(fā)展規(guī)律的大趨勢,也呼應了人類認知世界的基本方式。人類在學習理解物理世界這類“不靠堆數(shù)據(jù)”的領域時,其實并不需要海量樣本。從進化歷程來看,我們實際經(jīng)歷過的交互場景遠不如今天AI模型訓練的數(shù)據(jù)規(guī)模,卻依然能構(gòu)建出強大的認知系統(tǒng)。

這其中最關鍵的一點在于“動作”帶來的改變。行動本身是一個關鍵信號,它能幫助我們篩選出哪些信息是真正重要的。此外,正如剛才其他嘉賓提到的“交互感知”或“主動感知”,我們通過與環(huán)境的實時互動,能夠從時間和因果維度更深入地把握物理世界的運行規(guī)律。

這也就引回到我們今天討論的核心:什么才是真正的基礎模型?或者說,具身智能領域的“Transformer”應該是什么?當然,我仍堅持之前的看法,Transformer這個比喻并不十分貼切,它終究只是一種架構(gòu)組件,就像磚塊或鋼筋,完全可以被更合適的結(jié)構(gòu)所替代。

趙冬斌:確實,當前我們對于模型規(guī)模的定義可能不是一成不變的。未來的大模型也不一定非要依賴海量數(shù)據(jù),就像人類學習一樣,也許只需少量樣本就能掌握,而不是單純依靠海量數(shù)據(jù)和算法堆砌。所以對于未來的發(fā)展方向,我個人還持觀望態(tài)度。

從模型架構(gòu)的角度來看,我們討論的重點往往在于輸入和輸出。在具身智能領域,輸入模態(tài)遠比互聯(lián)網(wǎng)大模型豐富,不僅有文字和視覺,還包括力矩、觸覺等物理交互信號,這些都需要被處理,也必然會影響模型的架構(gòu)設計。

至于輸出方面,剛才多位嘉賓也提到了多種實現(xiàn)路徑,例如混合專家模型(MoE)、多模態(tài)生成等。有些場景可能并不需要復雜輸出。目前整個業(yè)界發(fā)展非常迅速,從學界角度來看,依然處于百花齊放的狀態(tài)。具體到機器人控制,如果場景相對簡單,或許一個狀態(tài)空間模型就足夠應對了。

2.數(shù)據(jù)的解法

張一甲:面對數(shù)據(jù)這種“既重要又難搞”的情況,你們各自采取了什么樣的應對策略?目前實際在做的有哪些工作?

張家興:第一,我們堅信要從真實物理世界中采集數(shù)據(jù),這最為關鍵。第二,在整個數(shù)字金字塔的構(gòu)建中,我們希望通過最低成本的方式,直接以人自身作為本體來采集數(shù)據(jù),這樣成本最低,也最容易實現(xiàn)規(guī)模效應。這些數(shù)據(jù)主要用于人工智能領域。我們的目標,是構(gòu)建一個質(zhì)量最高、成本最低的數(shù)據(jù)金字塔。

趙行:我們同樣以真實數(shù)據(jù)為基礎,主要從三個層面入手。首先,是保證數(shù)據(jù)的真實性,因此我們用真實機器人素材作為起點。其次,我們注重多樣性,這意味著數(shù)據(jù)采集不局限于自有工廠,而是深入各類真實場景。最后,我們再追求數(shù)量,通過優(yōu)化方法(如從依賴機器人轉(zhuǎn)變?yōu)闊o機器人方案)來降低采集成本、擴大規(guī)模。

羅劍嵐:我們也是堅持真實數(shù)據(jù),并且非常重視數(shù)據(jù)質(zhì)量。有兩點我們想突出一下:第一,我們會去真實場景里采集,而不只是在數(shù)據(jù)工廠。第二,未來整個數(shù)據(jù)生態(tài)的構(gòu)建和運轉(zhuǎn),將主要依靠機器人自主產(chǎn)生數(shù)據(jù)。具體來說,就是把大量機器人部署到真實場景中,讓它們與環(huán)境交互,從而產(chǎn)生范圍極廣、非常多樣化的數(shù)據(jù)。然后利用這些數(shù)據(jù),我們可以去獲取更多的機器人,這樣就形成了一個完整的正向反饋。

王仲遠:我們還是堅持從海量的視頻數(shù)據(jù)中去進行基座模型的學習。因為視頻數(shù)據(jù)既能夠海量獲得,又能模擬真實世界。然后,我們通過真機采集的數(shù)據(jù)做半自動處理,再通過強化學習做反饋,來不斷提升它的能力。這套邏輯其實跟現(xiàn)在很多小朋友刷手機認識世界是一個原理:他們通過視頻學習這個世界,再通過真實的交互體驗來提升技能。

王鶴:在座各位中,我可能是很強調(diào)仿真的。這并不是說我們故意要用仿真去替代真實世界的數(shù)據(jù),而是我們發(fā)現(xiàn),很多底層的控制都是通過大量的強化學習獲得的,而這在真實世界里進行非常困難。比如,我們今天看到的所有人形機器人的足式行走、跳舞,包括各種復雜的身體控制,全都是通過仿真器習得的。真實數(shù)據(jù)在其中的作用,一是提取人類的行為形態(tài)(比如舞蹈),二是在真實世界進行少量的微調(diào)。

我們最近與清華大學合作的靈巧手工作也印證了這點。至今為止,所有真正的手內(nèi)操作都是通過模仿學習實現(xiàn)的,而不是遙控。因為當你不清楚靈巧手的手指是否碰到物體、受力如何時,連遙操作都無法進行。

所以,仿真的意義并非否定真實世界,而是這些豐富的物理交互可以從仿真開始。它能提供一個很好的基礎控制器,使我們在真實世界里能把“數(shù)據(jù)飛輪”轉(zhuǎn)起來。這就是合成數(shù)據(jù)的使命。

程昊:我們現(xiàn)在實際上用仿真數(shù)據(jù)確實比較多,因為它比較快。但我們用仿真數(shù)據(jù)訓練的一個目標,是讓機器人接下來能獲得更多真實數(shù)據(jù),有了真實數(shù)據(jù),整體能力才能再提升。

這很可能是一個螺旋上升的過程:落地后獲得真實數(shù)據(jù),會發(fā)現(xiàn)很多“corner case”搞不定,而真實世界又采不到那么多,那就可能又得回頭大量用仿真數(shù)據(jù)。

所以我們的大思路是,一定要讓機器人落地后能獲得真實數(shù)據(jù)。我們堅信最終這些數(shù)據(jù)都得用上,大概率是一種融合的狀態(tài)。視頻數(shù)據(jù)長遠看肯定是最多的,只不過現(xiàn)在它的訓練效果還不那么理想??傊膫€階段哪個數(shù)據(jù)好用,我們就先用哪個。

張一甲:這可能不是應不應該的問題,而是能不能做到的問題。

王潛:我們是什么數(shù)據(jù)都用,但用的地方有側(cè)重點。就像我剛才說的,不同數(shù)據(jù)本身的分布差異是很大的。

比如,我們用大量的互聯(lián)網(wǎng)數(shù)據(jù),基本上每晚能爬的都會爬一遍。這部分主要用來做知識鏈,學習一些常識,這是大家現(xiàn)在普遍都在做的基礎工作。

再比如,我們仿真也做,但可能不會用它來做接觸式的抓取這類任務,而是用來做智能體的決策、推理。那種物理抓取的遷移學習,主要還是以物理世界的真實數(shù)據(jù)為主。

所以,所有數(shù)據(jù)本質(zhì)上都可以用起來,但說實話,把任何一種數(shù)據(jù)用好都挺難的,里面涉及大量核心的工程問題,這才是我們?nèi)粘9ぷ骱妥⒁饬Φ闹攸c。數(shù)據(jù)肯定是多多益善,我們能從各種各樣的數(shù)據(jù)里都學到東西。

趙冬斌:我想,自動駕駛應該是具身智能一個非常重要的落地例子。從它的經(jīng)驗來看,把車賣給C端用戶后,每個司機每天開車就把數(shù)據(jù)收回來了,這個真實數(shù)據(jù)的反饋閉環(huán)用得非常好。

我其實一直在想,我們其他的機器人什么時候也能這樣?比如把服務機器人賣到旅館,讓它在無人環(huán)境下打掃衛(wèi)生、疊被子。這樣就能持續(xù)回收數(shù)據(jù),出了問題可以遠程接管,這些接管數(shù)據(jù)也非常重要。

再比如一個廚房機器人,如果能根據(jù)菜單做各種菜,隨著部署規(guī)模上去,數(shù)據(jù)量自然就起來了。我們期待的就是這種數(shù)據(jù)自然而然涌現(xiàn)的時刻。

3.決策的“第一性原理”

張一甲:具身智能這個問題,真是越聊越覺得比我們想象中更復雜。就好像各位嘉賓在一個復雜的森林里,從不同的地點出發(fā)。我們不知道這個森林有多少物種,也不知道它的全貌,但我們知道大概會有寶藏。至于寶藏什么樣、在哪里,都需要我們?nèi)ッ?。在面對這么多開放和復雜的問題時,你們做決策的“第一性原理”是什么?

張家興:我認同去年圖靈獎得主的理念——讓機器自己去發(fā)現(xiàn),讓機器自己去探索。

趙行:星海圖創(chuàng)立時就有一句格言:“In scaling law we trust.” 我們相信,數(shù)據(jù)的規(guī)?;瘜⒎聪蝌?qū)動模型的進化與智能的實現(xiàn)。

羅劍嵐:我們堅持做正確的事,正所謂“風物長宜放眼量”。很多事情短期看是負擔,長期看卻會產(chǎn)生巨大價值。

王仲遠:人類如何學習,機器人就可以如何學習。

王鶴:我們始終致力于讓“數(shù)據(jù)飛輪”轉(zhuǎn)起來。即便當前所做的,未必是外界眼中最炫酷的事情。

程昊:我們決策時始終關注一件事:它能否真正落地。只要方向?qū)β涞赜袔椭覀兙蜁七M。

王潛:我們的金標準是:能否長期為客戶與消費者創(chuàng)造真實價值。

張一甲:具身智能領域,大家是在“戴著鐐銬起舞”,它很吸睛,但也很花錢。如果你手里有100億元來推進具身智能發(fā)展,這筆錢你會怎么花?

趙冬斌:這是錢的問題,給他們來回答(笑)。

王潛:我首先把市場上能吸納的好人才都吸納過來,這是第一位的。那其次肯定是算力和數(shù)據(jù)啊。

王鶴:100億其實并不重要,重要的是你怎么能夠用你的事業(yè)和你堅定的進步,吸引到人才加入。我們不希望大家為了錢每天睜開眼睛,而是為了一個未來人與機器人共生的世界。

程昊:首先,100億不夠。如果我只有100億的話,我肯定不會自己埋頭落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,讓他們可以心無旁騖地去搞比較長期的技術突破。

王仲遠:我特別喜歡程昊總的這個回答。100個億其實也就聽起來很多,實際上也不多,也就10億多美元。GPT-3真的要開始訓練的時候,微軟投資的規(guī)模也就是這個量級,這正是一個關鍵研究周期所需要的。

羅劍嵐:我會去構(gòu)建世界上最大的能夠自我進化、自我閉環(huán)的數(shù)據(jù)系統(tǒng)。100億可以說很多,也可以說不多,但關鍵是,第一個投入百億去做這件事的個人或機構(gòu),現(xiàn)在還不存在。

趙行:我也會去構(gòu)建一個最大的“data engine(數(shù)據(jù)引擎)”,目標是把物理世界的信息全部數(shù)字化下來。

張家興:我是希望能夠設計出屬于我們自己的、具身智能的“黃金式模型”,然后進行大規(guī)模預訓練,讓能力真的能夠scale up上去,找到我們最正確的那條路徑。

(封面圖來源:智源研究院)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
換帥即封神!28分狂勝同曦終結(jié)5連敗 浙江沒做到的他做到了?

換帥即封神!28分狂勝同曦終結(jié)5連敗 浙江沒做到的他做到了?

你看球呢
2025-12-27 08:40:06
價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

封面新聞
2025-12-26 15:09:05
22:00,中國男足vs伊拉克!U23亞洲杯首輪=生死戰(zhàn),底線拿5分晉級

22:00,中國男足vs伊拉克!U23亞洲杯首輪=生死戰(zhàn),底線拿5分晉級

侃球熊弟
2025-12-27 00:06:53
正式通車!即日起,東莞?深圳提速!

正式通車!即日起,東莞?深圳提速!

知肇分子
2025-12-27 03:21:07
南博事件繼續(xù)升級!借走字畫的神秘“老同志”是誰?全網(wǎng)都在找…

南博事件繼續(xù)升級!借走字畫的神秘“老同志”是誰?全網(wǎng)都在找…

火山詩話
2025-12-21 06:56:09
衛(wèi)冕冠軍廣廈大勝深圳豪取5連勝 胡金秋9000分里程碑塔克21分

衛(wèi)冕冠軍廣廈大勝深圳豪取5連勝 胡金秋9000分里程碑塔克21分

醉臥浮生
2025-12-27 21:34:07
“薛寶釵”張莉現(xiàn)狀:住加拿大豪宅,60歲仍似少女,至今不婚不育

“薛寶釵”張莉現(xiàn)狀:住加拿大豪宅,60歲仍似少女,至今不婚不育

胖媽看電影
2025-12-25 19:13:40
54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

小熊侃史
2025-12-17 09:43:27
304萬億,我國的貨幣發(fā)行總量已經(jīng)是世界第一了。

304萬億,我國的貨幣發(fā)行總量已經(jīng)是世界第一了。

流蘇晚晴
2025-11-18 20:20:14
越挖瓜越大!徐鶯身份成謎,徐湖平被曝私生活紊亂,還被人撞見過

越挖瓜越大!徐鶯身份成謎,徐湖平被曝私生活紊亂,還被人撞見過

遠山行客
2025-12-27 22:10:10
多爾古談自己的進球:我也不知道自己還能那樣踢

多爾古談自己的進球:我也不知道自己還能那樣踢

MUREDS
2025-12-27 23:48:42
北極為什么沒有企鵝?當年放養(yǎng)北極的69只企鵝,后來怎么樣了?

北極為什么沒有企鵝?當年放養(yǎng)北極的69只企鵝,后來怎么樣了?

半解智士
2025-12-25 20:01:24
日本天皇親自出山,高市早苗憋出了一大招,對中國反擊已悄悄開始

日本天皇親自出山,高市早苗憋出了一大招,對中國反擊已悄悄開始

夏目歷史君
2025-12-27 22:59:22
錢小豪“毀滅史”,他的故事比你想得更惡劣

錢小豪“毀滅史”,他的故事比你想得更惡劣

比利
2025-12-21 11:26:52
23分大勝強敵,火箭再迎甜蜜賽程!10連勝有戲?有望重回西部前4

23分大勝強敵,火箭再迎甜蜜賽程!10連勝有戲?有望重回西部前4

熊哥愛籃球
2025-12-27 22:16:47
生猛!PS6新傳聞:可原生運行PS1-PS5所有游戲

生猛!PS6新傳聞:可原生運行PS1-PS5所有游戲

3DM游戲
2025-12-27 21:50:06
米體:國米存在先把斯坦科維奇帶回來,再高價賣出去的可能性

米體:國米存在先把斯坦科維奇帶回來,再高價賣出去的可能性

懂球帝
2025-12-27 23:28:02
廣東一工業(yè)區(qū)廠房突發(fā)火災,現(xiàn)場濃煙滾滾,燃燒近5小時!最新通報

廣東一工業(yè)區(qū)廠房突發(fā)火災,現(xiàn)場濃煙滾滾,燃燒近5小時!最新通報

大象新聞
2025-12-27 12:45:02
闊腿褲已經(jīng)下崗了,今年流行的是“瑜伽褲”,百搭顯瘦還時髦

闊腿褲已經(jīng)下崗了,今年流行的是“瑜伽褲”,百搭顯瘦還時髦

朝史暮夕
2025-12-25 10:38:23
被罵到關評!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

被罵到關評!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

阿纂看事
2025-12-25 17:19:59
2025-12-28 00:16:49
甲子光年
甲子光年
中國科技產(chǎn)業(yè)化前沿智庫
3302文章數(shù) 9254關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術
本地
時尚
健康
房產(chǎn)

藝術要聞

震撼!Tamara Dean的水中人像攝影,油畫般的絕美畫面!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

穿好雪地靴的4個訣竅,還挺有效!

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

年銷20億+!中交·藍色港灣用好房子致敬好生活

無障礙瀏覽 進入關懷版