国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

趙何娟對話王曉剛:什么將是機器人的ChatGPT時刻|2025 T-EDGE全球對話

0
分享至

2025年,具身智能行業(yè)的發(fā)展繼續(xù)以“烈火烹油”的態(tài)勢,向前發(fā)展。

前9個月,全球(特別是受中國市場驅動)在人形機器人領域的投資交易額達到約70億美元(約合500億人民幣)。這一數(shù)字相比去年同期增長了250%,太多人期待著機器人的“星辰大海”。

但在產(chǎn)品上來看,幾乎所有的人形機器人都還停留在跳舞拳擊、走路摔跤的狀態(tài),技術發(fā)展仍困在迷霧之中。

2025年12月8日至21日(北京時間),鈦媒體集團攜手NextFin.AI、巴倫中國舉辦的2025 T-EDGE 全球對話正式開啟,以連續(xù)7日全球連線+貫穿2周N場閉門私享會的方式聯(lián)動上海、深圳、硅谷、香港、新加坡、日本、迪拜等全球化創(chuàng)新高地,匯集前沿創(chuàng)新思想,打造全球分布式創(chuàng)新盛會,展開一場【AI時代的全球對話 Global Conversations for the AI Era】。

會上,「趙何娟 Talk」與商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機器人董事長王曉剛,就“具身智能新的ACE研究范式”展開了深度對話。


“靠讀文章、看圖片,機器人永遠不可能理解真實的物理世界?!?/p>

王曉剛表示,AI的研究范式,要從以機器為中心轉變成以人為中心,通過采集人類的真實行為數(shù)據(jù),學習真實的物理規(guī)律,去訓練具身智能的世界模型。世界模型不是泛指“一個世界”,它指的是人類存在的周圍環(huán)境。

為此,大曉機器人推出了ACE具身研發(fā)范式。

具體來講,ACE范式就是以人類與物理世界的互動規(guī)律作為研究起點,以環(huán)境式數(shù)據(jù)采集為引擎,構建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的技術體系。

其中,開悟世界模型3.0可以形成跨本體的統(tǒng)一世界理解框架,融合物理規(guī)律、人類行為和真機動作,使機器不僅能“理解”世界的物理規(guī)律和因果思維鏈,還能“生成”長時動靜態(tài)交互場景。

王曉剛認為,隨著大模型的爆發(fā),語言、圖文等多模態(tài)數(shù)據(jù)的價值逐漸被榨干,邊際效應變得越來越低。目前,所有人都需要回答一個問題:除了過去人類在文章、圖文、互聯(lián)網(wǎng)上積累的這些智能數(shù)據(jù)以外,我們還有哪些新的智能?

“具身智能出現(xiàn)以后,大家期望用世界模型,與物理世界產(chǎn)生交互,理解人與環(huán)境交互過程中的物理規(guī)律、各種目標的動態(tài)行為準則。在這一過程中,具身智能領域將會產(chǎn)生新的智能?!蓖鯐詣偙硎?。

以下是趙何娟與王曉剛的對話內(nèi)容,略經(jīng)編輯:

趙何娟:大家好,歡迎來到今天趙何娟Talk @ T-EDGE的現(xiàn)場。今天我們請到了一位技術專家,也是現(xiàn)在炙手可熱的AI大模型和世界模型的研究專家——商湯科技聯(lián)合創(chuàng)始人王曉剛博士。曉剛博士,你好!

王曉剛:謝謝何娟老師,非常榮幸來到趙何娟Talk。鈦媒體這些年來一直都在關注商湯的發(fā)展和成長。因為商湯算是AI 1.0時代"四小龍"的領軍企業(yè),后面發(fā)展到AI 2.0大模型時代,現(xiàn)在又開始進入世界模型時代。這個時代的變遷,您都是見證者和實際的參與者。

趙何娟:我對您的經(jīng)歷非常感興趣。您是從科大少年班畢業(yè),然后就進入了視覺智能學習這個方向,一直從事相關行業(yè)??梢哉f,您的參與和學習也是中國整個視覺計算行業(yè)發(fā)展的一個縮影。這也是為什么今天請您來到我們的直播間。

首先,我想跟您聊一聊關于您的學習經(jīng)歷。從科大少年班開始,您是怎么走上了AI和人工智能這條道路的?能不能先講講您的個人經(jīng)歷?

AI之路,從中科大少年班開始

王曉剛:我是1996年進入中國科技大學少年班。但實際上我自己的年齡是正常的,那時候是18歲。科大有個少年班,當時選了一批年齡很小、有才華的孩子,另外也從科大整個范圍內(nèi)選了一批學習比較好的學生,把他們混編在一起。

趙何娟:所以是大帶?。?/strong>

王曉剛:對,我們都一起上課、住在一起。我的同學當時最小的才12歲,后來去了哈佛,現(xiàn)在是哈佛的教授。

前兩年,老師都是交給我們非?;A的數(shù)學和物理。到大三的時候,就可以選專業(yè)了,我就選了電子工程和信息系統(tǒng),特別是圖像處理。那時候處理的還都是一些遙感圖像、地理信息系統(tǒng)。

其實整個信息還是比較閉塞的。在2000年之前,不太知道外面的世界是什么樣的,國際最好的AI研究水平是什么樣的。甚至,我們都不知道ICCV、CVPR這些頂級會議和期刊,都沒聽說過。

因為當時整個中國,估計一年也就兩三篇CVPR這種水平的論文能中,基本都是從微軟亞洲研究院出來的。

我是2001年從中科大畢業(yè),就到了湯曉鷗老師的多媒體實驗室。那時候湯老師才告訴我們CVPR和ICCV是最好的頂級會議,我們要朝著這個目標做計算機視覺,但當時整個實驗室其實也沒有發(fā)過這樣的頂級論文。

湯老師給我們設定了一個非常高的目標,說我們的多媒體實驗室(MM Lab)將來一定能夠成長為世界頂級的實驗室,你們的目標就是MIT、斯坦福、劍橋這樣的頂級學校。后來,在他的指引下,我們確實也做到了。

2004年我在多媒體實驗室、香港中文大學畢業(yè)的時候,我發(fā)了五篇CVPR和ICCV的論文。

趙何娟:那個時候發(fā)頂刊就已經(jīng)很厲害了。在這之前,整個中國一年一共才兩三篇,你畢業(yè)的時候有五篇,那是創(chuàng)紀錄的。

王曉剛:后來我申請MIT的時候,我的MIT導師叫Eric Grimson,他是EECS系的系主任,后來是MIT的Vice-Chancellor(校長)。他說這個學生可能是今年申請的最強的一個學生。

后來我就去了MIT。不光是我,包括我后面的師弟,也都到了MIT,還有的去了斯坦福、劍橋各個地方。

趙何娟:所以,從2004年到現(xiàn)在的20多年里,可以看到整個中國的科技人才,尤其是計算機相關的人才,井噴的數(shù)量和速度真的很驚人。我看了一個統(tǒng)計數(shù)據(jù),中國在這種頂級刊物上發(fā)表的人工智能相關論文數(shù)量已經(jīng)排到全球第一了。

王曉剛:但是我們也不要忘掉,這個變化是一代一代人的努力完成的。

從零到一的突破的時候,那個時候是不敢想象的。我還記得2014年我們做人臉識別,湯老師希望有一天AI人臉識能夠超越肉眼的識別率。

我從MIT回來以后又回到了香港中文大學,就跟湯老師在一塊兒。當時大家不知道AI能不能超越肉眼的識別率。所以后面我們把這個結果做出來以后,還在反復驗證。因為你有可能得到了一個結果,但這違反科學理論——AI永遠超不過人類,你做出來的可能是錯誤結果。

我們一直在驗證,最后得出AI確實能夠超越肉眼識別率。當時我們是跟Facebook去競爭,因為Facebook也有這樣一個項目,也要超過肉眼,它的計算資源和數(shù)據(jù)是遠遠超過我們的。但我們當時最先到達了這條紅線。

所以,2014年商湯科技就誕生了。

AI的3.0時代,世界模型

趙何娟:在商湯科技誕生之前,我記得其實在美國,包括李飛飛教授發(fā)起的ImageNet行動,其實都在這條路上努力。但為什么說商湯當是全球第一個實現(xiàn)AI識別率超過人眼?

王曉剛:那時候ImageNet是一個更廣泛的、更難的任務,但它也沒有達到肉眼的水平。因為人臉識別當時工業(yè)應用背景非常廣泛,一旦成功的話,很多地方都能用起來。而且你看我們最后在人臉識別上達到了超過99%的識別率,肉眼大概是98%的識別率,所以這是第一個超越。

當然,ImageNet也參加了比賽,拿了幾項第一名。2015年,ImageNet還做了圖像檢測、視頻識別,也是在這個賽道上。

趙何娟:所以其實這種你追我趕的過程,也推動了整個AI 1.0視覺識別時代的大發(fā)展。

王曉剛:對。我覺得這里面核心的點就是你要不斷突破自我的局限,或者當時那個時代的局限。

你看最開始我們不能發(fā)CVPR的文章,覺得根本發(fā)不了。湯老師說你能發(fā)。當時說AI不能夠超越肉眼,我們能夠超越肉眼的識別率。今天有這么多華人科學家發(fā)了這么多論文,今天我們應該想的是怎么進一步突破自己的局限。

趙何娟:你覺得我們自己的局限主要是什么?

王曉剛:今天從1.0、2.0到3.0的發(fā)展,這個研究范式還是有下一代的,我們要能夠提出這種新的研究范式。

趙何娟:其實這種研究范式,我們可以總結一下。

比如AI 1.0可能更多是在視覺識別,更多考慮的是識別率,從杰弗里·辛頓開始提到了87%,到商湯你們做到了99%超過肉眼。

然后到AI 2.0時代,不再談視覺識別率,而是談Scaling Law,大力出奇跡,數(shù)據(jù)、算法和算力變成了最核心的要素。

再到AI 3.0,或者可能是2.0的延伸,就是世界模型?,F(xiàn)在又到了一個新的瓶頸和十字路口,可能需要新的核心范式。如果說總結AI發(fā)展的整個范式發(fā)展,你覺得現(xiàn)在最核心必須要突破的局限是什么?到下一代范式,可能會在哪個方向發(fā)生?

王曉剛:這里面要核心回答的一個問題是:智能是從哪里來的?我們怎么能夠用模型或算法把它挖掘出來?

回想1.0時代,我們做人臉識別,智能從哪來?圖像本身沒有智能,是人加了標簽。其實當時不同領域,每個任務都靠人進行標注。這里注入的智能效率非常低,也比較少。所以那個時代基本上用一些小模型就夠了,很難做到通用化程度。

趙何娟:所以AI 1.0時代的核心局限在于標注的局限性。

王曉剛:對,標注+小模型。

到了2.0時代,我們發(fā)現(xiàn)用了大量語言或圖文結合的東西。這些都是人類歷史上幾千年積累的人類行為,比如寫文章、寫代碼,體現(xiàn)了人類智慧,而且跨越了非常多不同領域。這些智能已經(jīng)存在在那里了,我們用技術手段把它提取出來,這就是大模型。

Scaling Law成功的就是把這幾千年積累的智能挖掘出來了。其實大模型本身并不稀奇,因為2019年開始我們在視覺領域也在嘗試使用大模型。我們當時做了一個320億參數(shù)的視覺大模型,比谷歌當時200多億參數(shù)的還要大,確實在視覺識別效果也更好。

趙何娟:當時你參數(shù)的來源是什么?

王曉剛:谷歌當時有YouTube和搜索的數(shù)據(jù),我們因為在視覺行業(yè)領域積累了很多年,也有大量行業(yè)數(shù)據(jù)。但達不到通用性,因為數(shù)據(jù)本身還是圖像加標注,里面存在的智能比較少。所以我們沒有發(fā)現(xiàn)ChatGPT這樣的時刻。

但當大模型用到語言、圖文、多模態(tài)數(shù)據(jù)里面,一下子就爆發(fā)出來了。我覺得那個其實是一個比較重要的點。

但今天我們會發(fā)現(xiàn),這些又遇到Scaling Law瓶頸了。核心原因是現(xiàn)有數(shù)據(jù)的價值逐漸被榨干,邊際效應越來越低,所以我們要回答:除了過去人類在文章、圖文、互聯(lián)網(wǎng)上積累的這些智能數(shù)據(jù)以外,我們還有哪些新的智能?

趙何娟:所以現(xiàn)在的核心局限是數(shù)據(jù)本身的來源已經(jīng)被耗干了。

王曉剛:之前還停留在互聯(lián)網(wǎng)上積累的數(shù)據(jù),所以現(xiàn)在我們想到了具身智能的世界模型,就要跟物理世界交互,理解人與環(huán)境交互過程中的物理規(guī)律、各種目標的動態(tài)行為準則,這里面產(chǎn)生新的智能。所以,我們說3.0時代實際上是對它的期待。

趙何娟:你核心的期望是指針對物理世界的數(shù)據(jù)搜集,除了數(shù)據(jù)之外,還有新的算法突破嗎?因為對于世界模型來說,首先數(shù)據(jù)收集就很難,大自然世界里面這樣的數(shù)據(jù)很少被收集到。然后這些收集到的數(shù)據(jù)本身的處理,是不是跟過去大語言模型的算法又可能必須不一樣?

王曉剛:必須有理論的突破。

其實我們也在思考這個問題。今天具身智能的研究范式是VLA,這是一個以機器為中心(machine-centric)的研究范式。就是給機器一個圖像,給一個指令,它直接想完成動作,中間不需要理解環(huán)境、世界、物理規(guī)律。而且人們當時期望著,2.0時代有大模型、有通用人工智能,把一個大模型搬到機器上,機器也就具有了通用人工智能,這個時代是不是就到來了?

今天我們研究下來,它是不行的。

為什么呢?首先機器的物理結構都不一樣,有人形的、有兩個機械臂、有一個機械臂、有夾爪、有靈巧手、有機器狗、有掃地機器人。大家可以想象,當物理形態(tài)都不一樣的時候,怎么能期待它們有一個通用的同樣的大腦?就像人跟狗不可能擁有同樣的大腦結構,因為物理結構不一樣。

但今天研究范式就存在這個問題。比如把每個不同類型的機器人按它的方式采集真機數(shù)據(jù),集合在一起訓練一個模型作為機器人大腦。這種方式是不可能達到通用性的,而且過程中不需要理解周圍環(huán)境、物理規(guī)律、世界是什么。

以人為中心,新的具身智能研究范式

趙何娟:你覺得現(xiàn)在的轉變或者說你們新的想法,最大的瓶頸或困難是什么?

王曉剛:我覺得首先研究范式要做出轉變。

我們提出來,從以機器為中心變成以人為中心。你先不要去管機器,先去觀察人是怎么完成各種任務、各種活動的。現(xiàn)在有各種穿戴式設備、AI眼鏡、第一視角攝像頭,在胸前、手上、周圍可以裝各種傳感器。去年巴黎奧運會乒乓球和籃球比賽,我們周圍安排傳感器,直接能分析運動員怎么打球、球速什么樣,看人是怎么學習和運動的。將來還要放人的力分析、觸覺、摩擦力等信息。

這個模型需要理解物理規(guī)律,人跟物理世界、環(huán)境相結合時產(chǎn)生的物理規(guī)律是什么。打開冰箱門想拿一瓶水、穿衣服,接觸的這些物理世界的規(guī)律是什么。在這個過程中,世界模型要經(jīng)過一系列算法改變,理解物理世界,合成物理世界里各種人和機器產(chǎn)生的活動,甚至能預測。

今天大家也意識到VLA這套東西走不出來,但可能還沒有意識到應該從以機器為中心變成以人為中心。

所以今年8、9月份,特斯拉說以前靠真機操作,現(xiàn)在要變成通過視覺、戴第一視角眼鏡采集數(shù)據(jù)。好處是采集效率很高,真機操作效率很低,而且不能在真實生產(chǎn)、生活環(huán)境中做復雜活動。十幾分鐘甚至一小時的長程復雜活動,靠操作真機沒法完成。但有了以人為中心的記錄人活動,穿戴設備在家庭生活、辦公室裝傳感器,就能長期記錄人行為。

但即便這樣,大家對這件事的認知還停留在視覺上,但人對物理世界的交互不止于視覺,還有力、觸覺、人體工學等研究。這就是為什么特斯拉和Figure AI會想到用視覺方案,因為視覺最簡單,能記錄人類行為,他們在自動駕駛里取得了成功。但自動駕駛跟機器人有很大不一樣,自動駕駛是避免物理接觸,機器人必須進行物理接觸。

光用視覺做物理接觸,比如拿一瓶水放這兒,動作是先拿起來、移動、放下。但真正的人可能推一下,因為知道摩擦力,知道使多大勁能把它從位置A推到位置B。很多行為,人的行為跟機器人不一樣。如果我們未來能以人為中心,新的研究范式就能讓機器人大腦真正理解物理世界。這樣的大腦永遠不可能只靠讀文章、看圖片理解物理世界,這是研究范式根本的改變。

趙何娟:挺有道理的。

從研究或者說智能的來源,過去是由機器搜集數(shù)據(jù)來的,不管是人工標注也好,都是機器收集的數(shù)據(jù)。到現(xiàn)在可能更多要通過人自己收集數(shù)據(jù),以及怎么去觀察人。

但這里有個很大的問題:人的行為不是單一的。比如我的手去碰觸話筒、握東西、拿東西,它是跟大腦連接的,行為數(shù)據(jù)里面不僅有手觸碰的物理數(shù)據(jù)本身,還連通大腦神經(jīng)數(shù)據(jù)的變化。如果說我們做世界模型或機器人模型分析,我只有手這部分數(shù)據(jù),怎么分析手這部分數(shù)據(jù)的反饋機制?因為我不能分析大腦,但我們實際要做的是機器人的大腦本身。

王曉剛:所以就是要聯(lián)合在一起。

趙何娟:我們怎么聯(lián)合?我們怎么解決大腦的分析,就是神經(jīng)分析和行為數(shù)據(jù)之間的關系?

王曉剛:這就是大腦小腦的聯(lián)動。

大腦在執(zhí)行任務過程中需要有記憶,有長程的復雜記憶。比如說收拾桌子,有書籍,書原來放在書架上,書架在什么位置,我就要把書放回原來書架位置。大腦得記住書在書架的什么位置、怎么擺放。

機器每天接受大量不間斷信息,不可能都記下來,一定要進行挑選。要記跟任務相關的,在物理世界執(zhí)行任務過程中會得到反饋,什么東西任務成功了,就知道當時應該記住什么。在不斷迭代反饋過程中,大腦要進化,能夠有長期記憶。

這只是其中一個例子,還有很多復雜交互都需要。

趙何娟:那怎么解決?除了長期記憶這個當然非常重要的點,怎么解決神經(jīng)分析和行為數(shù)據(jù)之間的關系?

王曉剛:這就是大腦小腦的聯(lián)動。

有些東西看到了就自然反應,比如讓我水平移動一下,條件反射就知道該怎么移動,這就是小腦的指令完成。還有更復雜的任務,要分幾個階段,要去規(guī)劃,這些東西可能就要跟我們互聯(lián)網(wǎng)上的那些數(shù)據(jù)結合。

比如炒菜,先怎么做后怎么做,實際上是有規(guī)劃的,以前積累的互聯(lián)網(wǎng)文章、圖文數(shù)據(jù)是有價值的。所以我們要把數(shù)字世界和物理世界這兩個能夠打破邊界,最后形成強大的機器人。

趙何娟:人的大腦這種邊界怎么打破?現(xiàn)在可能最難的就是怎么研究把這個邊界打破。

王曉剛:我覺得里面肯定還有很長的路要走,大家努力方向也是希望打破邊界。

但要往這個方向努力完成這項工作,首先認知和方向得是對的,要知道現(xiàn)在研究這件事的方向、范式已經(jīng)發(fā)生變化。如果還一直在操作原來那些真機數(shù)據(jù),你是永遠不可能達到目標的。

趙何娟:你這么說是不是意味著人形機器人發(fā)展沒什么前途?

王曉剛:我覺得還是有前途。因為我們的物理世界就是圍繞著人打造的,核心的研究是我們通過人來研究人跟物理世界的關系,把這些智能和知識轉移到人形機器人身上。

趙何娟:把它當實驗品?就是人來收集這些數(shù)據(jù)是否可用?

王曉剛:一旦我們的世界模型、強大的大腦形成以后,它可以指導我們設計人形機器人,怎么設計最能有效實踐大腦意志、實現(xiàn)工作和行為。

現(xiàn)在情況可能相反,我們先設計了一個機器人,實際上沒有大腦,靠它采集各種數(shù)據(jù),背后可能是不工作的,這就是以前走的、現(xiàn)在還在走的方式。

將來可能需要以人為中心,這種方式會打開一扇門。因為過去有很多像工程力學、人體工程學研究了很多關于人的力、人體工學,但這些成果從來沒跟機器人聯(lián)系在一起,原來也不是以人為中心的研究。兩邊沒有關系,但今天產(chǎn)生關聯(lián),我覺得很多這方面的研究成果可以大量進入人工智能領域。

趙何娟:嗯嗯,有道理。但再往前發(fā)展,可能人的數(shù)據(jù)發(fā)展會不會先產(chǎn)生一個大規(guī)模可穿戴市場蓬勃發(fā)展?硬件加AI。

王曉剛:對。

這里面怎么設計?今天特斯拉說要做視覺方案,就會有一批公司做頭部穿戴設備、第一視角。但我們會知道這只是一部分,第一視角看到的東西只是視覺方面,跟物理世界的交互只是單一維度,還有很多其他傳感器可以加進來。

所以隨著對這件事認知不斷深入,這些設備也會不斷豐富。不光有穿戴的,還有周圍環(huán)境建立的傳感器,能夠觀察我們的行為。

趙何娟:你剛才多次提到傳感器。是不是意味著我們這么多年一直在以視覺為核心的智能發(fā)展,也走到了瓶頸?視覺不是唯一方式了,傳感器本身會不會有新的突破?

王曉剛:未來人工智能發(fā)展,像OpenAI提出來的是"環(huán)境計算"。

未來人工智能像空氣一樣存在周圍環(huán)境中。今天的人工智能要打開手機、電腦、APP才能激活,發(fā)出請求給ChatGPT,它才回答。但將來不是這樣,模型一直在分析,當我需要什么時主動提供服務。所以核心第一個是計算芯片,加上各種豐富的AI傳感器,再加上模型,這三個要素構成未來人工智能新體驗。

趙何娟:有意思。相當于剛才說到了兩個可能新興發(fā)展的產(chǎn)業(yè),一個是可穿戴,過去就有,但在新AI浪潮里可能迎來大機會;第二個是智能傳感器。智能傳感器這塊中國發(fā)展規(guī)模和程度怎么樣?

王曉剛:過去AI傳感器發(fā)展速度遠低于計算芯片。主要我覺得還是沒有把里面的價值充分發(fā)掘出來,沒有看到前景。

以前我們跟合作伙伴設計過三層AI傳感器:第一層光學感知層,信號進來變成模擬信號;第二層數(shù)字計算,數(shù)字化處理;第三層把AI引擎、AI模型放到傳感器里。以前AI大模型放在云端,后來放手機上,現(xiàn)在放在小小傳感器里,鋪滿生活環(huán)境各個角落。如果人工智能發(fā)展是環(huán)境式計算,AI傳感器會占據(jù)重要位置,這是巨大機會。

就像之前做CPU、GPU是萬億級市場,傳統(tǒng)做傳感器的也很多。將來有了各種人工智能傳感器,會產(chǎn)生又一個巨大賽道。

趙何娟:人工智能傳感器變化的核心也是芯片驅動嗎?

王曉剛:對,這是要模型和芯片有非常緊密結合。

趙何娟:那這是不是意味著中國繼續(xù)往前發(fā)展的很大機會?

王曉剛:這是非常巨大的機會,AI和傳感器結合。我們有傳感器,而且跟其他國家相比,我們的AI發(fā)展還是非??斓?。有很多場景驅動,蘊藏機會,而且跟機器人密切相關。

想象機器人進入家庭,安全性非常重要。給老人遞水不能是燙的,給食物必須是新鮮的。如果出問題,像自動駕駛有主動安全、有責任方。機器人到家要確保小孩靠近時不產(chǎn)生碰撞,皮膚要能感受距離、產(chǎn)生避障。所有這些離不開智能化傳感器,應用空間非常大。

趙何娟:接下來發(fā)展是不是意味著剛才講到的數(shù)據(jù)、范式改變,還有一個很核心就是算力、芯片?包括智能傳感器、新機器人大腦,都要有算力驅動、芯片驅動。

中國現(xiàn)在又在大量國產(chǎn)化,推動自主知識產(chǎn)權和自主可控的芯片產(chǎn)業(yè)發(fā)展。您覺得中國現(xiàn)在國產(chǎn)芯片發(fā)展階段,在驅動智能傳感器、新機器人大腦這些方向上,現(xiàn)在處于什么水平?夠嗎?

王曉剛:發(fā)展非???。但今天可能面臨或要解決的最大問題是生態(tài)問題,軟件生態(tài)。

英偉達應該超過一半是軟件工程師,CUDA有生態(tài)。今天單純看算力指標都非常好,幾百T的算力,追趕比較快。但要把算力轉換為實際計算結果和效率,就存在模型適配問題。現(xiàn)在AI發(fā)展,新模型層出不窮,大家都想領先。有了模型后,如果花幾個月時間進行新模型適配,開發(fā)者是等不及的。

以前市場上比較多的是英偉達GPU,已經(jīng)做了很好適配,開發(fā)出來的模型自然跟英偉達芯片適配好。但今天其他芯片要花時間適配,所以接下來開源生態(tài)會變得非常重要。開源后才有更多社區(qū)的人使用模型,模型跟哪個芯片適配得好,哪個芯片使用起來就更方便。將來開源也是推動國產(chǎn)AI發(fā)展自主可控非常重要的方面。

這個月我們已經(jīng)開源世界模型(開悟世界模型3.0),而且是持續(xù)更新迭代,提升社區(qū)影響力。這個模型會和各種國產(chǎn)芯片適配。

趙何娟:模型要跟芯片適配,相當于軟件上的適配。這種適配過程是你們的團隊完成還是芯片團隊完成?共同機制是什么?

王曉剛:因為芯片底層有很多底層軟件,怎么樣調(diào)度算力。我們在模型層面怎么樣去優(yōu)化算子實現(xiàn),是我們來做。所以兩邊要共同努力,基本上要根據(jù)硬件不同重新設計算法,達到比較高效。

趙何娟:正好說到你們現(xiàn)在做的大曉機器人公司。大曉機器人做的具身智能跟其他公司,比如說在模型和芯片磨合、選擇范式上有什么區(qū)別?從大曉機器人本身現(xiàn)在在做的產(chǎn)品方向來說,它跟其他具身智能產(chǎn)品有什么不同?

王曉剛:我覺得有兩點。首先技術路線上有新的技術路線,第二點是對產(chǎn)品化和場景的理解。

第一點上,大家可能不知道,今年年初我們的團隊(劉子緯教授)發(fā)布了叫EgoLife的數(shù)據(jù)集,記錄了人在生活當中的常識行為300個小時。這個數(shù)據(jù)集,像Yann LeCun(楊立昆)他們就基于這個數(shù)據(jù)集建了具身世界模型。

這個工作實際上在今年年初數(shù)據(jù)集就發(fā)布了,那時候我們已經(jīng)提出環(huán)境式采集這個概念。所以我們走在行業(yè)前面,我們的環(huán)境式采集加上世界模型,再加上具身基模型,這三部分組合在一起構成我們的研究范式,我們叫ACE,就是以人為中心的新的研究方式。

我們的世界模型有獨特特點,分三部分:第一部分是多模態(tài)融合理解,有各種攝像頭、3D軌跡、相機位姿、力、觸覺等,框架可擴展;第二部分是生成模型,能生成各種行為。這個月發(fā)布的開悟平臺里,可以選擇各種機器人本體(智源、宇樹、銀河通用等),告訴它做什么事,就能自由合成機器人完成的視頻和參數(shù),這些可以用來訓練機器人;第三部分是預測,預測機器人操作過程。這就是我們世界模型的三部分。

趙何娟:我可以總結說,開悟世界模型跟傳統(tǒng)主流VLA這種具身智能模型最大的不同是來自于以人為中心的不同。除了這個不同,還有其他不同嗎?

王曉剛:因為以人為中心就能理解物理規(guī)律。

比如像李飛飛他們做的World Labs,人生成4D世界可以在里面漫游,但沒辦法把目標分開、產(chǎn)生互動,因為使用目的不同。但現(xiàn)在在我們的世界里,可以把桌子換成不同類型,打開冰箱門產(chǎn)生不同交互行為。

我對動靜態(tài)目標、物理世界理解更深刻,可以精準可控、隨便編輯世界元素。這樣就可以把原來一個房間采集的人體數(shù)據(jù),生成成千上萬不同類型戶型、環(huán)境里產(chǎn)生的數(shù)據(jù)。

大家通常用生成式網(wǎng)絡,類似Sora生成視頻。核心是怎么生成,但不強調(diào)前面的世界理解、多模態(tài)融合,所以框架很難拓展。但我們前不久跟南洋理工大學合作的Puffin工作,把相機位置加進去了。給我一張圖片就能倒推相機位姿,如果相機在機器人手腕上,機器人不停動時看到的視頻怎么變化,根據(jù)視頻變化反推機器人做什么動作。這樣物理世界的概念就能在里面形成。

趙何娟:再舉個例子?

王曉剛:比如人跳舞,捕捉人體關鍵點、手的動作,可以轉移到機器人上驅動機器人跳舞。今天能看到一些工作做這樣的事,但相對簡單,只是人自身行為,沒有跟環(huán)境互動。更難的是人拿東西、收拾衣服,這些行為要轉移到機器人身上,就需要更復雜地對物理目標、環(huán)境對象進行建模。

趙何娟:如果未來這些要發(fā)生變化,在這些變化里面,你覺得現(xiàn)在的人才或者培養(yǎng)這些人才能滿足未來需求嗎?

王曉剛:所以我們剛才說以人為中心,打開了一扇門。

原來研究力學、人體工程學的這些人跟機器人沒關系,現(xiàn)在可以納入體系。原來數(shù)據(jù)采集和機器人控制是分開的,今天要更綜合的人才,既要懂模型也要懂運控。采數(shù)據(jù)、布傳感器時就要考慮機器人控制時需要什么信號、部署什么傳感器、用什么數(shù)據(jù)格式,這些都是比較綜合一體的。

趙何娟:這些綜合能夠運控和研究模型、計算機相關的人才,也包括以前根本不在AI賽道上的研究力學、物理學的這些人才。這些人才中國有優(yōu)勢嗎?

王曉剛:有,因為我們有廣泛的人才基礎,還有很多學科,制造業(yè)也非常發(fā)達。實際上有非常好的基礎。今天我們要做的是把未來研究方向、研究體系梳理清楚,讓大家融入里面,最后形成合力,形成綜合性人才體系。

趙何娟:我覺得最難的是怎么把過去已經(jīng)形成的學科體系,通過不同實驗室、不同培養(yǎng)方式、研究機制,讓跨學科人才聚集到一起,用同樣的工作機制協(xié)同,朝一個目標發(fā)展。這是一個巨大的教育挑戰(zhàn)。

王曉剛:所以需要有頂層設計。

趙何娟:誰來做這個頂層設計?企業(yè)還是教育部?

王曉剛:首先我自己有教育背景,是大學教授,團隊很多來自大學,對人才培養(yǎng)有認知。

今天在企業(yè)、工業(yè)第一線,極大提升了我們對行業(yè)發(fā)展、研究路線的認知。它可以反哺教育體系。首先在公司里面,需要跟不同學科專業(yè)的教授或人才合作,讓他們納入公司研發(fā)體系。這是公司的頂層設計。設計好以后反哺學校,在開設交叉學科時應該怎么設計課程。以前很多課程比較老,現(xiàn)在發(fā)展迭代非???。

趙何娟:現(xiàn)在這種機制,通過企業(yè)綜合培養(yǎng)然后反哺高校研究院的機制,現(xiàn)在普遍嗎?

王曉剛:還挺普遍的。特別是在AI發(fā)展的這十年里,越來越多的學生上學期間就到企業(yè)實習。

商湯2014年成立時市場上沒有AI人才,尤其是深度學習人才。你知道2014年1月,谷歌收購了一家公司,沒有任何產(chǎn)品、技術,只有12個深度學習專家,叫DeepMind,說明當時市場上沒有。

所以商湯成立時從高校大量招募實習生,可能一個全職帶十幾個實習生,逐漸培養(yǎng)他們。2021年商湯上市前統(tǒng)計,從2014年到2021年,商湯這么一個不大的公司,自己的實習生大概超過3000人,歷史上培養(yǎng)了超過3000名AI人才。

有的實習生后來去香港中文大學讀博士,博士畢業(yè)又成了教授。我們大曉機器人核心團隊里,相當一部分教授是我的學生,有的在商湯實習過,因為他們又成長起來了。

你可能不知道,我們在香港中文大學是湯老師上世紀90年代成立的MM Lab。后面大家畢業(yè)以后開枝散葉,去了香港大學、清華大學、南洋理工各個地方。這些學生自發(fā)地成了老師,又在那些地方成立MM Lab。所以國內(nèi)好多地方都有MM Lab,傳承是一致的。

今天我們要成立大曉機器人時,新成長起來的這批MM Lab學生變成了老師,有新的知識體系。AI浪潮1.0、2.0、3.0不斷演進,每次產(chǎn)生質(zhì)的跨越都需要創(chuàng)業(yè),創(chuàng)業(yè)是最好的形式推向下一階段。思想和精神傳承,人可能變了,我們做的事情也變了,但愿景沒有變。

湯老師給商湯的愿景是"堅持原創(chuàng),讓AI引領人類的進步",我們一直都走在創(chuàng)新路上。

AI 1.0在小模型時代,作為軟件賦能ToB,在中國比較難。但今天機器人方向,我們最終要輸出軟硬一體的整體產(chǎn)品,要做垂直化整合,這是擺在面前非常重要的機會。

趙何娟:我是不是也可以理解你們也還是會做機器人本體?軟硬一體就是你的本體是跟別人合作的,你是還是輸出軟件?

王曉剛:今天我們說硬件的本體,它關鍵的問題在于它不滿足場景的需求。

首先我們做這個產(chǎn)品,我們深入到各個場景里面去,我知道這個硬件是怎么樣的設計,關鍵的這些部件是怎么樣的。

我們會對他提要求,所以今天我們這么多的合作伙伴,和包括我們的有一些被投的企業(yè),我們在一起的時候,他們也愿意給我們供應零部件、供應本體。那么我們重要的是一起能夠把這個市場能夠去做大,但是我們輸出的不單純是軟件,我們軟硬件是在一起。

機器人這么多的場景,這么多的賽道,空間還是很大的,這是一個幾十萬億的的賽道,給我們有很大的發(fā)展的空間。它的數(shù)量可能是比手機還要多,但是單價可能是跟汽車是一個水平的。

趙何娟:我可以理解為你們現(xiàn)在做的機器人更多往商用和工業(yè)用方向?

王曉剛:第一步可能是ToB會多一些,這也是我們過去的一些優(yōu)勢,對場景的理解。當客戶聽到我們要做機器人,他們非常高興、有期待,覺得我們應該做。因為我們跟他們合作十年,對他們的痛點、要求理解比較深。

趙何娟:正好再講一講機器人發(fā)展態(tài)勢。你覺得大概還需要花多少年或者說多長時間,通用的機器人模型或者通用機器人的ChatGPT時刻能夠實現(xiàn)?

王曉剛:如果要進入家庭成為我們生活一部分的話,其實還需要比較長的時間。核心點在于有很多因素今天可能還沒考慮到,比如安全因素。自動駕駛有主動安全、出事故有責任方。機器人一旦進入家庭,小孩好奇去摸它,給老人孩子遞東西要確保食物水的安全性等等,很多問題今天還沒考慮得非常清楚。

但如果從研究范式上來說,一旦找到正確的研究范式和思路,發(fā)展還是比較快的。

就像自動駕駛,剛開始嘗試不同方向,積累的數(shù)據(jù)到后面看用處都不大。但后面有了端到端自動駕駛,方向對了,數(shù)據(jù)積累就比較快。今天我們?nèi)绻岩匀藶橹行牡倪@套研究范式走通、證明work,積累速度會遠超原來的速度,極大提升產(chǎn)業(yè)發(fā)展。

趙何娟:所以其實最關鍵的一個點,如果讓你說影響通用機器人ChatGPT時刻發(fā)生的最關鍵突破點,你覺得是什么?

王曉剛:我覺得還是研究范式。

趙何娟:你提出了新的范式,是不是意味著只要驗證成功就行?

王曉剛:對,但這個范式下面應該還有很多細節(jié)、具體實踐和工程化要去落實。

趙何娟:Transformer是關鍵里程碑,現(xiàn)在這種理論提出是不是關鍵點?

王曉剛:每個發(fā)展時期都很關鍵。

我們2016、2017年想做端到端自動駕駛,但那時候網(wǎng)絡結構、Transformer還沒出來,算力也不支持。Transformer出來后,信息融合變得簡單、跨模態(tài)。

但接下來還有很多問題,比如理解物理世界需要長期記憶,可能需要新網(wǎng)絡架構、新技術理論。這是產(chǎn)業(yè)和學術互動,具備數(shù)據(jù)場景后,有人就會在這方面發(fā)力,提出新理論促進發(fā)展。

趙何娟:總結一下,這幾年從商湯角度或新成立的大曉機器人走向具身智能產(chǎn)業(yè)方向,你們做的最對的幾件事情?

王曉剛:首先堅持原創(chuàng)、堅持創(chuàng)新理念。

AI在不斷演進,無論受到什么壓力,我覺得這是企業(yè)的生命力。如果沒有這種目標,遇到壓力可能就退出、干別的難事了。但我們肩負著一代人的使命往前推進,背后這些精神動力追求貫穿始終。

第二是對人才的培養(yǎng)。每個時期我們源源不斷有新鮮血液加入,自己培養(yǎng)這些人。最開始市場上根本沒人,整個AI產(chǎn)業(yè)我們在培養(yǎng)人才。我覺得這個也比較關鍵。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為什么英國仍然被認為是世界強國?

為什么英國仍然被認為是世界強國?

霹靂炮
2026-01-06 22:38:17
一口氣搞懂16種酒,吹牛更顯學問

一口氣搞懂16種酒,吹牛更顯學問

混知
2026-01-09 12:27:20
王亞平的安保:吃飯要檢測,出門配警衛(wèi),這種“副國級”待遇是不是小題大作?

王亞平的安保:吃飯要檢測,出門配警衛(wèi),這種“副國級”待遇是不是小題大作?

歷史回憶室
2026-01-06 15:54:12
網(wǎng)友希望召回雀巢奶粉,京東客服回應:小孩喝了后有問題再聯(lián)系

網(wǎng)友希望召回雀巢奶粉,京東客服回應:小孩喝了后有問題再聯(lián)系

PChome電腦之家
2026-01-09 10:52:52
立竿見影!北京晚報昨天報道,宣武醫(yī)院今天行動

立竿見影!北京晚報昨天報道,宣武醫(yī)院今天行動

今日養(yǎng)生之道
2026-01-10 01:19:31
謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
帶孫子和不帶孫子的老人,晚年會有什么區(qū)別?一對比區(qū)別就大了

帶孫子和不帶孫子的老人,晚年會有什么區(qū)別?一對比區(qū)別就大了

人間百態(tài)大全
2025-12-29 06:50:03
買菠菜,要分清“圓葉”和“尖葉”,買錯口感差,沒營養(yǎng)

買菠菜,要分清“圓葉”和“尖葉”,買錯口感差,沒營養(yǎng)

簡食記工作號
2026-01-09 00:14:46
中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

狐貍先森講升學規(guī)劃
2026-01-09 08:09:18
鄭州保利一小區(qū)超兩百戶精裝房成“霉菌房” ,家里一股霉味,地板下全是霉菌,最新回應

鄭州保利一小區(qū)超兩百戶精裝房成“霉菌房” ,家里一股霉味,地板下全是霉菌,最新回應

大風新聞
2026-01-09 17:32:07
為什么民國時期已經(jīng)有電了,后來又點了40年煤油燈?

為什么民國時期已經(jīng)有電了,后來又點了40年煤油燈?

浩舞默畫
2026-01-08 09:37:13
索帥周六面試曼聯(lián)帥位!卡里克獲一巨頭力挺,弗萊徹或帶隊戰(zhàn)曼城

索帥周六面試曼聯(lián)帥位!卡里克獲一巨頭力挺,弗萊徹或帶隊戰(zhàn)曼城

羅米的曼聯(lián)博客
2026-01-10 10:01:43
周生生“黃金四葉草”項鏈一夜?jié)q了1.5萬元,國內(nèi)金飾品牌價格新年第一漲

周生生“黃金四葉草”項鏈一夜?jié)q了1.5萬元,國內(nèi)金飾品牌價格新年第一漲

界面新聞
2026-01-09 23:59:03
財政壓力的下半場:退休人員占比近四成,才是硬賬

財政壓力的下半場:退休人員占比近四成,才是硬賬

超先聲
2026-01-09 16:45:39
老婆敗光20億真相大白10個月,張學友近況引人擔憂,王晶真沒說錯

老婆敗光20億真相大白10個月,張學友近況引人擔憂,王晶真沒說錯

攬星河的筆記
2025-12-29 17:05:48
轟20只是幌子?真正的殺手锏來了!美媒看懵:這才是洲際打擊

轟20只是幌子?真正的殺手锏來了!美媒看懵:這才是洲際打擊

通鑒史智
2026-01-09 12:02:34
斬首馬杜羅的“支奴干”直升機中國也有,為什么至今沒仿制成功?

斬首馬杜羅的“支奴干”直升機中國也有,為什么至今沒仿制成功?

軍武次位面
2026-01-08 18:51:19
制造業(yè)空心化?去年F-35的交付量達到驚人的191架!

制造業(yè)空心化?去年F-35的交付量達到驚人的191架!

隨波蕩漾的漂流瓶
2026-01-08 17:13:16
冰雪旅游持續(xù)升溫 攪“熱”開年消費市場

冰雪旅游持續(xù)升溫 攪“熱”開年消費市場

新華社
2026-01-08 14:46:27
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
2026-01-10 10:40:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
128707文章數(shù) 861604關注度
往期回顧 全部

科技要聞

傳DeepSeek準備第二次震驚全世界

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

體育要聞

楊瀚森:上場時間要去爭取 而不是要求

娛樂要聞

曹西平遺照曝光:靈堂布置過于簡陋

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
時尚
公開課

教育要聞

馬上要出分了!山東2026藝考成績查詢方式及一分一段表!

數(shù)碼要聞

三星Galaxy S26+手機通過認證:額定電池容量4755mAh

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

2026春夏八大流行趨勢

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版