国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話極佳視界朱政:新晉百億獨(dú)角獸,要做物理世界的OpenAI

0
分享至


圖來(lái)自魔搭社區(qū)

極佳視界在具身行業(yè)一直是個(gè)獨(dú)特的存在。

無(wú)論是脫胎于華為的智元機(jī)器人,還是當(dāng)紅炸子雞宇樹(shù)科技,圍繞的還是本體、數(shù)據(jù)采集和感知檢測(cè)等生態(tài),算法研究較少。華為一位具身智能研究員說(shuō),“大家都在賣鏟子,只有極佳在挖金礦”。

至少半年前,在具身領(lǐng)域挖金礦并不被視為一門好生意。當(dāng)宇樹(shù)機(jī)器人在春晚上依靠扭秧歌一炮而紅,智元機(jī)器人量產(chǎn)機(jī)穩(wěn)步走進(jìn)工業(yè)場(chǎng)景時(shí),外界很少會(huì)關(guān)注一個(gè)每年發(fā)布至少數(shù)十篇論文,試圖參透機(jī)器人大腦在物理世界運(yùn)行規(guī)律的公司。

在之前的各種具身智能榜單中,極佳視界鮮有露出。但是在車圈,極佳視界又無(wú)人不曉。理想、小鵬、小米、比亞迪、大眾、奔馳等頭部車企幾乎都是它的客戶,“在自動(dòng)駕駛世界模型領(lǐng)域,幾無(wú)對(duì)手!睒O佳視界的聯(lián)合創(chuàng)始人兼首席科學(xué)家朱政說(shuō)。

車廠掌握絕對(duì)話語(yǔ)權(quán)的產(chǎn)業(yè)體系下,自動(dòng)駕駛只是極佳視界商業(yè)化落地的過(guò)渡場(chǎng)景。真正值得挖掘的金礦,是極佳視界所錨定的物理世界“OpenAI”——具身智能。

先行者總會(huì)率先得到犒賞。過(guò)去三年,極佳在迭代的數(shù)千個(gè)模型里不斷探索邊界,到2026年春節(jié),模型測(cè)試結(jié)果中浮現(xiàn)出新范式:在完成多任務(wù)或few shot訓(xùn)練上,VLA更像是大語(yǔ)言模型早期的BERT模型,無(wú)法Scaling(規(guī);瘮U(kuò)展,通俗理解就是大力出奇跡),世界模型才是下一代的“ChatGPT”。

極佳視界早在2023年成立時(shí)就瞄準(zhǔn)世界模型,國(guó)內(nèi)外幾乎沒(méi)有任何可對(duì)照的坐標(biāo)。這家公司團(tuán)隊(duì)組成,實(shí)際上也符合中國(guó)投資圈的典型審美——?jiǎng)?chuàng)業(yè)團(tuán)隊(duì)出自明星公司,有自己的技術(shù)堅(jiān)持和量產(chǎn)經(jīng)驗(yàn),核心成員紐帶緊密,分工默契。

創(chuàng)始人、CEO黃冠和朱政同出自清華大學(xué)自動(dòng)化系,也是國(guó)內(nèi)最早做機(jī)器人視覺(jué)感知業(yè)務(wù)的大牛級(jí)人物。黃冠是自動(dòng)駕駛芯片公司地平線早期視覺(jué)感知技術(shù)的核心人員,也是一位連續(xù)創(chuàng)業(yè)者。朱政角色更像是技術(shù)舵手,連續(xù)四年入選斯坦福大學(xué)的“全球前2%頂尖科學(xué)家榜單”,今年3月還被阿里魔搭社區(qū)評(píng)選為EAI具身先鋒人物TOP20。

另一位創(chuàng)始人孫韶言曾任阿里云總監(jiān)、地平線數(shù)據(jù)閉環(huán)產(chǎn)品線總經(jīng)理,副總裁毛繼明曾是百度Apollo仿真技術(shù)負(fù)責(zé)人。

去年10月,極佳視界獲得華為哈勃的投資,此后估值便一路飆升。據(jù)了解,僅2026年前三個(gè)月,極佳視界已連續(xù)完成三輪融資,估值較此前翻升三倍,迅速躋身百億獨(dú)角獸行列。

以下是《白鯨實(shí)驗(yàn)室》和朱政的對(duì)話,為了文本閱讀方便,我們做了精簡(jiǎn)處理。

01

VLA模型Scaling失效了

白鯨實(shí)驗(yàn)室:從去年十月開(kāi)始,你們的融資節(jié)奏很快,基本上一個(gè)月封閉一輪。我了解到你們今年3個(gè)月估值已經(jīng)翻了3倍,現(xiàn)在也躋身百億估值獨(dú)角獸。投資人到底在為什么敘事激動(dòng)?

朱政:具身領(lǐng)域的世界模型,比語(yǔ)言模型整體發(fā)展節(jié)奏上要晚幾年,但發(fā)展邏輯大致相似。從資本角度上看,隨著國(guó)內(nèi)上市的智譜、MiniMax市值上漲到2000-4000億人民幣,資本看好世界模型再造個(gè)千億市值的公司。

從技術(shù)上看,世界模型來(lái)到了拐點(diǎn)時(shí)刻,F(xiàn)在流行的VLA模型(vision—language- action),不管自動(dòng)駕駛還是具身領(lǐng)域,更像是早期的BERT模型(谷歌2018年推出的,在ChatGPT走紅之前,BERT是NLP時(shí)代最具標(biāo)志性的模型),大家意識(shí)到世界模型才是接下來(lái)的GPT,即將迎來(lái)新一輪的爆發(fā),這兩年增速會(huì)非?。

我們做過(guò)很多實(shí)驗(yàn)發(fā)現(xiàn),VLA在數(shù)據(jù)Scaling上面比較低效。

世界模型更容易實(shí)現(xiàn)Scaling,我們給世界模型加到數(shù)十萬(wàn)小時(shí)的數(shù)據(jù),在一些簡(jiǎn)單的多任務(wù)的表現(xiàn)上,有80、90%成功率,已經(jīng)超過(guò)VLA的60、70%。這是我們最近一個(gè)最重要的發(fā)現(xiàn)。

白鯨實(shí)驗(yàn)室:這個(gè)是共識(shí)嗎?

朱政:可能有同行已經(jīng)發(fā)現(xiàn)了,但還沒(méi)人對(duì)外講。

在對(duì)比實(shí)驗(yàn)中,當(dāng)把VLA預(yù)訓(xùn)練的數(shù)據(jù),從一萬(wàn)小時(shí)加到數(shù)十萬(wàn)小時(shí),Scaling效果比較緩慢,F(xiàn)在VLA,需要針對(duì)單一的業(yè)務(wù)場(chǎng)景收集非常多的訓(xùn)練數(shù)據(jù),做后訓(xùn)練。

比如為了學(xué)會(huì)沖咖啡、疊衣服、倒水,會(huì)給它單一業(yè)務(wù)的數(shù)據(jù)做后訓(xùn)練。這樣成功率會(huì)比較高,基本上接近百分百。但這樣的模型沒(méi)有泛化能力,一個(gè)模型只能干一件事,換個(gè)任務(wù),需要再重新后訓(xùn)練。

第二,VLA模型沒(méi)有zero shot、few shot或者one shot能力。當(dāng)針對(duì)一些特殊場(chǎng)景,模型后訓(xùn)練數(shù)據(jù)只有一條或者幾條時(shí),模型也能迅速學(xué)會(huì)這個(gè)場(chǎng)景技能。世界模型在這方面很有潛力,只要給出幾條數(shù)據(jù),就能有不錯(cuò)的表現(xiàn)。

這個(gè)春節(jié)前后,我們基本上斷定,世界模型會(huì)代替VLA。

白鯨實(shí)驗(yàn)室:業(yè)內(nèi)很多人包括宇樹(shù)的王興興就曾質(zhì)疑VLA表現(xiàn)不好,不過(guò)后來(lái)遭到理想汽車自動(dòng)駕駛研發(fā)副總裁郎咸朋(現(xiàn)已離職)的反駁,他說(shuō)VLA就是自動(dòng)駕駛最好的模型方案,也是通往下一代機(jī)器人系統(tǒng)的通用架構(gòu),世界模型只是VLA的“考場(chǎng)”。你怎么看?

朱政:自動(dòng)駕駛場(chǎng)景下的VLA和世界模型的差別,跟具身不一樣。因?yàn)樽詣?dòng)駕駛行業(yè)有海量的數(shù)據(jù)訓(xùn)VLA,而且自動(dòng)駕駛的任務(wù)多是單一任務(wù),VLA模型可以完成的很好。

而具身場(chǎng)景下,機(jī)器人完成的通常是多任務(wù),以及泛化場(chǎng)景,我認(rèn)為世界模型更有優(yōu)勢(shì)。

從第一性原理上看,VLA本質(zhì)是多模態(tài)模型,它的預(yù)訓(xùn)練范式就是圖文對(duì)的匹配,把所有輸入映射成語(yǔ)言,導(dǎo)出action。語(yǔ)言對(duì)action幫助不大。一個(gè)最直接的例子是許多動(dòng)物也沒(méi)有自己的語(yǔ)言系統(tǒng),但也不妨礙它的運(yùn)動(dòng)能力。

只不過(guò)現(xiàn)在語(yǔ)言模型、多模態(tài)模型比較發(fā)達(dá),現(xiàn)在市場(chǎng)通用做法是繼承多模態(tài)模型的訓(xùn)練權(quán)重,再利用機(jī)器人數(shù)據(jù)訓(xùn)練action能力,我們認(rèn)為這個(gè)方式上限有限,用視頻生成方式,也就是世界模型訓(xùn)練可以實(shí)現(xiàn)更好的效果。

白鯨實(shí)驗(yàn)室:聽(tīng)起來(lái)這個(gè)結(jié)論得出并不難,為什么大家之前不敢下這個(gè)判斷?

朱政:現(xiàn)在大部分VLA,是通過(guò)后訓(xùn)練做單一任務(wù)。增加預(yù)訓(xùn)練數(shù)據(jù)的同時(shí),再通過(guò)后訓(xùn)練,確實(shí)能讓單一任務(wù)的成功率往上提。大家對(duì)VLA關(guān)注點(diǎn)還停留在單一任務(wù)的完成上,很少有人去嘗試多任務(wù)和few shot的訓(xùn)練,在多任務(wù)和few shot的訓(xùn)練上,很多人很快會(huì)發(fā)現(xiàn)問(wèn)題。

白鯨實(shí)驗(yàn)室:你們覺(jué)得在資本市場(chǎng)上受歡迎,是因?yàn)閿?shù)據(jù)的嘗試?

朱政:不只是數(shù)據(jù),最重要的還是模型架構(gòu)。如果沒(méi)人研究出GPT模型,都用BERT模型。數(shù)據(jù)再多,也無(wú)法Scaling,這是VLA模型和世界模型最本質(zhì)的差別。

白鯨實(shí)驗(yàn)室:小鵬汽車今年3月推出第二代VLA,去掉中間的language轉(zhuǎn)譯,被視為探索物理模型的新范式。你們?cè)趺蠢斫夂蛥^(qū)分VLA和世界模型?

朱政:小鵬汽車的第二代VLA已經(jīng)接近世界模型了。VLA和世界模型的區(qū)別還是基模不同,VLA的基模是VLM,由LLM衍生出的視覺(jué)模型。本質(zhì)上是它更傾向于看見(jiàn)畫(huà)面,理解成語(yǔ)言然后映射動(dòng)作。

而世界模型的基模是視頻生成模型,是基于一段視頻或者狀態(tài),預(yù)測(cè)和推演下一個(gè)畫(huà)面。

白鯨實(shí)驗(yàn)室:2025年的風(fēng)口是VLA ,今年開(kāi)始轉(zhuǎn)向世界模型,但目前世界模型技術(shù)路線分歧還挺大的,你覺(jué)得現(xiàn)在過(guò)于炒作了嗎?

朱政:世界模型的概念其實(shí)很早就出現(xiàn)了。上個(gè)世紀(jì)說(shuō)的世界模型,主要是說(shuō)機(jī)器人本體對(duì)外部世界的建模,類比人在自然界的生存,需要對(duì)世界怎么演進(jìn)有基本的認(rèn)識(shí)和判斷,機(jī)器人也需要對(duì)世界的基本認(rèn)識(shí),做出預(yù)測(cè)和研判。

從應(yīng)用場(chǎng)景上看,很多產(chǎn)品也可以稱之為世界模型。有時(shí)候,SORA也自稱為世界模型。圖靈獎(jiǎng)得主Yann Lecun做的是對(duì)隱空間的預(yù)測(cè),也稱為世界模型,李飛飛做單圖可以生成3D世界,人可以在里面自由漫游,因?yàn)榘A(yù)測(cè)能力,她也稱之為世界模型。

上面提到的這幾個(gè)世界模型還是通用場(chǎng)景,我們主要關(guān)注還是自動(dòng)駕駛和具身領(lǐng)域的世界模型,確實(shí)世界模型比較有潛力,所以覺(jué)得大家關(guān)注屬于正常。

白鯨實(shí)驗(yàn)室:?jiǎn)栆粋(gè)略顯套路的問(wèn)題,在技術(shù)轉(zhuǎn)身中,更加堅(jiān)定的是什么?

朱政:更加堅(jiān)定的是,世界模型才是最后的出路。無(wú)論自動(dòng)駕駛還是具身領(lǐng)域,當(dāng)前世界模型比較成熟的應(yīng)用都是在一線的生成數(shù)據(jù),各種數(shù)據(jù)的泛化。

我們推進(jìn)世界模型,主要做兩塊,一是Action world model,在世界模型上疊加各種x condition后,跟強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),作為強(qiáng)化學(xué)習(xí)的一個(gè)閉環(huán)模擬器。

大家都知道強(qiáng)化學(xué)習(xí)對(duì)具身或自動(dòng)駕駛是非常重要的,之前做的更偏向真機(jī)強(qiáng)化學(xué)習(xí),效率比較低,也比較危險(xiǎn)。世界模型和真機(jī)強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),可以為強(qiáng)化學(xué)習(xí)提升 Scaling效率,也可以拿世界模型來(lái)做evaluator,代替真機(jī)的評(píng)測(cè)。這個(gè)世界模型主要是服務(wù)VLA,因?yàn)檫@部分工業(yè)場(chǎng)景或泛服務(wù)場(chǎng)景最先落地還是VLA。

第二個(gè)就是大家講的WAM(World Action Model)。用世界模型直接出動(dòng)作代替掉VLA。這個(gè)主要是面向家庭場(chǎng)景。

白鯨實(shí)驗(yàn)室:所以第一個(gè)模型相當(dāng)于是第二個(gè)模型的過(guò)渡嗎?

朱政:對(duì),第一個(gè)既是過(guò)渡,也是終局,因?yàn)榉抡嫫骱苤匾?/p>

白鯨實(shí)驗(yàn)室:有沒(méi)有逐漸祛魅的?

朱政:就是VLA的上限確實(shí)容易飽和。

02

要做物理世界OpenAI

白鯨實(shí)驗(yàn)室: 2023年6月,當(dāng)時(shí)生成式AI還沒(méi)有爆發(fā),你們當(dāng)時(shí)就all in世界模型,是看到什么具體信號(hào)嗎?

朱政:22年底,ChatGPT出來(lái)后,我們?cè)囉眠^(guò)很多次,認(rèn)為這會(huì)徹底改變所有的游戲規(guī)則。我們是做視覺(jué)出身的,當(dāng)時(shí)就想著如何利用ChatGPT的技術(shù)思路,做一個(gè)視覺(jué)版的GPT。

白鯨實(shí)驗(yàn)室:你們做融資的同學(xué)也提到,你們想要成為物理世界的OpenAI,這給我的印象你們確實(shí)是一個(gè)野心很大的團(tuán)隊(duì)。

朱政:是的,我可以非常直白的說(shuō),24年估值還只有十億時(shí),我們就有這種目標(biāo)。當(dāng)時(shí)為了對(duì)標(biāo)大語(yǔ)言模型的OpenAI,我們當(dāng)時(shí)定的目標(biāo)是千億估值。

到今天還是這個(gè)目標(biāo),雖然現(xiàn)在估值到了100億,還遠(yuǎn)未實(shí)現(xiàn)目標(biāo)。MiniMax 、智譜現(xiàn)在市值2000-4000億人民幣,我們認(rèn)為自己是可以和它們對(duì)標(biāo)的。

白鯨實(shí)驗(yàn)室:今年以來(lái),好多都在轉(zhuǎn)向世界模型。怎么判斷你們研究的是GPT,其他的人不是GPT呢?

朱政:23年,無(wú)論業(yè)界還是學(xué)術(shù)界,都很少探索世界模型時(shí),我們就開(kāi)始做世界模型,當(dāng)時(shí)落地比較成熟的是自動(dòng)駕駛。為了做好世界模型,同時(shí)也做了許多VLA模型。

白鯨實(shí)驗(yàn)室:你覺(jué)得你們最先跑出來(lái)的優(yōu)勢(shì)是什么?

朱政:我覺(jué)得最重要的因素是我們做的比別人久,踩的坑也多。因?yàn)槟P褪切枰罅坑?xùn)練,沒(méi)人敢說(shuō)一次訓(xùn)練就成功。很可能99%的模型都是失敗的。只有剩下的1%的模型才能提供正確的方向,校正模型路線。這對(duì)團(tuán)隊(duì)要求很高,也是非常細(xì)致的功夫,是需要經(jīng)驗(yàn)積累的。

白鯨實(shí)驗(yàn)室:你們做過(guò)多少次實(shí)驗(yàn)?

朱政:算上VLA模型和世界模型,我們訓(xùn)練了幾千個(gè)模型。(成立不到3年,這樣算下來(lái)每天至少要訓(xùn)練出一個(gè)模型)

白鯨實(shí)驗(yàn)室:創(chuàng)業(yè)以來(lái),有讓你始料未及的嗎?

朱政:我想想,我們剛開(kāi)始時(shí)還是受自動(dòng)駕駛的影響比較大,沒(méi)想到具身智能行業(yè)會(huì)這么火。

自動(dòng)駕駛其實(shí)是我們的一個(gè)舒適區(qū)。我們非常了解車企,需要什么樣的數(shù)據(jù)和閉環(huán)仿真器,交流無(wú)障礙。公司營(yíng)收每年大概有幾千萬(wàn),當(dāng)時(shí)的產(chǎn)品線、技術(shù)比較收斂,交付的也快。

當(dāng)我們幾乎和所有頭部車企合作后,發(fā)現(xiàn)自動(dòng)駕駛是存量生意,具身智能可能是是未來(lái)更有想象力的一件事情。24年下半年開(kāi)始把重心傾斜到具身智能。

但具身對(duì)我們來(lái)講,確實(shí)是一個(gè)全新的市場(chǎng),和傳統(tǒng)車企不一樣。當(dāng)時(shí)的具身行業(yè)只有本體制造商,如宇樹(shù)、眾擎、星動(dòng)紀(jì)元,本身也都是創(chuàng)業(yè)公司,機(jī)器人也沒(méi)像汽車成為標(biāo)準(zhǔn)產(chǎn)品,即使到現(xiàn)在機(jī)器人還沒(méi)有量產(chǎn),部分處在半量產(chǎn)的階段。

大腦可能更明顯。行業(yè)此前主要做小腦比較多,擅長(zhǎng)運(yùn)動(dòng)控制,類似翻跟頭、跳舞、跑步等動(dòng)作。大腦還處在一個(gè)初步探索的早期階段,我們其實(shí)也是從零開(kāi)始做,同時(shí)做VLA和世界模型,中間踩了很多坑。

白鯨實(shí)驗(yàn)室:踩了很多的坑,是指什么?

朱政:我覺(jué)得最大的坑是一開(kāi)始沒(méi)有做本體,采用一腦多型的戰(zhàn)術(shù),即用一個(gè)大腦去適配所有的本體。

一開(kāi)始,我們幾乎嘗試了市面上的所有機(jī)器人本體,采集數(shù)據(jù),訓(xùn)練模型,后來(lái)我發(fā)現(xiàn)這個(gè)戰(zhàn)術(shù)實(shí)在太激進(jìn)了,純粹是給自己添堵。一方面訓(xùn)練VLA或世界模型其實(shí)離不開(kāi)本體,因?yàn)槟阈枰帽倔w采集數(shù)據(jù)。

另一方面,還有一個(gè)很現(xiàn)實(shí)的問(wèn)題,市面上的本體雖然會(huì)開(kāi)放各種API接口,但各種底層的設(shè)計(jì)是不會(huì)對(duì)外開(kāi)放的,底層的很多設(shè)計(jì),即使覺(jué)得不合理,也只能接受。

我們最后決定,收斂到一腦一型,自己造本體,用自研本體采集數(shù)據(jù),再將訓(xùn)出來(lái)的模型部署在自研本體上。這樣可以給用戶最好的體驗(yàn)。

白鯨實(shí)驗(yàn)室:當(dāng)時(shí)這個(gè)階段用了多久?

朱政:我們大概折騰了將近半年的時(shí)間吧。

白鯨實(shí)驗(yàn)室:當(dāng)時(shí)業(yè)內(nèi)在這方面還沒(méi)有形成共識(shí)?

朱政:我覺(jué)得每個(gè)行業(yè)都會(huì)存在類似的問(wèn)題。行業(yè)剛興起時(shí),大家都會(huì)抱以極大的熱情解決終極問(wèn)題,即一腦多型的問(wèn)題,希望自己的算法可以跑在任意一臺(tái)本體上,不依賴于特定的本體。

就像安卓系統(tǒng)一樣,可以跑在不同的手機(jī)平臺(tái)上。做技術(shù)的人容易過(guò)度的樂(lè)觀,覺(jué)得技術(shù)可以改變一切,一上來(lái)就解決最終極的問(wèn)題。很快,人會(huì)冷靜下來(lái)。

白鯨實(shí)驗(yàn)室:在晚點(diǎn)的報(bào)道中,2025年賈鵬從理想出來(lái)創(chuàng)辦至簡(jiǎn)具身公司時(shí),理想汽車CEO對(duì)他說(shuō),第一個(gè)做的大概率會(huì)死,但做成的會(huì)屬于第一批的人。你們算是國(guó)內(nèi)最早開(kāi)始做世界模型的,會(huì)有這種壓力嗎?

朱政:完全沒(méi)有,因?yàn)閰⒖颊Z(yǔ)言模型、多模態(tài)模型的進(jìn)展,我覺(jué)得市場(chǎng)會(huì)獎(jiǎng)勵(lì)先行者的。

白鯨實(shí)驗(yàn)室:會(huì)擔(dān)心出現(xiàn)大語(yǔ)言模型里的“DeepSeek效應(yīng)”嗎?

朱政:DeepSeek R1出來(lái)后,語(yǔ)言模型六小虎,大概分成兩派。第一派就是放棄做基模,轉(zhuǎn)向其他的垂直領(lǐng)域。另外一派是迎難而上,他們相信DeepSeek能干出來(lái),自己也能干出來(lái)。我們屬于后者。

白鯨實(shí)驗(yàn)室:你們更想成為大語(yǔ)言模型第一梯隊(duì)里的誰(shuí)?Kimi、智譜還是MiniMax?

朱政:語(yǔ)言模型可能會(huì)分化比較嚴(yán)重,有的模型比較適合做coding,有的模型可能比較適合做agent,有的模型各項(xiàng)能力比較綜合。

現(xiàn)在具身基模還沒(méi)到談?wù)撨@一步的時(shí)候。它現(xiàn)在最大的問(wèn)題是還沒(méi)有出現(xiàn)涌現(xiàn)能力,它的泛化能力還沒(méi)有辦法達(dá)到人們的基本要求,F(xiàn)在談這事還比較遙遠(yuǎn)。

所以未來(lái)大家的具身基模會(huì)更有自己的特性。有的具身基模做菜做特別好吃,法餐、中餐八大菜系都會(huì)做。有的機(jī)器人擅長(zhǎng)打掃房間、做家務(wù)活。有的特別適合做養(yǎng)老陪護(hù)、照顧老人。我判斷可能在2028年會(huì)有一個(gè)初步的答案。

03

把數(shù)據(jù)統(tǒng)一起來(lái)訓(xùn)練模型

白鯨實(shí)驗(yàn)室:去年十月,我和智元機(jī)器人姚卯青院長(zhǎng)聊時(shí),他提到行業(yè)大部分用的還是真機(jī)數(shù)據(jù),占到9成以上,仿真數(shù)據(jù)占比非常小。這個(gè)比例有變化嗎?

朱政:目前大家對(duì)于真機(jī)數(shù)據(jù)占比還沒(méi)有統(tǒng)一的結(jié)論。針對(duì)不同場(chǎng)景,比例是可以動(dòng)態(tài)變化的。

有些泛化性要求特別高的,比如說(shuō)光照變化,那就需要更多的仿真數(shù)據(jù)來(lái)模擬光照的變化。有些場(chǎng)景不需要那么多泛化數(shù)據(jù),真機(jī)數(shù)據(jù)直接訓(xùn)就可以。

白鯨實(shí)驗(yàn)室:我記得你們?nèi)ツ臧l(fā)布模型GigaBrain-0時(shí)提到,仿真數(shù)據(jù)占到九成,泛化能力會(huì)提升很多。

朱政:當(dāng)時(shí)真機(jī)數(shù)據(jù)積累的比較少,整個(gè)數(shù)據(jù)只有幾千小時(shí)。我們使用真機(jī)數(shù)據(jù)只占了10%,其余9成是世界模型生成數(shù)據(jù)。我們最新版本GigaBrain-0.5,因?yàn)槲覀兎e累的真機(jī)數(shù)據(jù)有幾萬(wàn)個(gè)小時(shí),占比提升到40%,世界模型數(shù)據(jù)占比60%。

白鯨實(shí)驗(yàn)室:世界模型生成的訓(xùn)練數(shù)據(jù)和采集的真機(jī)數(shù)據(jù)相比,在模型的泛化能力上差異有多大?

朱政:這個(gè)主要看測(cè)試集怎么定義。

假如你的測(cè)試集上的任務(wù)訓(xùn)練的都是真機(jī)數(shù)據(jù)沒(méi)有見(jiàn)過(guò)的任務(wù),比如某些泛化要求比較高的場(chǎng)景,疊衣服,顏色、紋理、光照頻繁變化,世界模型數(shù)據(jù)對(duì)提升泛化性肯定更好。

白鯨實(shí)驗(yàn)室:去年11月Generalist發(fā)布了一個(gè)具身模型,它當(dāng)時(shí)用了27萬(wàn)小時(shí),你們做的基,F(xiàn)在GigaBrain-0.5才用幾萬(wàn)小時(shí)。是不是和國(guó)外具身模型差距很大?

朱政:我覺(jué)得VLA模型不存在這個(gè)問(wèn)題。就像剛才講的,我們其實(shí)給VLA增加很多數(shù)據(jù),但是發(fā)現(xiàn)它比較低效。更多數(shù)據(jù)訓(xùn)世界模型才更合理。

白鯨實(shí)驗(yàn)室:現(xiàn)在許多數(shù)據(jù),既有遙操作數(shù)據(jù),去年UMI數(shù)據(jù)也很火,你們主要使用的是哪類數(shù)據(jù)?

朱政:上面提到的幾十萬(wàn)小時(shí)數(shù)據(jù)主要是真機(jī)數(shù)據(jù)。現(xiàn)在市場(chǎng)上對(duì)數(shù)據(jù)的注意力轉(zhuǎn)移很快。去年因?yàn)槭躍unday影響,大家對(duì)UMI數(shù)據(jù)關(guān)注度很高,最近英偉達(dá)發(fā)布的研究帶火了Ego數(shù)據(jù)(人類作為第一視角搜集到的視頻)。

我們對(duì)各種數(shù)據(jù)都持開(kāi)放態(tài)度,期望能統(tǒng)一遙操數(shù)據(jù)、UMI數(shù)據(jù)、世界模型數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和Ego數(shù)據(jù),訓(xùn)練世界模型。

白鯨實(shí)驗(yàn)室:統(tǒng)一的難度是什么?

朱政:每種數(shù)據(jù)定義的空間、數(shù)據(jù)格式都不一樣,重點(diǎn)是重定向。比如你把UMI數(shù)據(jù)、Ego數(shù)據(jù),全都映射到機(jī)械臂上,機(jī)械臂、手腕怎么映射。想讓這些數(shù)據(jù)互補(bǔ),統(tǒng)一起來(lái)非常困難,F(xiàn)在我們正在嘗試解決這個(gè)問(wèn)題。

我們不可能什么數(shù)據(jù)火了,就迅速轉(zhuǎn)向這個(gè)數(shù)據(jù),其他數(shù)據(jù)就完全不用了。我們認(rèn)為把這些數(shù)據(jù)統(tǒng)一起來(lái),是最好的方式。

04

六邊形戰(zhàn)士更容易成功

白鯨實(shí)驗(yàn)室:你們深入一個(gè)全新的領(lǐng)域,既做VLA又做世界模型。你有過(guò)公司不夠聚焦的時(shí)刻嗎?

朱政:沒(méi)有,我反而覺(jué)得這是優(yōu)點(diǎn)。我們同時(shí)做世界模型和VLA,會(huì)對(duì)兩者的邊界和上限有更清楚的理解,我覺(jué)得這是一種非常好的狀態(tài)。

我們鼓勵(lì)研究員有好奇心和求知欲,沒(méi)有大公司的條條框框約束。實(shí)際上很多創(chuàng)新都是自下而上驅(qū)動(dòng)的,一些VLA和世界模型的原型,甚至是一些非常年輕的剛畢業(yè)同學(xué),實(shí)習(xí)生完成的,大家完全是憑著自身對(duì)技術(shù)的理解和興趣。

白鯨實(shí)驗(yàn)室:世界模型,在具身領(lǐng)域,離真正實(shí)現(xiàn)物理交互還有多遠(yuǎn)?

朱政:現(xiàn)在模型對(duì)于物理規(guī)律的理解,還處在一個(gè)比較初步的階段。它現(xiàn)在能初步理解物理世界的基本規(guī)律,比如摩擦力等等。但是說(shuō)更深層次的因果推理和反事實(shí),還是比較困難。

白鯨實(shí)驗(yàn)室:這有多遠(yuǎn)?

朱政:我對(duì)這個(gè)事比較樂(lè)觀。用不了十年,我覺(jué)得還是近兩年的事。

白鯨實(shí)驗(yàn)室:你們?cè)趺炊x具身基座模型到了GPT3時(shí)刻?

朱政:其實(shí)我們內(nèi)部建了一個(gè)測(cè)試集,覆蓋幾十種場(chǎng)景,數(shù)百種任務(wù)。我們覺(jué)得GPT3時(shí)刻,至少應(yīng)該在幾百種任務(wù)上完成度上達(dá)到95%成功率。這些場(chǎng)景非常綜合,包括工業(yè)場(chǎng)景,服務(wù)場(chǎng)景,市面上能見(jiàn)到的各種demo,能想象到的場(chǎng)景基本上都有。

白鯨實(shí)驗(yàn)室:目前成功率能達(dá)到多少?

朱政:世界模型還沒(méi)有全量任務(wù)測(cè)過(guò)。我們挑部分比較典型的代表性任務(wù)測(cè)試,VLA大概可以做到百分之六七十,世界模型可以做到百分之八九十。

白鯨實(shí)驗(yàn)室:這個(gè)測(cè)評(píng)集會(huì)開(kāi)源嗎?

朱政:后續(xù)會(huì)考慮的。

白鯨實(shí)驗(yàn)室:上個(gè)月,你入選魔搭社區(qū)的EAI Pioneer 20,這些先鋒人物被稱為中國(guó)具身智能中國(guó)坐標(biāo)的刻畫(huà)者。魔搭社區(qū)正在搭建具身智能的開(kāi)源社區(qū),你們之間具體如何合作?

朱政:我們的具身基模開(kāi)源,主要使用者還是國(guó)內(nèi)用戶,如果只是放在Hugging Face上很不方便,我們會(huì)同步放在阿里云的魔搭社區(qū)上。

開(kāi)源是一件對(duì)行業(yè)有益的事情,也能促進(jìn)社區(qū)的發(fā)展,通過(guò)開(kāi)源吸引更多開(kāi)發(fā)者參與,要遠(yuǎn)超過(guò)單一公司力量。我們通過(guò)把模型包括GigaBrain-0、GigaWorld-Policy等都開(kāi)源,上傳到像魔搭社區(qū)的開(kāi)源社區(qū)網(wǎng)站上,帶來(lái)的效果令人驚喜。很多開(kāi)發(fā)者在使用模型的過(guò)程中提供了一些不錯(cuò)的改進(jìn)方法,都被我們吸收進(jìn)代碼庫(kù)了。

白鯨實(shí)驗(yàn)室:今年以來(lái),我看具身賽道分化出兩類創(chuàng)業(yè)者。一類要做六邊形戰(zhàn)士,全棧布局。一類是更聚焦和收縮。你怎么看這種分化?哪一種更容易成功?

朱政:我覺(jué)得做六邊形戰(zhàn)士還是很有必要的。因?yàn)楝F(xiàn)在很多事都還沒(méi)有收斂的地步,至少要充分探索。我們始終覺(jué)得基模機(jī)會(huì)是最大的,而要做基模,本體、場(chǎng)景和數(shù)據(jù)都很重要。

白鯨實(shí)驗(yàn)室:你們做融資的同學(xué)也提到到2028年人型機(jī)器人將迎來(lái)一個(gè)重要的拐點(diǎn),業(yè)內(nèi)判斷可能要更久。

朱政:對(duì),我們認(rèn)為2028年是判斷人形機(jī)器人能否初步進(jìn)入家庭的重要節(jié)點(diǎn)。

因?yàn)楝F(xiàn)在模型泛化性能,剛才講的one shot、few shot能力還不夠,沒(méi)有辦法適應(yīng)家庭的非結(jié)構(gòu)化場(chǎng)景。但是進(jìn)展非?,我們因此判斷,2028年前,就是具身基模單一模型做多任務(wù),以及few shot都可以實(shí)現(xiàn)。

撰寫(xiě)|劉培

編輯|八尺

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
62歲老人查出陰莖癌!他的壞習(xí)慣為所有人敲響警鐘!值得借鑒

62歲老人查出陰莖癌!他的壞習(xí)慣為所有人敲響警鐘!值得借鑒

路醫(yī)生健康科普
2026-03-27 17:42:19
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
文斯·卡特將寄希望于2026年NBA選秀抽簽,為籃網(wǎng)的重建注入動(dòng)力

文斯·卡特將寄希望于2026年NBA選秀抽簽,為籃網(wǎng)的重建注入動(dòng)力

好火子
2026-05-08 23:58:25
A股:剛剛,三部門聯(lián)合印發(fā),請(qǐng)做好準(zhǔn)備,下周將迎來(lái)更大的變盤

A股:剛剛,三部門聯(lián)合印發(fā),請(qǐng)做好準(zhǔn)備,下周將迎來(lái)更大的變盤

云鵬敘事
2026-05-09 00:00:06
俄羅斯宣布“勝利日”莫斯科等地暫時(shí)斷網(wǎng)!近一年來(lái)俄固定電話需求飆升

俄羅斯宣布“勝利日”莫斯科等地暫時(shí)斷網(wǎng)!近一年來(lái)俄固定電話需求飆升

紅星新聞
2026-05-08 12:51:17
耿同學(xué)的學(xué)術(shù)打假,正在破壞科研生態(tài)

耿同學(xué)的學(xué)術(shù)打假,正在破壞科研生態(tài)

戶外阿毽
2026-05-08 14:51:32
向佑攜女友酒吧狂歡 大金牙紋身?yè)屟?向太放狠話:結(jié)了婚我也不認(rèn)

向佑攜女友酒吧狂歡 大金牙紋身?yè)屟?向太放狠話:結(jié)了婚我也不認(rèn)

動(dòng)物奇奇怪怪
2026-05-08 20:13:42
關(guān)鍵時(shí)刻,中國(guó)幫了普京,派代表出席紅場(chǎng)閱兵,烏不敢輕舉妄動(dòng)

關(guān)鍵時(shí)刻,中國(guó)幫了普京,派代表出席紅場(chǎng)閱兵,烏不敢輕舉妄動(dòng)

娛樂(lè)小可愛(ài)蛙
2026-05-09 02:25:53
演員張頌文片場(chǎng)收工后,將粉絲贈(zèng)送的茶葉原路退回,并叮囑“你們自己工作掙的錢給自己和家人花,我收收你們的信就好了”

演員張頌文片場(chǎng)收工后,將粉絲贈(zèng)送的茶葉原路退回,并叮囑“你們自己工作掙的錢給自己和家人花,我收收你們的信就好了”

洪觀新聞
2026-05-07 15:18:54
明星顏值的巔峰時(shí)刻一一高圓圓(1)

明星顏值的巔峰時(shí)刻一一高圓圓(1)

荒野老五
2026-05-09 04:25:00
浙江省紀(jì)委省監(jiān)委:丁忠平,主動(dòng)投案

浙江省紀(jì)委省監(jiān)委:丁忠平,主動(dòng)投案

都市快報(bào)橙柿互動(dòng)
2026-05-08 19:25:28
中國(guó)突然放出話來(lái):以后再也不當(dāng)那個(gè)任勞任怨的冤大頭了

中國(guó)突然放出話來(lái):以后再也不當(dāng)那個(gè)任勞任怨的冤大頭了

阿七說(shuō)史
2026-03-29 05:30:03
媽生“整容臉”,戲紅人不紅,32歲的她卻為何深得大家的喜歡?

媽生“整容臉”,戲紅人不紅,32歲的她卻為何深得大家的喜歡?

娛人細(xì)品
2026-05-08 18:54:03
日本盜竊成風(fēng):資本異化下的道德荒漠

日本盜竊成風(fēng):資本異化下的道德荒漠

烽火瞭望者
2026-05-08 09:03:59
國(guó)際足聯(lián)終于慌了!新方案緊急出爐,世界杯版權(quán)迎來(lái)重大轉(zhuǎn)機(jī)

國(guó)際足聯(lián)終于慌了!新方案緊急出爐,世界杯版權(quán)迎來(lái)重大轉(zhuǎn)機(jī)

社會(huì)日日鮮
2026-05-08 04:12:52
喜訊!留洋葡超的他有望成申花中鋒位置新面孔,曾攻破波爾圖大門

喜訊!留洋葡超的他有望成申花中鋒位置新面孔,曾攻破波爾圖大門

振剛說(shuō)足球
2026-05-08 14:01:55
涉疫郵輪船長(zhǎng)宣布首例死亡視頻曝光 稱不會(huì)傳染

涉疫郵輪船長(zhǎng)宣布首例死亡視頻曝光 稱不會(huì)傳染

看看新聞Knews
2026-05-08 11:56:03
資本時(shí)代下張雪:純粹機(jī)車“大小孩”

資本時(shí)代下張雪:純粹機(jī)車“大小孩”

烽火瞭望者
2026-05-08 08:46:50
美國(guó)軍艦被炸,12小時(shí)內(nèi),以色列軍隊(duì)開(kāi)始強(qiáng)攻,戰(zhàn)爭(zhēng)再次爆發(fā)

美國(guó)軍艦被炸,12小時(shí)內(nèi),以色列軍隊(duì)開(kāi)始強(qiáng)攻,戰(zhàn)爭(zhēng)再次爆發(fā)

玲兒愛(ài)唱歌
2026-05-07 22:48:50
出大事了,美軍機(jī)被擊落,特朗普惱羞成怒,英法德轉(zhuǎn)變態(tài)度

出大事了,美軍機(jī)被擊落,特朗普惱羞成怒,英法德轉(zhuǎn)變態(tài)度

史行途
2026-05-08 06:30:08
2026-05-09 05:07:00
白鯨實(shí)驗(yàn)室one incentive-icons
白鯨實(shí)驗(yàn)室one
記錄 AI改變世界的瞬間
133文章數(shù) 16關(guān)注度
往期回顧 全部

科技要聞

SK海力士平均獎(jiǎng)金600萬(wàn) 工服成相親神器

頭條要聞

美公布首批UFO文件 視頻公開(kāi):阿聯(lián)酋現(xiàn)水母狀物體

頭條要聞

美公布首批UFO文件 視頻公開(kāi):阿聯(lián)酋現(xiàn)水母狀物體

體育要聞

他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

娛樂(lè)要聞

古天樂(lè)被曝隱婚生子,新娘竟是她

財(cái)經(jīng)要聞

估值3000億 DeepSeek尋求500億元融資

汽車要聞

MG 4X實(shí)車亮相 將于5月11日開(kāi)啟盲訂

態(tài)度原創(chuàng)

藝術(shù)
本地
手機(jī)
公開(kāi)課
軍事航空

藝術(shù)要聞

砸22億!OPPO在東莞建了一批“O字樓”

本地新聞

用蘇繡的方式,打開(kāi)江西婺源

手機(jī)要聞

小米超大屏旗艦殺回來(lái)了!小米17 Max入網(wǎng)配置全曝光,價(jià)格很香

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢(shì)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版