国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

漫畫:大模型“強(qiáng)控”具身智能機(jī)器人?

0
分享至

廢話不多說,

接通宋言博士的電話,

第一句就是:“你看清華大學(xué)那篇RDT論文了嗎?”

異口同聲地回答:“當(dāng)然看了”

連寒暄都省了,用“論文看了嘛?”,

確認(rèn)一下好友身份。

若要沒看,

那咱們就不再是朋友了。

宋言博士對(duì)這篇論文評(píng)價(jià)很高,

(說明譚老師我欣賞論文的品味也很高呢。)

一句話總結(jié),把擴(kuò)散模型思路引入機(jī)器人。

氛圍已經(jīng)烘托到這里了,

這篇就聊這個(gè)。

宋言博士是元蘿卜機(jī)器人系統(tǒng)架構(gòu)師,

一位從清華大學(xué)力學(xué)博士轉(zhuǎn)來機(jī)器人行業(yè)的“轉(zhuǎn)行博士”。

密切關(guān)注大模型最新進(jìn)展是我倆的共同愛好。

大模型控制機(jī)器人很有意思,

畢竟,腦子是個(gè)好東西,

希望你有,我有,大家有,機(jī)器人有,

既然好好聊,我請(qǐng)到了,

論文RDT的第一作者清華大學(xué)劉松銘博士,

中科紫東太初大模型團(tuán)隊(duì)機(jī)器人總監(jiān):劉榮博士,

武漢人工智能研究院研究員:易東博士,

元蘿卜機(jī)器人系統(tǒng)架構(gòu)師:宋言博士。


分析機(jī)器人能做啥:題目:“圖片中有 4 個(gè)水槽。哪個(gè)箭頭指向的是離觀察者最近的水槽?”分析機(jī)器人能做啥:Germini Robotics到底做得如何呢?(二)競(jìng)爭(zhēng)加劇,“含量”提升

(一)強(qiáng)勢(shì)玩家出場(chǎng)

先說有哪些知名玩家?

再說下各家玩法。

第一個(gè),

谷歌很堅(jiān)定地摸索大模型控制機(jī)器人道路,

接連推出,

Robotic Transformer 1,

Palm-E,

Robotic Transformer 2 (2023年7月),

后面,Robotic Transformer -H(2024 年 3 月),

增加了語言模型對(duì)機(jī)器人細(xì)節(jié)動(dòng)作的理解;

后來,RT1演化成模塊,

從Palm-E開始,

就調(diào)用RT1這個(gè)模塊處理動(dòng)作。

RT1自有語言理解能力,

所以,這種模塊不可以說是:

相對(duì)獨(dú)立且只負(fù)責(zé)動(dòng)作的模塊。

RT-2之后的模型,所有的都在一套網(wǎng)絡(luò)里完成,

但沒有用上擴(kuò)散模型。

直到Germini Robotics ER這一代,

終于用上了擴(kuò)散模型,

擴(kuò)散模型不僅是獨(dú)立子模塊,

而且跑在在機(jī)器人硬件上。

劉榮博士和易東博士共同認(rèn)為:

雖然Germini Robotics是閉源,

但是,它的視覺語言模型,

很可能是目前世界上最好的。

谷歌團(tuán)隊(duì)搞視覺語言模型由來已久,信心堅(jiān)定,

Germini Robotics自然繼承了很多優(yōu)點(diǎn):

(1)對(duì)空間理解能力特別強(qiáng),

有的模型僅能把空間位置關(guān)系,

比如,前后關(guān)系說對(duì),

這已經(jīng)很強(qiáng)了,

然而,Germini Robotics模型可以把廚房工具的把手直接框出來,

比如炒菜產(chǎn)子的手柄。

我們?cè)敿?xì)解釋一下:

一張圖片,有的模型能說出圖片里有人,

有的模型能把模型里的人框出來,

那么,這兩種模型完全不在一個(gè)水平上,

后者強(qiáng)太多了。

機(jī)器人要理解周圍的環(huán)境,不僅僅是“看見”一個(gè)平面圖片,而是要知道物體的形狀、大小、距離和位置(3D感知)。Germini Robotics不僅對(duì)空間的理解走到三維這一步,而且能夠輸出三維理解的結(jié)果。

(2)推理能力也很強(qiáng)

怎么強(qiáng)?上考試題

(ERQA真是個(gè)好東西,前面漫畫也有)

第一題:軌跡推理(Trajectory Reasoning)

題目:“大約應(yīng)該沿著哪條彩色軌跡拉動(dòng)拉鏈,以便開始拉上行李箱?”

選項(xiàng):

A. 藍(lán)色(正確答案)

B.紫色

C. 綠色

D. 紅色

分析機(jī)器人能做啥:

機(jī)器人需要理解拉鏈的起點(diǎn)和方向,

判斷正確的運(yùn)動(dòng)軌跡。

這需要 3D 空間感知和運(yùn)動(dòng)規(guī)劃能力,

讓機(jī)器人知道如何正確拉上拉鏈,

而不是隨意亂拉。

第二題:動(dòng)作推理(Action Reasoning)

題目:“應(yīng)該如何移動(dòng)扳手,使其準(zhǔn)備好旋轉(zhuǎn)最靠近它的六角螺絲?”

A. 向前和向右(正確答案)

B. 向上和向左

C. 向前和向左

D. 以上都不是

機(jī)器人需要理解工具(扳手),

如何作用于目標(biāo)(螺絲),

并找到正確的操作方向。

這涉及物理交互(Physics-based Interaction),

讓機(jī)器人知道如何調(diào)整扳手的角度來正確擰螺絲。

第三題:空間推理(Spatial Reasoning)

A. 沒有箭頭指向最近的水槽( 正確答案)

B. 藍(lán)色

C. 紅色

D. 青色

機(jī)器人需要理解深度和空間關(guān)系,

判斷哪個(gè)物體最近。

這涉及 3D 視覺感知(3D Perception),

讓機(jī)器人能識(shí)別前后關(guān)系,

而不是僅僅根據(jù)顏色選擇答案。

(3)Germini Robotics盡力理解物理世界

理解世界,

才能是真智能機(jī)器人。

比如物體下落,

比如,掃把靠在墻上放得不好要?jiǎng)澋梗?/p>

它的模型理解這點(diǎn),

機(jī)器人前去扶正掃把。

機(jī)器人不僅語言,思考聰明,

還要行動(dòng)聰明,

理解物理世界是機(jī)器人領(lǐng)域的遠(yuǎn)大理想,

也是機(jī)器人自如行動(dòng)于物理世界的前提。

也僅在初級(jí)理解階段,機(jī)器人只是能做選擇題,

如果把考試題目換成開放性試題,

那就是另一個(gè)難度了。

綜上所述,谷歌的技術(shù)路線,

以理解物理世界為終極目標(biāo),

(理解數(shù)字世界不在話下)。

谷歌的“故事”,總是格外容易進(jìn)入,

你被故事帶著走,

讀懂谷歌,更容易看懂其他團(tuán)隊(duì),

很多人指責(zé)谷歌創(chuàng)新能力衰退,

而我看來,谷歌更像一個(gè)值得信任的中年人。

往往是最好的“參考標(biāo)準(zhǔn)”。


萊文教授也是我在硅谷最希望拜訪的教授之一。朱軍教授團(tuán)隊(duì)我觀察了很多年,

再把目光移到其他團(tuán)隊(duì):

第二個(gè)Octo模型團(tuán)隊(duì)(Octo Model Team),

這個(gè)團(tuán)隊(duì)的成果其實(shí)也可被視為谷歌系列工作,

谷歌和美國三所名校都參與了(24年5月26日),

團(tuán)隊(duì)核心人物之一,

美國加州伯克利大學(xué)謝爾蓋·萊文教授

英文名是Sergey Levine,

他在一次演講中也談到:

“擴(kuò)散模塊規(guī)模小,會(huì)限制模型能力?!?/p>

第三個(gè),清華大學(xué)朱軍教授團(tuán)隊(duì)

Robotics Diffusion Transformer (RDT),

這個(gè)就是文章一開頭,

和宋言博士電話里聊到的論文。

業(yè)界地位不容小覷。另外,論文中是雙臂任務(wù),雙臂比單臂更難。

有個(gè)很好的例子,人類很容易理解倒水"1/3 杯" ,

然而,指揮機(jī)器人動(dòng)作的模型在訓(xùn)練的時(shí)候,

只學(xué)過 "少量""半杯" "滿杯" 三種水位。

從來沒學(xué)過 "1/3 杯",

也就是說,

RDT模型令機(jī)器人“聽懂”以前沒學(xué)過的指令,

依然能成功完成任務(wù),

這說明AI模型并不是死記硬背,可舉一反三。

配套雙臂數(shù)據(jù)集也格外有看點(diǎn)。

第四個(gè),Pi-Zero模型屬于“物理智能”團(tuán)隊(duì),

英文名是Physical Intelligence,雖然沒有引入擴(kuò)散模型,不過亮點(diǎn)是,

僅從名字上觀察,

該公司愿景想讓機(jī)器人理解世界的規(guī)則。

現(xiàn)在看來,這是種雄心壯志。

再觀察,RDT和Pi-Zero均在動(dòng)作模塊中,

引入擴(kuò)散模型,

技術(shù)含量點(diǎn)在于,主干模型中用上了擴(kuò)散模型,

而Octo模型只是用了一小部分,

RDT和Pi-Zero模型則將擴(kuò)散模型規(guī)模擴(kuò)大了很多。

換句話說,“擴(kuò)散模型”含量在提升。

第五個(gè),F(xiàn)igure 02,部分?jǐn)U散模型。

第六個(gè),字節(jié)跳動(dòng)的GR系列的單臂任務(wù)

2024年10月,

字節(jié)在這個(gè)方向上有著自己的理解,

他們認(rèn)為,模型對(duì)空間的理解能力強(qiáng)是核心,Diffusion Policy Learning里的Policy ,

他們將動(dòng)作理解為一個(gè)序列,

模型提高對(duì)視頻的理解力,

機(jī)器人動(dòng)作性能才能提高。

是時(shí)候總結(jié)這些玩家的玩法特點(diǎn)了。

第一點(diǎn),用VLA大模型做基座,

既然可以用已有的大模型抽特征,

可以純語言模型提語言特征,

可以純視覺模型提視覺特征,

也可以用圖文模型提兩種特征,

怎么組合都行。

既然是VLA模型,

只要是給它下達(dá)任務(wù),機(jī)器人直接做動(dòng)作,

一套輸出行云流水輸出機(jī)器人動(dòng)作(端到端)。

第二點(diǎn),特別重要的是動(dòng)作模塊,

因?yàn)闄C(jī)器人需要給它動(dòng)作信號(hào),才能行動(dòng)。

早期動(dòng)作模塊不用擴(kuò)散模型,

后來核心組件由擴(kuò)散模型構(gòu)成,

也就是說在VLA模型的基礎(chǔ)上,

擴(kuò)散模型作為一個(gè)獨(dú)立的子模塊(head)被引入,

能夠看到,“擴(kuò)散模型含量在提高,從子模塊,走向骨干,

美國眾多知名團(tuán)隊(duì)如此,

國內(nèi)一流團(tuán)隊(duì)亦如此。

結(jié)論呼之欲出,

擴(kuò)散模型正在成為機(jī)器人算法領(lǐng)域的關(guān)鍵技術(shù)之一,很有前途。

(三)底層原理

秉持我一貫的風(fēng)格,

要聊就聊透。

好好理解擴(kuò)散模型用于機(jī)器人操作底層原理。

我相信,當(dāng)你理解了擴(kuò)散模型的“隱藏實(shí)力”,

就不會(huì)問why,而是why not。

從“為什么用在機(jī)器人身上?”,

變成了“為什么不用在機(jī)器人身上?”

要我說,擴(kuò)散模型足夠強(qiáng)大,足夠基礎(chǔ)。

而武漢人工智能研究院易東博士給我的答案是:

一種廣泛適用的連續(xù)高維概率密度函數(shù)估計(jì)(和采樣)方法。

確實(shí)深刻。

不僅AI畫圖可用,機(jī)器人,自動(dòng)駕駛等亦可用,

一切皆可探索。

先復(fù)習(xí)一下擴(kuò)散模型用于AI畫圖,

這是一個(gè)從“壞圖”中去掉噪聲變成“好圖”的過程。

當(dāng)你告訴AI“我想生成一幅日落的海灘和一群泳衣模特”,

(我的咒語,當(dāng)然是男模特)

它就會(huì)從一張完全隨機(jī)的“雪花屏”圖片開始,

一步步去掉噪聲,最終生成你想要的“好圖”。

去掉噪聲,這是一個(gè)思想,很早就有了,

這道題讓擴(kuò)散模型來做,它能生成。

甚至可得到一組連續(xù)動(dòng)作。

機(jī)械臂當(dāng)下在什么位置?

把機(jī)器臂控制到什么位置去?

有了時(shí)間長(zhǎng)度的位置信息,本身就是軌跡信息,

以此類推,擴(kuò)散模型一直預(yù)測(cè)動(dòng)作,

機(jī)械臂一直完成任務(wù),

任務(wù)可以是疊衣服,端茶倒水……

這時(shí)候,機(jī)器人能力瞬間爆棚。

(四)給機(jī)器人“出”策略

既然我這么看好擴(kuò)散模型和機(jī)器人操作,

那我就很想知道,這個(gè)頭是怎么開的?

我們不得不提到一篇論文,

2023年,開創(chuàng)性論文:

關(guān)于機(jī)械臂動(dòng)作策略生成(Diffusion Policy Learning),

它第一次把擴(kuò)散模型用到機(jī)器人身上,

開辟了一種機(jī)器人的技術(shù)方向,跟隨者眾。

我特意讓宋言博士講解了這點(diǎn),“讓我們?cè)賮碚務(wù)勥@件事的本質(zhì)。Diffusion采用連續(xù)的形式去建模動(dòng)作分布,自回歸則用離散類別去模擬。前者昂貴而有效,后者簡(jiǎn)單(僅需類似輪盤賭的方法)但失真。我們目前選擇了最穩(wěn)的辦法。但也不好說,也許有一天我們會(huì)猛然發(fā)現(xiàn)這個(gè)世界的本質(zhì)是離散的,只不過我們?nèi)鄙俸线m的離散化方法?!?/p>

我就很喜歡他對(duì)技術(shù)本質(zhì)那種淺顯直白的表達(dá)。

策略(Policy)這個(gè)術(shù)語,

是具身機(jī)器人專業(yè)術(shù)語,

用擴(kuò)散模型來“學(xué)習(xí)策略”。

策略是強(qiáng)化學(xué)習(xí)中的一個(gè)核心概念,

也是最初入門強(qiáng)化學(xué)習(xí)時(shí),

最先接觸到的重要術(shù)語之一。

這樣解釋吧:

在使用強(qiáng)化學(xué)習(xí)來玩超級(jí)瑪麗游戲時(shí),

從能找到一種算法(馬爾可夫鏈),

為我們提供一種簡(jiǎn)單又實(shí)用的方式,

來理解和解決游戲人物面對(duì)的難題。

超級(jí)瑪麗當(dāng)前的狀態(tài)是“踩在蘑菇上”,

下一個(gè)動(dòng)作是什么,

向左走,向右走?跳起?還是頂磚頭?

基于超級(jí)瑪麗當(dāng)前的狀態(tài),要做一個(gè)動(dòng)作的選擇,

這個(gè)選擇就叫策略(Policy)。

強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)出一個(gè)最優(yōu)的策略,

超級(jí)瑪麗能夠盡量多吃道具得分,

而且盡可能別掛掉。

從超級(jí)瑪麗聊回機(jī)器人,攝像頭拍到的照片(場(chǎng)景),

或者人類的命令都是初始狀態(tài)(State),

選擇下一步如何行動(dòng)就是策略(方法論)。

傳統(tǒng)機(jī)器人預(yù)先編好的程序,

而具身機(jī)器人和環(huán)境交互出策略。

機(jī)械臂要拿葡萄,

下一步把手臂移到葡萄上方。

看來,擴(kuò)散模型輸出了正確的策略。

不過,我再引用一句清華大學(xué)劉松銘博士的原話:

在我看來,越是高手,

越喜歡思考算法背后的哲學(xué)意義。

有時(shí)候,猛一聽,

都不像在聊計(jì)算機(jī)。

(五)清華大學(xué)論文RDT

從前面的玩家玩法總結(jié)中能看到,

清華大學(xué)論文RDT是繞不過去了,

那就有請(qǐng)論文第一作者劉松銘博士,

我觀察到對(duì)他對(duì)具身智能的思考十分深刻。

以下由對(duì)話形式呈現(xiàn):

第一個(gè)問題:我們?cè)趺蠢斫鈹U(kuò)散模型和自回歸模型?

他回答:自回歸有兩個(gè)關(guān)鍵問題:

1. 離散化:自回歸需要基于離散概率采樣,而具身的action天然連續(xù)。這二者之間會(huì)存在量化誤差,而具身的操作任務(wù)對(duì)誤差極其敏感。對(duì)于靈巧操作任務(wù),可能需要亞毫米精度。

2. 自回歸需逐個(gè)生成詞元,受限于端側(cè)硬件(顯卡帶寬小),會(huì)導(dǎo)致模型推理速度較慢,而具身對(duì)控制頻率有較高要求(一般操作任務(wù),至少需要10Hz推理頻率,而100ms對(duì)于VLM或者VLA來說,太短了)。雖然這兩點(diǎn)目前業(yè)界都有一些解決方案,但遠(yuǎn)遠(yuǎn)達(dá)不到完美。

本質(zhì)在于,在高維連續(xù)分布中進(jìn)行采樣并不簡(jiǎn)單,

是一個(gè)復(fù)雜的問題(non-trivial problem),

而擴(kuò)散模型是解決這一問題的有力工具:

它本身是連續(xù)的,并且擴(kuò)散過程不依賴自回歸,

它是并行計(jì)算的,極大提升了推理速度。

經(jīng)過蒸餾,單步擴(kuò)散(one-step Diffusion),

甚至可以完成拋投等動(dòng)態(tài)操作任務(wù)。

第二個(gè)問題:你們?cè)跀U(kuò)散模型上做了什么關(guān)鍵工作?

1.我們首次將擴(kuò)散模型在具身任務(wù)上擴(kuò)展到十億參數(shù)規(guī)模,我們的實(shí)驗(yàn)證明的擴(kuò)散模型路線在具身領(lǐng)域是可擴(kuò)展的。計(jì)算規(guī)模的擴(kuò)大會(huì)直接帶來性能提升。為了能讓這個(gè)模型擴(kuò)展,我們?cè)跀U(kuò)散模型去噪網(wǎng)絡(luò)架構(gòu)上做了相當(dāng)多的工作:包括選擇合適的normalization方法,選擇合適的條件注入方式以及提升模型對(duì)非線性的適應(yīng)能力。這些都是具身領(lǐng)域都有的挑戰(zhàn)。這些工作盡管比較工程,但都是擴(kuò)展模型必不可缺的,我們的消融實(shí)驗(yàn)表明缺少了任意一項(xiàng)技術(shù),模型的擴(kuò)展性都會(huì)失敗。這些在可擴(kuò)展性上的努力是Diffusion Policy的關(guān)鍵。這也讓我們成為目前最大的擴(kuò)散結(jié)構(gòu),Pi0的擴(kuò)散模型部分只有300M,我們認(rèn)為這會(huì)影響它的表達(dá)能力。

2.為了能支撐這么大規(guī)模模型的訓(xùn)練,我們準(zhǔn)備了相當(dāng)多的開源數(shù)據(jù)。當(dāng)然,這里面的工作并不是幾行代碼就搞定的。我們獨(dú)家的數(shù)據(jù)集配方里包含了46個(gè)不同機(jī)器人數(shù)據(jù),為了能訓(xùn)練發(fā)揮出最大的效果,團(tuán)隊(duì)逐個(gè)數(shù)據(jù)集去清洗,清洗掉那些有錯(cuò)誤或者傳感器異常的數(shù)據(jù)。實(shí)驗(yàn)中的“臟活累活”實(shí)際上對(duì)模型性能提升非常重要。

“Data is almost everything.”為了不讓別人重復(fù)臟累活,我們將數(shù)據(jù)處理的代碼全部開源。此外,我們注意到,可用的雙臂數(shù)據(jù)集非常少。于是,采集了6K條雙臂數(shù)據(jù),精心設(shè)計(jì)了多項(xiàng)任務(wù),是目前雙臂數(shù)據(jù)集中多樣性最好的之一。

3.在不懈“調(diào)參”下,我們的模型取得了不錯(cuò)的性能。有時(shí)候確實(shí)有點(diǎn)像老廚師烹飪,沒有太多規(guī)律,摸索了很多配方,把我們發(fā)現(xiàn)的最好的,開放給大家)。據(jù)開源社區(qū)反饋,即使Pi0發(fā)布之后,我們的模型依然很能打(嘿嘿)。我推測(cè),不同的模型有各自適用的任務(wù)。不過,缺點(diǎn)也有,純擴(kuò)散結(jié)構(gòu)比較吃算力,但算力給夠模型的性能可以持續(xù)提升。感謝劉松銘博士,他對(duì)RDT的講解十分細(xì)致。

(六)學(xué)術(shù)爭(zhēng)議

我發(fā)現(xiàn),對(duì)機(jī)器人動(dòng)作軌跡生成這個(gè)件事的思考,

其中一個(gè)爭(zhēng)議點(diǎn)在于:

該用自回歸的方法做,

還是用生成式的方法做?

其實(shí)這是在討論自回歸和擴(kuò)散的關(guān)系。

而且AI畫畫和機(jī)器人動(dòng)作操作也有所不同。

易東博士認(rèn)為:

“各有各的場(chǎng)景和優(yōu)勢(shì),也能融合。

圖像生成方向也有結(jié)合。比如何愷明的工作MAR,先自回歸,然后擴(kuò)散,”

而元蘿卜機(jī)器人系統(tǒng)架構(gòu)師宋言博士認(rèn)為:

控制機(jī)器人的手臂去拉抽屜,

抓抽屜可以從上面抓,

也可以從下面抓,角度差了180度,

有了兩條數(shù)據(jù)(上和下),用自回歸的方法,

這兩條數(shù)據(jù)會(huì)相互干擾,

機(jī)器人動(dòng)作操作忌諱相互干擾的數(shù)據(jù)。

機(jī)器人做一件事情,

可以有很多種動(dòng)作去做這件事。

比如,抓取一個(gè)杯子,很多角度都能取到物品。

擴(kuò)散模型的優(yōu)勢(shì)是把所有的動(dòng)作都建模出來,

自回歸的思路是無論多么復(fù)雜都回歸到一個(gè)點(diǎn)上,

所謂一個(gè)點(diǎn)就是一條確定的路徑,

而不能做多方面的探索。

我又和中科紫東太初大模型團(tuán)隊(duì)機(jī)器人總監(jiān)劉榮博士聊了聊,他認(rèn)為:

1.擴(kuò)散模型和自回歸是目前生成式方法的兩個(gè)最主要的方向;

2.一般認(rèn)為,自回歸擅長(zhǎng)處理可變長(zhǎng)度序列的預(yù)測(cè)問題,比如?,F(xiàn)在語句生成,但是自回歸直接生成預(yù)測(cè)的詞元,被認(rèn)為是離散的,會(huì)損失物理值的大小關(guān)系,這個(gè)對(duì)行為輸出來說比較重要;

3.而擴(kuò)散模型一般處理定長(zhǎng)序列,比如圖像生成(圖像大小是一定的),

好處是它的生成是連續(xù)的,這是因?yàn)閿U(kuò)散模型屬于先預(yù)測(cè)分布再生成,連續(xù)值輸出一般認(rèn)為更適合具身機(jī)器人任務(wù)。

(七)尾聲


另一位專家劉榮博士則提出:

最近的機(jī)器人在視頻中非常歡脫,

有些難辨真假,可能產(chǎn)生一種誤解,

具身智能落地就在眼前。

其實(shí)很多機(jī)器人從業(yè)者,對(duì)目前進(jìn)展不滿意:

步子不夠大,也不夠爆發(fā)。

甚至有悲觀觀點(diǎn),人形機(jī)器人至少五年,

乃至更長(zhǎng)時(shí)間都無法落地。

不管機(jī)器人多會(huì)???,本質(zhì)是多少錢能用得劃算。

有觀點(diǎn)認(rèn)為:現(xiàn)在的很多開源工作,

距離商業(yè)化還很遙遠(yuǎn),

為了展示技術(shù)實(shí)力,

把數(shù)據(jù)都用起來了(數(shù)據(jù)用的多),

有學(xué)習(xí)能力(零樣本,小樣本),

把流程跑通(完成簡(jiǎn)單的行動(dòng))。

“機(jī)器人的能力,不是停留在展示層面,

而是在性能指標(biāo)小數(shù)點(diǎn)后面的比拼切磋中,

真正摸清前行的方向?!?/p>

無論如何,機(jī)器人落地是加速的。

你看,擴(kuò)散模型正悄然成為智能機(jī)器人算法的關(guān)鍵技術(shù)之一?!坝谐蝗?,擴(kuò)散模型的影響力不會(huì)亞于 Transformer?!薄讝|博士如此預(yù)測(cè)。

坦白講,我也是這個(gè)態(tài)度。

擴(kuò)散模型的高光時(shí)刻并不遙遠(yuǎn)。

這篇聊了很多專家,很痛快,不由感慨一句,

能和這些技術(shù)大神交朋友真爽,

用技術(shù)博客分享洞見,

只是我享受學(xué)習(xí)和友誼的副產(chǎn)品。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
臺(tái)積電:我們已經(jīng)顧不上美國工廠了,大陸再不給稀土,大家都得完

臺(tái)積電:我們已經(jīng)顧不上美國工廠了,大陸再不給稀土,大家都得完

觸摸史跡
2026-04-03 21:47:03
恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無下限,會(huì)壞到什么地步?

恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無下限,會(huì)壞到什么地步?

小影的娛樂
2026-04-02 14:45:52
C羅梅開二度+生涯967球!率隊(duì)5-2大勝領(lǐng)先6分,有望奪沙特聯(lián)首冠

C羅梅開二度+生涯967球!率隊(duì)5-2大勝領(lǐng)先6分,有望奪沙特聯(lián)首冠

體育知多少
2026-04-04 07:40:12
遇檢沖卡還欲撞執(zhí)法人員 成都曝光兩起非法營(yíng)運(yùn)案

遇檢沖卡還欲撞執(zhí)法人員 成都曝光兩起非法營(yíng)運(yùn)案

封面新聞
2026-04-04 10:35:09
8天已到,高市拒絕道歉!外交部宣布動(dòng)手,日本有人財(cái)產(chǎn)全被凍結(jié)

8天已到,高市拒絕道歉!外交部宣布動(dòng)手,日本有人財(cái)產(chǎn)全被凍結(jié)

甜檸聊史
2026-04-03 22:51:02
一天之內(nèi),美軍兩架戰(zhàn)機(jī)被擊落,兩架直升機(jī)被擊中!特朗普:不影響談判

一天之內(nèi),美軍兩架戰(zhàn)機(jī)被擊落,兩架直升機(jī)被擊中!特朗普:不影響談判

上觀新聞
2026-04-04 08:30:10
每天被活取膽汁,疼到咬爛自己手掌!曾轟動(dòng)一時(shí)的膽熊怎么樣了?

每天被活取膽汁,疼到咬爛自己手掌!曾轟動(dòng)一時(shí)的膽熊怎么樣了?

蜉蝣說
2026-04-03 16:26:35
伊朗:擊落美軍先進(jìn)戰(zhàn)機(jī),飛行員在伊境內(nèi)跳傘被懸賞,或已被俘!美方曾出動(dòng)“黑鷹”等試圖營(yíng)救但失敗,被迫逃離現(xiàn)場(chǎng)

伊朗:擊落美軍先進(jìn)戰(zhàn)機(jī),飛行員在伊境內(nèi)跳傘被懸賞,或已被俘!美方曾出動(dòng)“黑鷹”等試圖營(yíng)救但失敗,被迫逃離現(xiàn)場(chǎng)

每日經(jīng)濟(jì)新聞
2026-04-03 20:48:04
賀莉任上海工程技術(shù)大學(xué)黨委書記

賀莉任上海工程技術(shù)大學(xué)黨委書記

澎湃新聞
2026-04-04 14:46:26
確認(rèn)不打了!上海最強(qiáng)王牌徹底擺爛,廣東隊(duì)終于迎來逆襲機(jī)會(huì)!

確認(rèn)不打了!上海最強(qiáng)王牌徹底擺爛,廣東隊(duì)終于迎來逆襲機(jī)會(huì)!

緋雨兒
2026-04-04 12:14:41
過分了!親戚總讓代買高鐵票,越來越頻繁,廣西網(wǎng)友哭訴該咋拒絕

過分了!親戚總讓代買高鐵票,越來越頻繁,廣西網(wǎng)友哭訴該咋拒絕

火山詩話
2026-04-04 09:31:58
“自動(dòng)鉛筆”事件火了,面相學(xué)果然權(quán)威,帶入同學(xué)視角天都塌了!

“自動(dòng)鉛筆”事件火了,面相學(xué)果然權(quán)威,帶入同學(xué)視角天都塌了!

番外行
2026-04-04 12:52:45
原廣東省省長(zhǎng)馬興瑞被查

原廣東省省長(zhǎng)馬興瑞被查

觀點(diǎn)機(jī)構(gòu)
2026-04-03 19:13:07
俄羅斯突然昭告全球,50個(gè)月拿下盧甘斯克全境,最后5%打了三年半

俄羅斯突然昭告全球,50個(gè)月拿下盧甘斯克全境,最后5%打了三年半

共工之錨
2026-04-03 19:11:13
起內(nèi)訌了?伊朗總統(tǒng)反對(duì)再這樣打下去,要求革命衛(wèi)隊(duì)交出戰(zhàn)時(shí)大權(quán)

起內(nèi)訌了?伊朗總統(tǒng)反對(duì)再這樣打下去,要求革命衛(wèi)隊(duì)交出戰(zhàn)時(shí)大權(quán)

知法而形
2026-04-01 18:49:55
專家警告:每天規(guī)律散步運(yùn)動(dòng),就等于給血管“上鎖”?真相來了

專家警告:每天規(guī)律散步運(yùn)動(dòng),就等于給血管“上鎖”?真相來了

荊醫(yī)生科普
2026-04-03 13:38:28
44歲陳冠希香港同框50歲馮德倫,顏值回春引熱議,這狀態(tài)太絕了?

44歲陳冠希香港同框50歲馮德倫,顏值回春引熱議,這狀態(tài)太絕了?

娛樂領(lǐng)航家
2026-04-03 22:00:03
交通部定調(diào)!出租、網(wǎng)約車合并管理,數(shù)百萬司機(jī)迎來行業(yè)大變革

交通部定調(diào)!出租、網(wǎng)約車合并管理,數(shù)百萬司機(jī)迎來行業(yè)大變革

我不叫阿哏
2026-04-04 00:19:07
馬興瑞涉嫌嚴(yán)重違紀(jì)違法正接受中央紀(jì)委國家監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

馬興瑞涉嫌嚴(yán)重違紀(jì)違法正接受中央紀(jì)委國家監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

新京報(bào)
2026-04-03 18:02:10
搶七1-5落后逆轉(zhuǎn)!孫穎莎險(xiǎn)勝18歲超星晉級(jí)四強(qiáng):馬琳急到脫外套

搶七1-5落后逆轉(zhuǎn)!孫穎莎險(xiǎn)勝18歲超星晉級(jí)四強(qiáng):馬琳急到脫外套

顏小白的籃球夢(mèng)
2026-04-04 14:20:56
2026-04-04 16:00:49
親愛的數(shù)據(jù) incentive-icons
親愛的數(shù)據(jù)
《我看見了風(fēng)暴:人工智能基建革命》一書作者
693文章數(shù) 219913關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國產(chǎn)手機(jī)廠商集體漲價(jià)

頭條要聞

祖墳旁被親戚種329株檳榔苗 男子理論無果拔除獲緩刑

頭條要聞

祖墳旁被親戚種329株檳榔苗 男子理論無果拔除獲緩刑

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

財(cái)經(jīng)要聞

劉紀(jì)鵬:只盼長(zhǎng)慢牛,鞏固4000點(diǎn)是關(guān)鍵

汽車要聞

17萬級(jí)海豹07EV 不僅續(xù)航長(zhǎng)還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

時(shí)尚
家居
游戲
教育
公開課

好養(yǎng)眼??!大家快收下這份春日片單

家居要聞

溫馨多元 愛的具象化

老賊是對(duì)的!恐怖神作主創(chuàng)希望打造黎明殺機(jī)版老頭環(huán)

教育要聞

滇超球員進(jìn)校園 體教融合潤(rùn)童心

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版