国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

劉華平:城市機(jī)器人的下一站,如何從“看見”到“讀懂”?

0
分享至



近日,“2026智能機(jī)器人城市空間應(yīng)用場景大會”在成都舉行。會上,研究派專家代表,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、IEEE Fellow劉華平教授與實(shí)戰(zhàn)派專家代表,成都市機(jī)器人產(chǎn)業(yè)協(xié)會副會長、越凡創(chuàng)新董事長兼CEO黃山,分別從理論前沿與產(chǎn)業(yè)實(shí)踐的角度,發(fā)表了精彩的主題演講。

本次大會在成都市相關(guān)政府機(jī)構(gòu)及產(chǎn)業(yè)協(xié)會的共同指導(dǎo)與主辦下,匯聚了政、產(chǎn)、學(xué)、研各界力量。本文將首先提煉劉華平教授的核心觀點(diǎn)。

劉教授 認(rèn)為,當(dāng)前機(jī)器人智能受限于被動感知,需向主動“讀懂”跨越。其核心路徑是發(fā)展主動感知與具身智能,并通過融合多模態(tài)感知與構(gòu)建世界模型,最終實(shí)現(xiàn)機(jī)器人對環(huán)境的深層理解與自主決策。

接下來,我們將繼續(xù)分享實(shí)戰(zhàn)派專家、成都市機(jī)器人產(chǎn)業(yè)協(xié)會副會長黃山從產(chǎn)業(yè)一線帶來的實(shí)踐洞察。


劉華平

IEEE Fellow、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授

以下為劉華平教授演講核心觀點(diǎn):

1.感知的本質(zhì)差異在于:眼睛“看見”的是大腦選擇的信息,而“讀懂”則需要形成主動的認(rèn)知與記憶。

2.真正的“讀懂”需要實(shí)現(xiàn)兩大跨越:預(yù)知行為后果,以及在視覺不可及處依然理解環(huán)境。

3.實(shí)現(xiàn)從“看見”到“讀懂”的根本路徑在于發(fā)展主動感知與具身智能。

4.具身智能依賴四大主動能力的協(xié)同:主動控制、主動感知、主動學(xué)習(xí)與主動協(xié)同。

5.機(jī)器人的形態(tài)設(shè)計(jì)應(yīng)由任務(wù)與場景驅(qū)動,通過對抗、適應(yīng)與進(jìn)化學(xué)習(xí)動態(tài)形成,而非預(yù)先固定。

6.實(shí)現(xiàn)多機(jī)器人協(xié)同的關(guān)鍵,在于每個(gè)個(gè)體需具備“自知之明”,能主動識別自身短板并召喚外部協(xié)助。

7.單一視覺遠(yuǎn)遠(yuǎn)不夠,必須融合多模態(tài)感知才能實(shí)現(xiàn)對物理世界的深度理解。

8.無人駕駛長達(dá)二十年的研究,其核心是持續(xù)解決“看不清、看不準(zhǔn)、看不全”這一根本性感知挑戰(zhàn)。

9.當(dāng)前服務(wù)機(jī)器人的主要瓶頸并非感知硬件,而在于交互方式、動態(tài)環(huán)境理解與主動服務(wù)能力的系統(tǒng)性欠缺。

10.未來突破的關(guān)鍵在于發(fā)展“世界模型”,使機(jī)器人具備預(yù)見與評估行為后果的能力。

以下為劉華平教授演講主要內(nèi)容:


從“看見”到“讀懂”的認(rèn)知覺醒

我是從2000年開始從事機(jī)器人行業(yè),到現(xiàn)在算下來25年了,這25年從某種意義來講恰好是計(jì)算機(jī)視覺、機(jī)器人視覺,甚至包括整個(gè)機(jī)器人具身智能行業(yè)怎么從“看見”到“讀懂”這個(gè)過程,反過來也影響了我對這個(gè)問題的思考和理解,今天簡單給大家分享我對這個(gè)問題的理解。

我最早與自動駕駛結(jié)緣于2000年3月,當(dāng)時(shí)正攻讀博士學(xué)位,也是國內(nèi)首批開展自動駕駛研究的團(tuán)隊(duì)之一。從純粹的學(xué)術(shù)研究視角出發(fā),那時(shí)我未曾預(yù)料到這項(xiàng)技術(shù)未來能真正融入日常生活。在實(shí)驗(yàn)車輛的后座上,我的主要職責(zé)是在緊急情況下啟動安全開關(guān),其余時(shí)間車輛均處于自主行駛狀態(tài)。

國家重點(diǎn)實(shí)驗(yàn)室驗(yàn)收期間,我們?yōu)檠菔驹O(shè)計(jì)了一項(xiàng)直線行駛測試。過程中,一位身著白衣的院士專家對我們的測試方式提出質(zhì)疑,并突然走向車道。幸運(yùn)的是,試驗(yàn)車輛及時(shí)感知并規(guī)避了專家與其側(cè)的自行車,順利通過驗(yàn)收。這段視頻也成為二十余年來保存下的唯一珍貴記錄。

我之所以回看這段經(jīng)歷,是想說明:當(dāng)時(shí)我們自認(rèn)為已能夠“讀懂”環(huán)境、理解世界,但如今反思,那更多仍停留在“看見”的層面。盡管當(dāng)時(shí)的機(jī)器人搭載了昂貴的視覺傳感器、激光雷達(dá)與多套定位系統(tǒng),實(shí)現(xiàn)的實(shí)則是對環(huán)境的被動感知,而非真正意義上的認(rèn)知與理解。

什么叫讀懂呢?可能不同的人有不同的理解。從個(gè)人做研究的角度理解,我覺得來自兩方面。

第一,我們做每一個(gè)動作的時(shí)候,要能夠知道我們下一步會產(chǎn)生什么樣的后果,這才是真正讀懂了這個(gè)事情,這是最重要的。第二,現(xiàn)在的計(jì)算機(jī)視覺和現(xiàn)在的攝像頭只能捕捉我們能看到的東西,當(dāng)我們看不到的時(shí)候怎么辦,這時(shí)候機(jī)器人應(yīng)該發(fā)揮作用——這正是“讀懂”應(yīng)當(dāng)發(fā)揮作用的領(lǐng)域。

我自己有一個(gè)切身體會。在學(xué)校的車庫,我的車要是稍微角度不對,桿是不會抬的它能夠識別到車牌,但它有可能檢測不到我的車牌,過不去。我在網(wǎng)上找了幾個(gè)視頻,可以非常簡單地騙過攝像頭,但是有些時(shí)候我們的車想過去的時(shí)候我們反而過不去,這個(gè)時(shí)候我們能說沒有看見嗎?其實(shí)是看見了,但是我們并沒有真正讀懂我們能夠干什么。

第二,在視覺不可及之處,能否借助機(jī)器人實(shí)現(xiàn)環(huán)境理解,才是技術(shù)應(yīng)努力的方向。

其實(shí)我們看到很多消費(fèi)級的商品已通過交互設(shè)計(jì)模擬“讀懂”體驗(yàn)以提升用戶體驗(yàn),比如大家每天在用的微信二維碼。大家并不需要理解二維碼本身的內(nèi)容,但在掃碼過程中,二維碼會逐漸地放大,好像它正在逐漸向你走來一樣,動態(tài)放大的動畫給予我們“系統(tǒng)正逐漸識別”的明確反饋,從而營造出流暢的認(rèn)知體驗(yàn)。這個(gè)過程的用戶體驗(yàn)非常好,雖然本身并不對識別帶來本質(zhì)的幫助。

這就是我二十多年里,研究機(jī)器人,研究計(jì)算機(jī)視覺的非常重要的領(lǐng)域,我們把它叫做主動感知,主動感知能夠幫助我們從“看見”到“讀懂”。為什么呢?


主動與具身是實(shí)現(xiàn)跨越的關(guān)鍵

從哲學(xué)上講我們有一句很有名的話叫做“眼睛看到的事實(shí)其實(shí)是大腦想讓你看到的東西”。我們不要自己騙自己,實(shí)際上你看到的東西就是大腦想讓你看到的東西。大腦不想讓你看到的東西,你是記不住的,你看了等于沒看。這是我們從感知到認(rèn)知之間最大的差異,也是從看見到讀懂之間最大的差異。

所以我們一直有一個(gè)觀點(diǎn),從看見到讀懂里面有很多種不同的途徑到道路,但主動是這里面最重要的一條必由之路。


圖1.“主動”是從“看見”到“讀懂”的必由之路

舉個(gè)簡單例子,在目前的監(jiān)控系統(tǒng)里每個(gè)小區(qū)都有大量的攝像頭,但是很多攝像頭它是固定的,當(dāng)出現(xiàn)了事故、出現(xiàn)了狀況之后,我們只能事后分析,而不能在當(dāng)場感知它,去測量它。

這個(gè)問題的根源在哪里呢?如果去追本溯源,去尋找計(jì)算機(jī)視覺、尋找機(jī)器人的根源,其實(shí)我們可以上溯到上個(gè)世紀(jì)(1966年)。計(jì)算機(jī)視覺的誕生源自一位有名的教授給他的學(xué)生說了一句話,讓他在一個(gè)月之內(nèi)能夠讓機(jī)器人利用計(jì)算機(jī)視覺的技術(shù)去抓取場景里面的一塊東西,在這個(gè)時(shí)候大家真正意識到了什么叫做真正的智能機(jī)器人。但是可惜的是這個(gè)領(lǐng)域出現(xiàn)之后大家很快分成兩個(gè)不同的學(xué)派,一個(gè)叫計(jì)算機(jī)視覺,一個(gè)叫做智能機(jī)器人。這兩個(gè)學(xué)派在1994年“打過一次仗”,在一個(gè)很有名國際期刊上發(fā)表過一次“論戰(zhàn)”,這場“論戰(zhàn)”就意味著通用視覺或者是專用視覺或者是目的性視覺之間的交鋒。這次交鋒非常激烈,交鋒的結(jié)果很慘烈,幾乎是計(jì)算機(jī)視覺占了主導(dǎo)。所以從1994到現(xiàn)在,從我上學(xué)時(shí)候一直到前不久,很長一段時(shí)間我們的人工智能、計(jì)算機(jī)視覺都是沿著這條路徑發(fā)展的。

感知,理解。

當(dāng)前,在互聯(lián)網(wǎng)所提供的大規(guī)模數(shù)據(jù)與多樣化算力的支撐下,我們能夠?qū)崿F(xiàn)從模式識別、機(jī)器學(xué)習(xí)到基礎(chǔ)模型乃至多模態(tài)融合等一系列技術(shù)突破。這一技術(shù)體系,正構(gòu)成了我們稱之為計(jì)算機(jī)視覺或感知理解的核心發(fā)展路徑。

但一方面,搞機(jī)器人的人真正關(guān)注的是什么?關(guān)注的是感知和行為,關(guān)注的是物理世界。所以我們在這里面發(fā)表出了視覺測量、視覺導(dǎo)航,我們也有多模態(tài),我們的多模態(tài)指的是視覺、觸覺、聽覺、雷達(dá)、紅外,這兩條線索在很長時(shí)間內(nèi)是相對獨(dú)立的,一直到2018年,大家重新審視,機(jī)器人和計(jì)算機(jī)視覺是不是應(yīng)該重新回歸到一起,形成我們真正在客觀物理世界里能夠靈活主動的一種模式,就是具身智能。所以今天所提的具身智能,其實(shí)我理解,它的最核心最本質(zhì)的根基其實(shí)就在于我們的主動感知,它能夠把我們靜態(tài)的視覺和動態(tài)的物理世界有機(jī)的融合起來,來形成關(guān)于整個(gè)對物理世界的感知和理解。

在解決這個(gè)問題的過程中我們面臨很多障礙,最大的障礙是莫拉維克悖論。上個(gè)世紀(jì)80年代中期,兩位機(jī)器人科學(xué)家留給我們一句話,電腦像成人般的下棋相對容易,但要讓電腦像一歲的小孩般的感知和行動非常難。所以我們現(xiàn)在看到的人工智能可以下棋,可以寫詩,可以作畫,但是在行走在操作甚至在很多感知問題上依然離人還有很遠(yuǎn)的距離。這恰巧就是我們從看見到讀懂過程中最應(yīng)該去關(guān)注的問題,這個(gè)問題涉及到我們今天所討論非常重要的研究方向,就是具身人工智能。

具身人工智能大家討論非常多,各人理解不同。我們一直堅(jiān)信具身智能本質(zhì)上是用身體,它一定有一個(gè)物理的身體,利用這個(gè)身體,利用感知和行動,在和環(huán)境交互過程中產(chǎn)生智能。

我們關(guān)注過一篇心理學(xué)的文獻(xiàn),里面提到關(guān)于人具身認(rèn)知的六個(gè)維度,翻譯成計(jì)算機(jī)研究人員的話,可以總結(jié)為:多模態(tài)感知、持續(xù)學(xué)習(xí)、物理交互、靈活探索、社交模仿以及語言學(xué)習(xí)。一會兒會稍微展開介紹,這幾條線索如何指導(dǎo)我們開展現(xiàn)有的研究工作。

進(jìn)一步分析可發(fā)現(xiàn),上述維度主要涉及形態(tài)、行為、感知與學(xué)習(xí)四個(gè)核心要素,它們分別對應(yīng)不同學(xué)科的研究重點(diǎn):形態(tài)屬于機(jī)械領(lǐng)域,行為屬于自動化控制,感知屬于計(jì)算機(jī)科學(xué),學(xué)習(xí)則屬于人工智能范疇。而在具身智能的框架下,真正關(guān)鍵的是這四個(gè)要素的協(xié)同增效——任何一個(gè)專業(yè)都無法獨(dú)立解決具身智能的根本問題。


圖2.具身智能是形態(tài)、行為、感知與學(xué)習(xí)的協(xié)同增效


四大主動能力驅(qū)動具身智能

因此,我們構(gòu)建了一套體系架構(gòu),將國際上近期具身智能相關(guān)研究置于該框架下進(jìn)行梳理分析,可以看到,他們確實(shí)在踐行形態(tài)、行為、感知和學(xué)習(xí)之間不同箭頭的關(guān)系。整體而言,該領(lǐng)域無論在研究、開發(fā)乃至產(chǎn)業(yè)化方面,仍存在廣闊的發(fā)展空間。

那么,這片領(lǐng)域的空白,以及它正的創(chuàng)新點(diǎn)在什么地方?核心在于主動。我們可以用主動的方式幫助我們做控制,用主動的方式做學(xué)習(xí)、做感知,甚至做凈化,而現(xiàn)有的方法更多是被動的、離散的,或者說靜態(tài)的方式去解決問題。這也是我們近年來一直在開展具身智能過程中的一個(gè)角度,希望能用主動的方式解決我們所面臨的一系列問題。


圖3.具身智能是形態(tài)、行為、感知與學(xué)習(xí)的協(xié)同增效(2)

可以看看主動到底能為我們做什么呢?

舉個(gè)簡單例子,在計(jì)算機(jī)視覺領(lǐng)域中,無人駕駛系統(tǒng)通常將攝像頭固定在車上,隨車輛移動進(jìn)行實(shí)時(shí)環(huán)境檢測,但這種模式往往無法主動尋找從未見過的事物。而另一種路徑則是——即便是一根結(jié)構(gòu)簡單的機(jī)械臂,在復(fù)雜環(huán)境中找不到目標(biāo)時(shí),也會主動利用自身的形態(tài)與行為來輔助感知、促進(jìn)學(xué)習(xí)。這種行為已超出傳統(tǒng)意義上的“感知”,我們更傾向于稱之為“發(fā)現(xiàn)”。

從學(xué)習(xí)角度來看,現(xiàn)在的機(jī)器學(xué)習(xí)都是靜態(tài)的、被動的、離散的,說白了就像是填鴨式學(xué)習(xí),我們希望做到的是具身地學(xué)習(xí),主動地、創(chuàng)造性地、自發(fā)地學(xué)習(xí),控制、優(yōu)化等都可以做到。這些是一些概念性闡述,我們自己也在開展相關(guān)的研究工作,所以我們一直堅(jiān)信,主動是實(shí)現(xiàn)具身智能的靈魂性要素。因?yàn)樗軒椭覀儗?shí)現(xiàn)主動控制,當(dāng)我們幫助人形機(jī)器人學(xué)習(xí)一個(gè)策略的時(shí)候,我們現(xiàn)在看到的只是人形機(jī)器人多么復(fù)雜,自由度多么高,我們是不是可以想象一下,人形機(jī)器人為什么要做成這樣一種樣子?為什么要具備這么多自由度?它是不是能為我們的學(xué)習(xí)帶來好處,而不是把它當(dāng)成一個(gè)負(fù)擔(dān)。


圖4.“主動”是具身智能的“靈魂”

因此,我們可以充分利用人形機(jī)器人的形態(tài)特點(diǎn),從而簡化所需的控制信號與控制結(jié)構(gòu)。實(shí)際中可見,即便采用非常簡單的控制信號,也能有效推動人形機(jī)器人在訓(xùn)練過程中快速掌握動作與任務(wù)。

其次在于主動感知。當(dāng)機(jī)器人在實(shí)際環(huán)境中未能直接發(fā)現(xiàn)目標(biāo)時(shí),并不意味著任務(wù)終結(jié)——恰恰相反,這正是其自主探索的開始。它需要在環(huán)境中進(jìn)行搜尋與探索,直至最終定位目標(biāo)。

主動學(xué)習(xí)也是如此?,F(xiàn)有機(jī)器人的形態(tài)通常在初始階段便被固定下來,此后不再改變,但這并非最優(yōu)方案。機(jī)器人到底應(yīng)該長什么樣,不應(yīng)該由人說了算,而是應(yīng)該由任務(wù)說了算,應(yīng)該由場景說了算。通過對抗、適應(yīng)、發(fā)育與進(jìn)化學(xué)習(xí)等方式,在交互中逐漸形成最合適的形態(tài),而不是說我覺得它是什么樣就是什么樣,這本質(zhì)上是一個(gè)由場景與任務(wù)驅(qū)動的主動學(xué)習(xí)過程。

此外還有主動協(xié)同。如今機(jī)器人日益普及且成本降低,每個(gè)實(shí)驗(yàn)室、每個(gè)房間都可以部署多個(gè)機(jī)器人。這些機(jī)器人往往接口不一、形態(tài)各異、能力不同,如何使它們有效協(xié)同?最重要的是讓每個(gè)機(jī)器人能夠識別自身短板,并在能力不足時(shí)主動召喚可協(xié)助它的其他機(jī)器人。這才是我們真正在協(xié)同里面引入主動的思路。目前,我們已在此方向開展了一些初步的研究工作。

在主動感知的基礎(chǔ)上,下一步應(yīng)著力解決感知能力的多維融合問題。當(dāng)前機(jī)器人系統(tǒng)的短板往往并非缺乏主動性,而在于感知維度與理解深度的不足——主動性主要優(yōu)化了時(shí)間維度的響應(yīng)效率,但在空間與環(huán)境理解層面,僅依賴視覺是遠(yuǎn)遠(yuǎn)不夠的。盡管如今機(jī)器人普遍集成了激光雷達(dá)、超聲波、紅外、觸覺及視覺等多種傳感器,隨之而來的核心挑戰(zhàn)是如何實(shí)現(xiàn)多模態(tài)信息的真正融合與協(xié)同理解。

從具身智能的維度來看,在建立物理交互與靈活探索的機(jī)制后,我們應(yīng)著重關(guān)注多模態(tài)感知與持續(xù)學(xué)習(xí)。因此,我們需要在現(xiàn)有機(jī)器人系統(tǒng)中引入更豐富的感知模態(tài),從而實(shí)現(xiàn)對環(huán)境的深度理解——正如人類并非僅依賴視覺來認(rèn)知世界一樣。圍繞這一方向,我們也已開展了一些初步研究工作,接下來可以對此進(jìn)行簡要介紹。


從技術(shù)突破到場景落地實(shí)踐

我們重點(diǎn)通過動作與行為來融合多模態(tài)信息,包括面向無人駕駛的光學(xué)、紅外與雷達(dá)數(shù)據(jù),以及面向靈巧操作的視覺、觸覺、聽覺等與物理世界的主動匹配,實(shí)現(xiàn)了感知、動作與語言的聯(lián)合對齊。基于此,我們具體開發(fā)了具身語音描述、語音融合、多模態(tài)感知以及具身問答等一系列系統(tǒng),并在無人駕駛場景中開展應(yīng)用。我們在無人駕駛領(lǐng)域的研究始于2002年,持續(xù)至今,其核心始終圍繞解決“看不清、看不準(zhǔn)、看不全”的問題——而這正是依賴主動感知與多模態(tài)融合共同實(shí)現(xiàn)的。

與此同時(shí),圍繞上述問題,我們也突破了相關(guān)關(guān)鍵技術(shù),其核心在于如何更有效地利用多模態(tài)信息,以及如何以主動方式適應(yīng)復(fù)雜動態(tài)環(huán)境。

基于上述研究,我們進(jìn)一步將工作拓展至空中領(lǐng)域,開展了異構(gòu)飛行汽車等前沿探索。比如,多個(gè)形態(tài)功能各異的機(jī)器人可在室內(nèi)實(shí)現(xiàn)協(xié)同作業(yè):當(dāng)某個(gè)機(jī)器人發(fā)現(xiàn)自身無法獨(dú)立完成某項(xiàng)任務(wù)時(shí),能夠通過語音信號主動召喚其他機(jī)器人協(xié)助完成。這項(xiàng)研究也充分體現(xiàn)了多模態(tài)融合與主動協(xié)同的核心思想

基于以上研究,我們進(jìn)一步追問:在多模態(tài)主動感知實(shí)現(xiàn)之后,下一步應(yīng)當(dāng)走向何方?當(dāng)前的研究多圍繞特定任務(wù)展開,而更關(guān)鍵的是,機(jī)器人能否根據(jù)任務(wù)的變化,靈活地調(diào)整自身形態(tài)與行為,以應(yīng)對多樣、動態(tài)的任務(wù)需求。這些任務(wù)從何而來?根本上來源于人的指令。人可以通過語言告知機(jī)器人該做什么,但目前大多數(shù)機(jī)器人仍缺乏高效的自然交互能力。

從研究框架上看,我們需要引入另外兩個(gè)關(guān)鍵維度:社交模仿與語言學(xué)習(xí)。這也正是當(dāng)前業(yè)界積極將語言大模型融入具身智能的重要原因。大模型不僅能幫助機(jī)器人進(jìn)行任務(wù)規(guī)劃與場景化決策,更能推動人機(jī)交互邁向自然化、智能化。我們團(tuán)隊(duì)最近發(fā)布的VRV基礎(chǔ)模型,正是致力于強(qiáng)化語言在交互中的作用,從而提升機(jī)器人與人之間的協(xié)作效率與適應(yīng)性。

在此我們引用一篇專門探討服務(wù)機(jī)器人需具備多少主動性的文章,其中總結(jié)了當(dāng)前機(jī)器人在交互方式、動態(tài)環(huán)境適應(yīng)與主動服務(wù)能力等方面的明顯不足,這也正是我們持續(xù)攻關(guān)的方向。

以動態(tài)環(huán)境適應(yīng)為例:酒店服務(wù)機(jī)器人雖能便捷地將物品送至房間,但它所識別的是“房間”而非“你”本人。若你更換房間,機(jī)器人并無法感知這一變化。如何讓它真正理解“找人”而非“找房間”?這需要通過自然交流與交互來實(shí)現(xiàn)——而這正是語言大模型能夠發(fā)揮作用的地方。再如辦公室中的助理機(jī)器人,當(dāng)它無法獨(dú)立完成某項(xiàng)任務(wù)時(shí),不應(yīng)就此停止,而應(yīng)主動思考:“如果我自己做不到,能否詢問他人或其他機(jī)器人協(xié)助?”這種主動行為能力,才能使機(jī)器人成為真正“眼里有活”的助手,而非僅按指令行事的機(jī)械工具。這都是我們希望能夠做到的。


邁向具備后果預(yù)見的世界模型

最后簡要總結(jié):無論是從“看見”到“讀懂”的跨越,還是對具身智能的探索,我們觀察到行業(yè)中主要存在三類不同的態(tài)度。最受關(guān)注的是前沿性進(jìn)展,許多創(chuàng)業(yè)公司和高校團(tuán)隊(duì)正聚焦于這一領(lǐng)域開展具身智能的前沿研究;令人欣喜的是,中間的新興領(lǐng)域也有越來越多企業(yè)(例如越凡創(chuàng)新)對具身智能表現(xiàn)出強(qiáng)烈興趣,并積極將主動感知、具身交互等關(guān)鍵技術(shù)應(yīng)用于自身行業(yè);相對而言,傳統(tǒng)行業(yè)(如工業(yè)機(jī)器人“四大家族”)對具身智能仍持保守態(tài)度。有時(shí)候我跟團(tuán)隊(duì)開玩笑,等傳統(tǒng)行業(yè)都對具身智能開始感興趣了,就沒我們的機(jī)會了,所以現(xiàn)在的機(jī)會正是恰逢其時(shí)。

順著最后那個(gè)問題,談?wù)勎覀兊难芯克悸罚寒?dāng)大模型與智能體技術(shù)已經(jīng)用得差不多的時(shí)候,我們的下一步是什么?具身智能的六大要素仿佛已經(jīng)被我們用得差不多了,是不是所有的具身智能問題都已經(jīng)解決了?并沒有。回頭看看具身智能里面最重要的一個(gè)要素,和環(huán)境實(shí)現(xiàn)交互,這是最最核心的問題,這個(gè)問題并沒有得到很好地解決。

如何解決這個(gè)問題呢?我們需要讓機(jī)器具備對行為后果的預(yù)見與評估能力?;仡櫞饲皟蓚€(gè)案例:機(jī)器人能夠忠實(shí)地執(zhí)行當(dāng)前指令,卻往往不會考慮行為可能帶來的后果。正如網(wǎng)絡(luò)上一幅圖所喻示的:一個(gè)成年人不會貿(mào)然拉開那扇(裝滿碗碟的)柜門,但兒童或機(jī)器人卻可能因缺乏后果認(rèn)知而直接行動。如何讓機(jī)器擁有這種“考慮后果”的能力?這是現(xiàn)在的機(jī)器學(xué)習(xí)以及現(xiàn)在的機(jī)器人很難完成的任務(wù),這是我們的下一站,也是正在拓展的研究方向——世界模型。世界模型也是為下一步真正從看見到讀懂的一個(gè)重要的技術(shù)途徑,以后有機(jī)會再跟大家分享。

? Copyright

雨前顧問原創(chuàng)作品 | 未經(jīng)授權(quán)請勿轉(zhuǎn)載 | 歡迎分享朋友圈


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
入睡時(shí)間縮短10倍!北大研究揭示:3億人失眠或是腸道里缺了它

入睡時(shí)間縮短10倍!北大研究揭示:3億人失眠或是腸道里缺了它

科學(xué)認(rèn)識論
2026-03-09 15:12:50
夢幻半場!楊瀚森8中8轟17+3+2+1 彈無虛發(fā)無可阻擋

夢幻半場!楊瀚森8中8轟17+3+2+1 彈無虛發(fā)無可阻擋

醉臥浮生
2026-03-12 11:41:26
越南女子遠(yuǎn)嫁廣西農(nóng)村,生下女兒后“跑”了,22年后女兒跨國尋親

越南女子遠(yuǎn)嫁廣西農(nóng)村,生下女兒后“跑”了,22年后女兒跨國尋親

談史論天地
2026-03-02 19:45:03
中俄帶頭贊成!美國反對!

中俄帶頭贊成!美國反對!

看看新聞Knews
2026-03-12 11:11:20
安杰每次和江德福親熱完,第一件事不是溫存,而是光腳下床開窗

安杰每次和江德福親熱完,第一件事不是溫存,而是光腳下床開窗

西樓知趣雜談
2026-03-11 21:48:37
黎真主黨領(lǐng)導(dǎo)人:將效忠于伊朗新任最高領(lǐng)袖 穆杰塔巴

黎真主黨領(lǐng)導(dǎo)人:將效忠于伊朗新任最高領(lǐng)袖 穆杰塔巴

每日經(jīng)濟(jì)新聞
2026-03-12 08:09:27
38歲梅西獲評6.7分+無緣MVP:3次射門無一命中,率隊(duì)0-0悶平

38歲梅西獲評6.7分+無緣MVP:3次射門無一命中,率隊(duì)0-0悶平

側(cè)身凌空斬
2026-03-12 09:34:29
3月又一款新機(jī)官宣:3月12日,正式發(fā)布上市!

3月又一款新機(jī)官宣:3月12日,正式發(fā)布上市!

科技堡壘
2026-03-10 09:51:18
戰(zhàn)事升溫,朝鮮開始上場,多國對美發(fā)出檄文,伊朗導(dǎo)彈發(fā)射率變了

戰(zhàn)事升溫,朝鮮開始上場,多國對美發(fā)出檄文,伊朗導(dǎo)彈發(fā)射率變了

策略述
2026-03-12 15:24:05
6比0?國安帶著小學(xué)生坎特來砸場子,泰山先把電梯安保搞明白再說

6比0?國安帶著小學(xué)生坎特來砸場子,泰山先把電梯安保搞明白再說

體壇小鵬
2026-03-12 14:50:39
剛剛!武漢“世界級”規(guī)劃傳來大消息!

剛剛!武漢“世界級”規(guī)劃傳來大消息!

越喬
2026-03-11 22:32:57
高潔:氣不足容易醒,血不足睡不著,一個(gè)方子,把氣和血都補(bǔ)上

高潔:氣不足容易醒,血不足睡不著,一個(gè)方子,把氣和血都補(bǔ)上

蠟筆小小子
2026-01-21 13:44:22
歐冠綜述:皇馬3-0曼城 巴黎5-2切爾西 阿森納絕平 博德閃耀5連勝

歐冠綜述:皇馬3-0曼城 巴黎5-2切爾西 阿森納絕平 博德閃耀5連勝

我愛英超
2026-03-12 06:03:17
屬虎人:三月中旬將有一場“大哭”等著你!但這卻是你今年的頭號喜事

屬虎人:三月中旬將有一場“大哭”等著你!但這卻是你今年的頭號喜事

愛下廚的阿釃
2026-03-12 12:33:07
騰訊發(fā)文:非常緊張,盡量爭取

騰訊發(fā)文:非常緊張,盡量爭取

時(shí)間財(cái)經(jīng)
2026-03-12 15:20:55
布里斯班獅吼女子官方:5名伊朗女足成員加入,將開啟新生活

布里斯班獅吼女子官方:5名伊朗女足成員加入,將開啟新生活

懂球帝
2026-03-11 17:30:06
你有多穩(wěn),孩子就有多優(yōu)秀:好的教育,是父母先做堅(jiān)定的大人

你有多穩(wěn),孩子就有多優(yōu)秀:好的教育,是父母先做堅(jiān)定的大人

青蘋果sht
2026-03-10 10:59:46
“馬上林沖,馬下武松”其實(shí)下半句才是精華,知道的人卻鳳毛麟角

“馬上林沖,馬下武松”其實(shí)下半句才是精華,知道的人卻鳳毛麟角

銘記歷史呀
2026-03-11 17:26:05
2條“久拖不決”的普速鐵路有好消息!未來5年重燃開工希望

2條“久拖不決”的普速鐵路有好消息!未來5年重燃開工希望

鐵路叨叨嘴
2026-03-12 01:52:32
知名男歌手透露身患“躁郁癥”:賠過大錢、經(jīng)歷過生離死別,坦言翻紅三年幾乎全年無休

知名男歌手透露身患“躁郁癥”:賠過大錢、經(jīng)歷過生離死別,坦言翻紅三年幾乎全年無休

魯中晨報(bào)
2025-10-27 06:56:05
2026-03-12 16:08:49
雨前顧問 incentive-icons
雨前顧問
成都最專業(yè)的獨(dú)角獸培育機(jī)構(gòu)
345文章數(shù) 9關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

美國將對包括中國在內(nèi)的多國啟動新貿(mào)易調(diào)查 中方回應(yīng)

頭條要聞

美國將對包括中國在內(nèi)的多國啟動新貿(mào)易調(diào)查 中方回應(yīng)

體育要聞

要臉,還是要83分紀(jì)錄?

娛樂要聞

李湘瘦身驚艷亮相肖邦之夜 攜女兒出席

財(cái)經(jīng)要聞

盧鋒:從特朗普團(tuán)隊(duì)群演看時(shí)代變局

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

家居
游戲
藝術(shù)
親子
本地

家居要聞

觸感本真 家的跡象

《刺客信條:黑旗》重制版地圖泄露 大小不變內(nèi)容增多

藝術(shù)要聞

朱屺瞻『凌波仙子』

親子要聞

家長忽視螨蟲問題,5歲女童角膜穿孔!醫(yī)生:8根睫毛里竟藏著近20條螨蟲

本地新聞

坐標(biāo)北京,過敏季反向遷徒

無障礙瀏覽 進(jìn)入關(guān)懷版