劉華平：城市機器人的下一站，如何從“看見”到“讀懂”？

2026-01-27 16:30:12　來源: 雨前顧問

四川舉報

分享至

近日，“2026智能機器人城市空間應(yīng)用場景大會”在成都舉行。會上，研究派專家代表，清華大學(xué)計算機科學(xué)與技術(shù)系教授、IEEE Fellow劉華平教授與實戰(zhàn)派專家代表，成都市機器人產(chǎn)業(yè)協(xié)會副會長、越凡創(chuàng)新董事長兼CEO黃山，分別從理論前沿與產(chǎn)業(yè)實踐的角度，發(fā)表了精彩的主題演講。

本次大會在成都市相關(guān)政府機構(gòu)及產(chǎn)業(yè)協(xié)會的共同指導(dǎo)與主辦下，匯聚了政、產(chǎn)、學(xué)、研各界力量。本文將首先提煉劉華平教授的核心觀點。

劉教授認為，當(dāng)前機器人智能受限于被動感知，需向主動“讀懂”跨越。其核心路徑是發(fā)展主動感知與具身智能，并通過融合多模態(tài)感知與構(gòu)建世界模型，最終實現(xiàn)機器人對環(huán)境的深層理解與自主決策。

接下來，我們將繼續(xù)分享實戰(zhàn)派專家、成都市機器人產(chǎn)業(yè)協(xié)會副會長黃山從產(chǎn)業(yè)一線帶來的實踐洞察。

劉華平

IEEE Fellow、清華大學(xué)計算機科學(xué)與技術(shù)系教授

以下為劉華平教授演講核心觀點：

1.感知的本質(zhì)差異在于：眼睛“看見”的是大腦選擇的信息，而“讀懂”則需要形成主動的認知與記憶。

2.真正的“讀懂”需要實現(xiàn)兩大跨越：預(yù)知行為后果，以及在視覺不可及處依然理解環(huán)境。

3.實現(xiàn)從“看見”到“讀懂”的根本路徑在于發(fā)展主動感知與具身智能。

4.具身智能依賴四大主動能力的協(xié)同：主動控制、主動感知、主動學(xué)習(xí)與主動協(xié)同。

5.機器人的形態(tài)設(shè)計應(yīng)由任務(wù)與場景驅(qū)動，通過對抗、適應(yīng)與進化學(xué)習(xí)動態(tài)形成，而非預(yù)先固定。

6.實現(xiàn)多機器人協(xié)同的關(guān)鍵，在于每個個體需具備“自知之明”，能主動識別自身短板并召喚外部協(xié)助。

7.單一視覺遠遠不夠，必須融合多模態(tài)感知才能實現(xiàn)對物理世界的深度理解。

8.無人駕駛長達二十年的研究，其核心是持續(xù)解決“看不清、看不準(zhǔn)、看不全”這一根本性感知挑戰(zhàn)。

9.當(dāng)前服務(wù)機器人的主要瓶頸并非感知硬件，而在于交互方式、動態(tài)環(huán)境理解與主動服務(wù)能力的系統(tǒng)性欠缺。

10.未來突破的關(guān)鍵在于發(fā)展“世界模型”，使機器人具備預(yù)見與評估行為后果的能力。

以下為劉華平教授演講主要內(nèi)容：

從“看見”到“讀懂”的認知覺醒

我是從2000年開始從事機器人行業(yè)，到現(xiàn)在算下來25年了，這25年從某種意義來講恰好是計算機視覺、機器人視覺，甚至包括整個機器人具身智能行業(yè)怎么從“看見”到“讀懂”這個過程，反過來也影響了我對這個問題的思考和理解，今天簡單給大家分享我對這個問題的理解。

我最早與自動駕駛結(jié)緣于2000年3月，當(dāng)時正攻讀博士學(xué)位，也是國內(nèi)首批開展自動駕駛研究的團隊之一。從純粹的學(xué)術(shù)研究視角出發(fā)，那時我未曾預(yù)料到這項技術(shù)未來能真正融入日常生活。在實驗車輛的后座上，我的主要職責(zé)是在緊急情況下啟動安全開關(guān)，其余時間車輛均處于自主行駛狀態(tài)。

國家重點實驗室驗收期間，我們?yōu)檠菔驹O(shè)計了一項直線行駛測試。過程中，一位身著白衣的院士專家對我們的測試方式提出質(zhì)疑，并突然走向車道。幸運的是，試驗車輛及時感知并規(guī)避了專家與其側(cè)的自行車，順利通過驗收。這段視頻也成為二十余年來保存下的唯一珍貴記錄。

我之所以回看這段經(jīng)歷，是想說明：當(dāng)時我們自認為已能夠“讀懂”環(huán)境、理解世界，但如今反思，那更多仍停留在“看見”的層面。盡管當(dāng)時的機器人搭載了昂貴的視覺傳感器、激光雷達與多套定位系統(tǒng)，實現(xiàn)的實則是對環(huán)境的被動感知，而非真正意義上的認知與理解。

什么叫讀懂呢？可能不同的人有不同的理解。從個人做研究的角度理解，我覺得來自兩方面。

第一，我們做每一個動作的時候，要能夠知道我們下一步會產(chǎn)生什么樣的后果，這才是真正讀懂了這個事情，這是最重要的。第二，現(xiàn)在的計算機視覺和現(xiàn)在的攝像頭只能捕捉我們能看到的東西，當(dāng)我們看不到的時候怎么辦，這時候機器人應(yīng)該發(fā)揮作用——這正是“讀懂”應(yīng)當(dāng)發(fā)揮作用的領(lǐng)域。

我自己有一個切身體會。在學(xué)校的車庫，我的車要是稍微角度不對，桿是不會抬的它能夠識別到車牌，但它有可能檢測不到我的車牌，過不去。我在網(wǎng)上找了幾個視頻，可以非常簡單地騙過攝像頭，但是有些時候我們的車想過去的時候我們反而過不去，這個時候我們能說沒有看見嗎？其實是看見了，但是我們并沒有真正讀懂我們能夠干什么。

第二，在視覺不可及之處，能否借助機器人實現(xiàn)環(huán)境理解，才是技術(shù)應(yīng)努力的方向。

其實我們看到很多消費級的商品已通過交互設(shè)計模擬“讀懂”體驗以提升用戶體驗，比如大家每天在用的微信二維碼。大家并不需要理解二維碼本身的內(nèi)容，但在掃碼過程中，二維碼會逐漸地放大，好像它正在逐漸向你走來一樣，動態(tài)放大的動畫給予我們“系統(tǒng)正逐漸識別”的明確反饋，從而營造出流暢的認知體驗。這個過程的用戶體驗非常好，雖然本身并不對識別帶來本質(zhì)的幫助。

這就是我二十多年里，研究機器人，研究計算機視覺的非常重要的領(lǐng)域，我們把它叫做主動感知，主動感知能夠幫助我們從“看見”到“讀懂”。為什么呢？

主動與具身是實現(xiàn)跨越的關(guān)鍵

從哲學(xué)上講我們有一句很有名的話叫做“眼睛看到的事實其實是大腦想讓你看到的東西”。我們不要自己騙自己，實際上你看到的東西就是大腦想讓你看到的東西。大腦不想讓你看到的東西，你是記不住的，你看了等于沒看。這是我們從感知到認知之間最大的差異，也是從看見到讀懂之間最大的差異。

所以我們一直有一個觀點，從看見到讀懂里面有很多種不同的途徑到道路，但主動是這里面最重要的一條必由之路。

圖1.“主動”是從“看見”到“讀懂”的必由之路

舉個簡單例子，在目前的監(jiān)控系統(tǒng)里每個小區(qū)都有大量的攝像頭，但是很多攝像頭它是固定的，當(dāng)出現(xiàn)了事故、出現(xiàn)了狀況之后，我們只能事后分析，而不能在當(dāng)場感知它，去測量它。

這個問題的根源在哪里呢？如果去追本溯源，去尋找計算機視覺、尋找機器人的根源，其實我們可以上溯到上個世紀(jì)（1966年）。計算機視覺的誕生源自一位有名的教授給他的學(xué)生說了一句話，讓他在一個月之內(nèi)能夠讓機器人利用計算機視覺的技術(shù)去抓取場景里面的一塊東西，在這個時候大家真正意識到了什么叫做真正的智能機器人。但是可惜的是這個領(lǐng)域出現(xiàn)之后大家很快分成兩個不同的學(xué)派，一個叫計算機視覺，一個叫做智能機器人。這兩個學(xué)派在1994年“打過一次仗”，在一個很有名國際期刊上發(fā)表過一次“論戰(zhàn)”，這場“論戰(zhàn)”就意味著通用視覺或者是專用視覺或者是目的性視覺之間的交鋒。這次交鋒非常激烈，交鋒的結(jié)果很慘烈，幾乎是計算機視覺占了主導(dǎo)。所以從1994到現(xiàn)在，從我上學(xué)時候一直到前不久，很長一段時間我們的人工智能、計算機視覺都是沿著這條路徑發(fā)展的。

感知，理解。

當(dāng)前，在互聯(lián)網(wǎng)所提供的大規(guī)模數(shù)據(jù)與多樣化算力的支撐下，我們能夠?qū)崿F(xiàn)從模式識別、機器學(xué)習(xí)到基礎(chǔ)模型乃至多模態(tài)融合等一系列技術(shù)突破。這一技術(shù)體系，正構(gòu)成了我們稱之為計算機視覺或感知理解的核心發(fā)展路徑。

但一方面，搞機器人的人真正關(guān)注的是什么？關(guān)注的是感知和行為，關(guān)注的是物理世界。所以我們在這里面發(fā)表出了視覺測量、視覺導(dǎo)航，我們也有多模態(tài)，我們的多模態(tài)指的是視覺、觸覺、聽覺、雷達、紅外，這兩條線索在很長時間內(nèi)是相對獨立的，一直到2018年，大家重新審視，機器人和計算機視覺是不是應(yīng)該重新回歸到一起，形成我們真正在客觀物理世界里能夠靈活主動的一種模式，就是具身智能。所以今天所提的具身智能，其實我理解，它的最核心最本質(zhì)的根基其實就在于我們的主動感知，它能夠把我們靜態(tài)的視覺和動態(tài)的物理世界有機的融合起來，來形成關(guān)于整個對物理世界的感知和理解。

在解決這個問題的過程中我們面臨很多障礙，最大的障礙是莫拉維克悖論。上個世紀(jì)80年代中期，兩位機器人科學(xué)家留給我們一句話，電腦像成人般的下棋相對容易，但要讓電腦像一歲的小孩般的感知和行動非常難。所以我們現(xiàn)在看到的人工智能可以下棋，可以寫詩，可以作畫，但是在行走在操作甚至在很多感知問題上依然離人還有很遠的距離。這恰巧就是我們從看見到讀懂過程中最應(yīng)該去關(guān)注的問題，這個問題涉及到我們今天所討論非常重要的研究方向，就是具身人工智能。

具身人工智能大家討論非常多，各人理解不同。我們一直堅信具身智能本質(zhì)上是用身體，它一定有一個物理的身體，利用這個身體，利用感知和行動，在和環(huán)境交互過程中產(chǎn)生智能。

我們關(guān)注過一篇心理學(xué)的文獻，里面提到關(guān)于人具身認知的六個維度，翻譯成計算機研究人員的話，可以總結(jié)為：多模態(tài)感知、持續(xù)學(xué)習(xí)、物理交互、靈活探索、社交模仿以及語言學(xué)習(xí)。一會兒會稍微展開介紹，這幾條線索如何指導(dǎo)我們開展現(xiàn)有的研究工作。

進一步分析可發(fā)現(xiàn)，上述維度主要涉及形態(tài)、行為、感知與學(xué)習(xí)四個核心要素，它們分別對應(yīng)不同學(xué)科的研究重點：形態(tài)屬于機械領(lǐng)域，行為屬于自動化控制，感知屬于計算機科學(xué)，學(xué)習(xí)則屬于人工智能范疇。而在具身智能的框架下，真正關(guān)鍵的是這四個要素的協(xié)同增效——任何一個專業(yè)都無法獨立解決具身智能的根本問題。

圖2.具身智能是形態(tài)、行為、感知與學(xué)習(xí)的協(xié)同增效

四大主動能力驅(qū)動具身智能

因此，我們構(gòu)建了一套體系架構(gòu)，將國際上近期具身智能相關(guān)研究置于該框架下進行梳理分析，可以看到，他們確實在踐行形態(tài)、行為、感知和學(xué)習(xí)之間不同箭頭的關(guān)系。整體而言，該領(lǐng)域無論在研究、開發(fā)乃至產(chǎn)業(yè)化方面，仍存在廣闊的發(fā)展空間。

那么，這片領(lǐng)域的空白，以及它正的創(chuàng)新點在什么地方？核心在于主動。我們可以用主動的方式幫助我們做控制，用主動的方式做學(xué)習(xí)、做感知，甚至做凈化，而現(xiàn)有的方法更多是被動的、離散的，或者說靜態(tài)的方式去解決問題。這也是我們近年來一直在開展具身智能過程中的一個角度，希望能用主動的方式解決我們所面臨的一系列問題。

圖3.具身智能是形態(tài)、行為、感知與學(xué)習(xí)的協(xié)同增效（2）

可以看看主動到底能為我們做什么呢？

舉個簡單例子，在計算機視覺領(lǐng)域中，無人駕駛系統(tǒng)通常將攝像頭固定在車上，隨車輛移動進行實時環(huán)境檢測，但這種模式往往無法主動尋找從未見過的事物。而另一種路徑則是——即便是一根結(jié)構(gòu)簡單的機械臂，在復(fù)雜環(huán)境中找不到目標(biāo)時，也會主動利用自身的形態(tài)與行為來輔助感知、促進學(xué)習(xí)。這種行為已超出傳統(tǒng)意義上的“感知”，我們更傾向于稱之為“發(fā)現(xiàn)”。

從學(xué)習(xí)角度來看，現(xiàn)在的機器學(xué)習(xí)都是靜態(tài)的、被動的、離散的，說白了就像是填鴨式學(xué)習(xí)，我們希望做到的是具身地學(xué)習(xí)，主動地、創(chuàng)造性地、自發(fā)地學(xué)習(xí)，控制、優(yōu)化等都可以做到。這些是一些概念性闡述，我們自己也在開展相關(guān)的研究工作，所以我們一直堅信，主動是實現(xiàn)具身智能的靈魂性要素。因為它能幫助我們實現(xiàn)主動控制，當(dāng)我們幫助人形機器人學(xué)習(xí)一個策略的時候，我們現(xiàn)在看到的只是人形機器人多么復(fù)雜，自由度多么高，我們是不是可以想象一下，人形機器人為什么要做成這樣一種樣子？為什么要具備這么多自由度？它是不是能為我們的學(xué)習(xí)帶來好處，而不是把它當(dāng)成一個負擔(dān)。

圖4.“主動”是具身智能的“靈魂”

因此，我們可以充分利用人形機器人的形態(tài)特點，從而簡化所需的控制信號與控制結(jié)構(gòu)。實際中可見，即便采用非常簡單的控制信號，也能有效推動人形機器人在訓(xùn)練過程中快速掌握動作與任務(wù)。

其次在于主動感知。當(dāng)機器人在實際環(huán)境中未能直接發(fā)現(xiàn)目標(biāo)時，并不意味著任務(wù)終結(jié)——恰恰相反，這正是其自主探索的開始。它需要在環(huán)境中進行搜尋與探索，直至最終定位目標(biāo)。

主動學(xué)習(xí)也是如此?，F(xiàn)有機器人的形態(tài)通常在初始階段便被固定下來，此后不再改變，但這并非最優(yōu)方案。機器人到底應(yīng)該長什么樣，不應(yīng)該由人說了算，而是應(yīng)該由任務(wù)說了算，應(yīng)該由場景說了算。通過對抗、適應(yīng)、發(fā)育與進化學(xué)習(xí)等方式，在交互中逐漸形成最合適的形態(tài)，而不是說我覺得它是什么樣就是什么樣，這本質(zhì)上是一個由場景與任務(wù)驅(qū)動的主動學(xué)習(xí)過程。

此外還有主動協(xié)同。如今機器人日益普及且成本降低，每個實驗室、每個房間都可以部署多個機器人。這些機器人往往接口不一、形態(tài)各異、能力不同，如何使它們有效協(xié)同？最重要的是讓每個機器人能夠識別自身短板，并在能力不足時主動召喚可協(xié)助它的其他機器人。這才是我們真正在協(xié)同里面引入主動的思路。目前，我們已在此方向開展了一些初步的研究工作。

在主動感知的基礎(chǔ)上，下一步應(yīng)著力解決感知能力的多維融合問題。當(dāng)前機器人系統(tǒng)的短板往往并非缺乏主動性，而在于感知維度與理解深度的不足——主動性主要優(yōu)化了時間維度的響應(yīng)效率，但在空間與環(huán)境理解層面，僅依賴視覺是遠遠不夠的。盡管如今機器人普遍集成了激光雷達、超聲波、紅外、觸覺及視覺等多種傳感器，隨之而來的核心挑戰(zhàn)是如何實現(xiàn)多模態(tài)信息的真正融合與協(xié)同理解。

從具身智能的維度來看，在建立物理交互與靈活探索的機制后，我們應(yīng)著重關(guān)注多模態(tài)感知與持續(xù)學(xué)習(xí)。因此，我們需要在現(xiàn)有機器人系統(tǒng)中引入更豐富的感知模態(tài)，從而實現(xiàn)對環(huán)境的深度理解——正如人類并非僅依賴視覺來認知世界一樣。圍繞這一方向，我們也已開展了一些初步研究工作，接下來可以對此進行簡要介紹。

從技術(shù)突破到場景落地實踐

我們重點通過動作與行為來融合多模態(tài)信息，包括面向無人駕駛的光學(xué)、紅外與雷達數(shù)據(jù)，以及面向靈巧操作的視覺、觸覺、聽覺等與物理世界的主動匹配，實現(xiàn)了感知、動作與語言的聯(lián)合對齊?；诖耍覀兙唧w開發(fā)了具身語音描述、語音融合、多模態(tài)感知以及具身問答等一系列系統(tǒng)，并在無人駕駛場景中開展應(yīng)用。我們在無人駕駛領(lǐng)域的研究始于2002年，持續(xù)至今，其核心始終圍繞解決“看不清、看不準(zhǔn)、看不全”的問題——而這正是依賴主動感知與多模態(tài)融合共同實現(xiàn)的。

與此同時，圍繞上述問題，我們也突破了相關(guān)關(guān)鍵技術(shù)，其核心在于如何更有效地利用多模態(tài)信息，以及如何以主動方式適應(yīng)復(fù)雜動態(tài)環(huán)境。

基于上述研究，我們進一步將工作拓展至空中領(lǐng)域，開展了異構(gòu)飛行汽車等前沿探索。比如，多個形態(tài)功能各異的機器人可在室內(nèi)實現(xiàn)協(xié)同作業(yè)：當(dāng)某個機器人發(fā)現(xiàn)自身無法獨立完成某項任務(wù)時，能夠通過語音信號主動召喚其他機器人協(xié)助完成。這項研究也充分體現(xiàn)了多模態(tài)融合與主動協(xié)同的核心思想。

基于以上研究，我們進一步追問：在多模態(tài)主動感知實現(xiàn)之后，下一步應(yīng)當(dāng)走向何方？當(dāng)前的研究多圍繞特定任務(wù)展開，而更關(guān)鍵的是，機器人能否根據(jù)任務(wù)的變化，靈活地調(diào)整自身形態(tài)與行為，以應(yīng)對多樣、動態(tài)的任務(wù)需求。這些任務(wù)從何而來？根本上來源于人的指令。人可以通過語言告知機器人該做什么，但目前大多數(shù)機器人仍缺乏高效的自然交互能力。

從研究框架上看，我們需要引入另外兩個關(guān)鍵維度：社交模仿與語言學(xué)習(xí)。這也正是當(dāng)前業(yè)界積極將語言大模型融入具身智能的重要原因。大模型不僅能幫助機器人進行任務(wù)規(guī)劃與場景化決策，更能推動人機交互邁向自然化、智能化。我們團隊最近發(fā)布的VRV基礎(chǔ)模型，正是致力于強化語言在交互中的作用，從而提升機器人與人之間的協(xié)作效率與適應(yīng)性。

在此我們引用一篇專門探討服務(wù)機器人需具備多少主動性的文章，其中總結(jié)了當(dāng)前機器人在交互方式、動態(tài)環(huán)境適應(yīng)與主動服務(wù)能力等方面的明顯不足，這也正是我們持續(xù)攻關(guān)的方向。

以動態(tài)環(huán)境適應(yīng)為例：酒店服務(wù)機器人雖能便捷地將物品送至房間，但它所識別的是“房間”而非“你”本人。若你更換房間，機器人并無法感知這一變化。如何讓它真正理解“找人”而非“找房間”？這需要通過自然交流與交互來實現(xiàn)——而這正是語言大模型能夠發(fā)揮作用的地方。再如辦公室中的助理機器人，當(dāng)它無法獨立完成某項任務(wù)時，不應(yīng)就此停止，而應(yīng)主動思考：“如果我自己做不到，能否詢問他人或其他機器人協(xié)助？”這種主動行為能力，才能使機器人成為真正“眼里有活”的助手，而非僅按指令行事的機械工具。這都是我們希望能夠做到的。

邁向具備后果預(yù)見的世界模型

最后簡要總結(jié)：無論是從“看見”到“讀懂”的跨越，還是對具身智能的探索，我們觀察到行業(yè)中主要存在三類不同的態(tài)度。最受關(guān)注的是前沿性進展，許多創(chuàng)業(yè)公司和高校團隊正聚焦于這一領(lǐng)域開展具身智能的前沿研究；令人欣喜的是，中間的新興領(lǐng)域也有越來越多企業(yè)（例如越凡創(chuàng)新）對具身智能表現(xiàn)出強烈興趣，并積極將主動感知、具身交互等關(guān)鍵技術(shù)應(yīng)用于自身行業(yè)；相對而言，傳統(tǒng)行業(yè)（如工業(yè)機器人“四大家族”）對具身智能仍持保守態(tài)度。有時候我跟團隊開玩笑，等傳統(tǒng)行業(yè)都對具身智能開始感興趣了，就沒我們的機會了，所以現(xiàn)在的機會正是恰逢其時。

順著最后那個問題，談?wù)勎覀兊难芯克悸罚寒?dāng)大模型與智能體技術(shù)已經(jīng)用得差不多的時候，我們的下一步是什么？具身智能的六大要素仿佛已經(jīng)被我們用得差不多了，是不是所有的具身智能問題都已經(jīng)解決了？并沒有。回頭看看具身智能里面最重要的一個要素，和環(huán)境實現(xiàn)交互，這是最最核心的問題，這個問題并沒有得到很好地解決。

如何解決這個問題呢？我們需要讓機器具備對行為后果的預(yù)見與評估能力。回顧此前兩個案例：機器人能夠忠實地執(zhí)行當(dāng)前指令，卻往往不會考慮行為可能帶來的后果。正如網(wǎng)絡(luò)上一幅圖所喻示的：一個成年人不會貿(mào)然拉開那扇（裝滿碗碟的）柜門，但兒童或機器人卻可能因缺乏后果認知而直接行動。如何讓機器擁有這種“考慮后果”的能力？這是現(xiàn)在的機器學(xué)習(xí)以及現(xiàn)在的機器人很難完成的任務(wù)，這是我們的下一站，也是正在拓展的研究方向——世界模型。世界模型也是為下一步真正從看見到讀懂的一個重要的技術(shù)途徑，以后有機會再跟大家分享。

? Copyright

雨前顧問原創(chuàng)作品 | 未經(jīng)授權(quán)請勿轉(zhuǎn)載 | 歡迎分享朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.