国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

關(guān)于具身智能「觸覺」,你想知道的都在這篇綜述里了

0
分享至



在具身智能的感知拼圖中,觸覺一直扮演著不可或缺卻難以被完美量化的角色。它提供了視覺等遠(yuǎn)程傳感器無法替代的關(guān)于接觸幾何、材料特性和交互動(dòng)態(tài)的直接反饋。

隨著大語言模型(LLM)、世界動(dòng)作模型(WAM)和視覺 - 語言 - 動(dòng)作(VLA)大模型的爆發(fā),將觸覺與視覺、語言相融合,以彌合物理交互與高級(jí)語義推理之間的鴻溝,已成為機(jī)器人領(lǐng)域的必然趨勢(shì)。

本文由香港科技大學(xué)(廣州)熊輝教授團(tuán)隊(duì)牽頭,聯(lián)合靈心巧手(LinkerBot)以及西安交通大學(xué)、復(fù)旦大學(xué)、北京郵電大學(xué)、南京大學(xué)等,以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》為主題,全面梳理并分析截至 2026 年第一季度的前沿研究,提出了一個(gè)涵蓋多模態(tài)數(shù)據(jù)集、模型方法、傳感器硬件和評(píng)估體系的層次分類法。本文將帶你全面拆解這篇重磅綜述的核心干貨。



  • 論文題目:Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms
  • 作者單位:香港科技大學(xué)(廣州)、靈心巧手、西安交大、復(fù)旦、南大、北郵、武大等
  • 論文地址:https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms
  • GitHub 倉庫:https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion



圖 1. 多模態(tài)觸覺融合綜述的結(jié)構(gòu)概述

一、 為什么具身智能不可缺少觸覺?

與視覺等遠(yuǎn)端模態(tài)不同,觸覺提供了表面紋理、材料屬性和接觸動(dòng)態(tài)的直接、近端反饋,這對(duì)于解決視覺模糊性至關(guān)重要。對(duì)于具身智能體而言,觸覺反饋不僅僅是一種輔助模態(tài),更是感知 - 行動(dòng)閉環(huán)中的基本組成部分,觸覺作為連接被動(dòng)觀察與主動(dòng)物理交互的橋梁,能夠提供關(guān)于物體幾何形狀、材質(zhì)屬性以及接觸動(dòng)力學(xué)最直接的反饋,這是遠(yuǎn)距離傳感器無法替代的。在充滿物理接觸的環(huán)境中,這種多傳感器線索的協(xié)同作用(尤其是視覺與觸覺的協(xié)同),是構(gòu)建穩(wěn)健的感知和控制系統(tǒng)、使智能體能夠真正在物理世界中進(jìn)行精確操作和穩(wěn)定抓取的關(guān)鍵。



圖 2. 多模態(tài)觸覺融合的代表性數(shù)據(jù)集和方法綜述

二、底層邏輯:多模態(tài)觸覺融合的四階段 Pipeline

與視覺或語言不同,觸覺信號(hào)是接觸驅(qū)動(dòng)的,只有在物理交互發(fā)生時(shí)才會(huì)產(chǎn)生。綜述指出,現(xiàn)有的多模態(tài)觸覺融合系統(tǒng)在底層基本都遵循一個(gè)嚴(yán)謹(jǐn)?shù)乃碾A段處理流程:

  1. 物理轉(zhuǎn)導(dǎo)與時(shí)空觀察: 傳感器將形變、力或振動(dòng)等物理刺激轉(zhuǎn)化為數(shù)字信號(hào)(如高維矩陣或圖像串)。
  2. 特定模態(tài)表征學(xué)習(xí): 針對(duì)不同模態(tài)使用專屬的編碼器(如用于視覺 / 觸覺編碼的 ResNet 或 ViT,用于自然語言編碼的 OpenCLIP),將其轉(zhuǎn)化為統(tǒng)一維度的潛在特征向量。
  3. 跨模態(tài)融合: 通過特征拼接、交叉注意力機(jī)制或?qū)Ρ葘W(xué)習(xí)對(duì)齊,將單模態(tài)特征融合成共享的聯(lián)合表征。
  4. 具身解碼與任務(wù)執(zhí)行: 將融合后的特征輸出為最終結(jié)果,比如物體類別、生成的文本描述或機(jī)器人的控制動(dòng)作。

三、多模態(tài)觸覺融合的全景藍(lán)圖

本綜述創(chuàng)新性地提出了一個(gè)層次化分類體系,將多模態(tài)觸覺融合系統(tǒng)地劃分為三大支柱:多模態(tài)數(shù)據(jù)集、多模態(tài)方法和觸覺傳感器。



圖 3. 2015 - 2026 年多模態(tài)觸覺融合論文發(fā)表趨勢(shì)。

1. 數(shù)據(jù)集篇:從實(shí)驗(yàn)室單一配對(duì)走向真實(shí)世界的豐富語義



圖 4. 基于觸覺的多模態(tài)融合數(shù)據(jù)集的比較總結(jié)

數(shù)據(jù)集是跨模態(tài)學(xué)習(xí)的 “燃料”。文章根據(jù)模態(tài)組成,將現(xiàn)有數(shù)據(jù)集的發(fā)展脈絡(luò)劃分為四大階段:

  • 觸覺 - 視覺 (T-V) 數(shù)據(jù)集: 早期(如 VT Dataset)主要關(guān)注受控環(huán)境下的機(jī)器人抓取;近期則向無約束的野外環(huán)境(如 Touch in the Wild)和復(fù)雜形變物體(如 TouchClothing)發(fā)展。
  • 觸覺 - 語言 (T-L) 數(shù)據(jù)集: 旨在建立觸覺與人類認(rèn)知的橋梁。例如 PhysiCLEAR 記錄了物體的軟硬、粗糙度,而最新的 STOLA 則支持開放式的觸覺常識(shí)推理,打破了過去只能依賴視覺進(jìn)行語義接地的局限。
  • 觸覺 - 視覺 - 語言 (T-V-L) 數(shù)據(jù)集: 迎合當(dāng)前大模型趨勢(shì)的終極形態(tài)。比如 Touch100k 包含了超 10 萬個(gè)三模態(tài)對(duì)齊樣本,不僅有短語標(biāo)簽,還有長(zhǎng)文本自然語言描述,完美支持跨模態(tài)對(duì)齊。
  • 觸覺 - 視覺 - 其他 (T-V-O) 數(shù)據(jù)集: 引入了動(dòng)作、音頻或本體感覺。著名的 ObjectFolder 系列結(jié)合了撞擊音頻;而 OmniViTac 等數(shù)據(jù)集則加入了動(dòng)作序列,支持端到端的接觸豐富型操作策略學(xué)習(xí)。

2. 方法論的三大范式:感知、生成與控制的全面進(jìn)化

在算法層面,綜述將數(shù)百篇前沿工作結(jié)構(gòu)化為三個(gè)核心方向,并對(duì)其進(jìn)行了詳細(xì)的子任務(wù)拆解:



圖 5. 多模態(tài)觸覺融合與下游任務(wù)的一般范例

(1)多模態(tài)感知與識(shí)別

這是目前研究最廣泛的范式,核心在于理解,具體包括四個(gè)子任務(wù):

  • 多模態(tài)物體識(shí)別: 結(jié)合全局視覺和局部觸覺,通過早期特征拼接或最新的 Transformer 聯(lián)合查詢機(jī)制(如 VHTformer),在視覺模糊(如透明物體)時(shí)依然能準(zhǔn)確識(shí)別物體。
  • 屬性與材料識(shí)別: 從早期的監(jiān)督學(xué)習(xí)分類,進(jìn)化到如今基于 CLIP 等大模型的零樣本(Zero-shot)識(shí)別。模型(如 UniTouch)可以通過語言文本提示,直接推斷物理材質(zhì)。
  • 抓取成功 / 失敗預(yù)測(cè): 區(qū)別于抓取前的視覺規(guī)劃,它利用接觸后的實(shí)時(shí)觸覺反饋(如滑動(dòng)、受力分布)來判斷抓取是否穩(wěn)定,是機(jī)器人閉環(huán)控制的關(guān)鍵一環(huán)。
  • 跨模態(tài)檢索與匹配: 作為評(píng)估表征對(duì)齊質(zhì)量的標(biāo)準(zhǔn)任務(wù),測(cè)試模型能否用一段觸覺數(shù)據(jù)搜出對(duì)應(yīng)的視覺圖片或文字描述。



圖 6. 多模態(tài)感知和識(shí)別的分類,包括多模態(tài)物體識(shí)別、多模態(tài)屬性和材質(zhì)識(shí)別、抓取成功或失敗預(yù)測(cè)以及跨模態(tài)檢索和匹配

(2)跨模態(tài)生成與轉(zhuǎn)換

不再局限于識(shí)別,而是讓模型擁有跨感官的合成能力:

  • 視 - 觸雙向生成: 看到粗糙的巖石照片,模型能生成對(duì)應(yīng)的觸覺形變圖;摸到材質(zhì),能反推物體的視覺紋理。
  • 語言 - 觸覺翻譯: 包含 “觸覺轉(zhuǎn)語言”(為接觸生成自然語言 Caption,如 VTV-LLM)以及極具挑戰(zhàn)的 “文本生成觸覺”(Text-to-Tactile,僅靠一段文字描述合成物理觸感數(shù)據(jù))。



圖 7. 多模態(tài)跨模態(tài)生成和轉(zhuǎn)換的分類,包括視覺 - 觸覺生成和翻譯和語言 - 觸覺生成和翻譯

(3)多模態(tài)交互與操作

將感知直接與物理控制耦合,分為兩大路徑:

  • 多模態(tài)感知驅(qū)動(dòng)的機(jī)器人操作: 結(jié)合觸覺反饋進(jìn)行精細(xì)裝配(如插孔任務(wù))或維持穩(wěn)定抓取。例如,DexTac 利用精確的接觸區(qū)域提示來完成注射器操作等高精度任務(wù)。
  • 語言指令下的多模態(tài)操作: 融合大語言模型的終極形態(tài)(VLA)。人類下達(dá)抽象指令(如 “輕輕抓住那個(gè)軟物體”),系統(tǒng)聯(lián)合語言語義、視覺幾何與觸覺實(shí)時(shí)反饋來生成連續(xù)動(dòng)作。



圖 8. 多模態(tài)交互和操作的分類,包括具有多模態(tài)感知的機(jī)器人操作和語言指令下的多模態(tài)操作



圖 9. 2026 年第一季度之前發(fā)表的多模態(tài)觸覺融合方法綜述

3. 硬件篇:觸覺傳感器的多樣化形態(tài)

觸覺信號(hào)的質(zhì)量直接受制于硬件設(shè)計(jì)與物理交互界面的形態(tài)。文章將觸覺傳感平臺(tái)分為四類:

  • 可穿戴觸覺系統(tǒng): 主要用于捕捉人類交互先驗(yàn),支持可擴(kuò)展的數(shù)據(jù)收集和向機(jī)器人的技能轉(zhuǎn)移。
  • 手持與指尖傳感器: 提供局部高分辨率的接觸感知,緊湊的體積使其非常適合直接集成到機(jī)器人末端執(zhí)行器中。
  • 機(jī)器皮膚與多模態(tài)傳感器貼片: 強(qiáng)調(diào)大面積可擴(kuò)展性、機(jī)械順應(yīng)性和分布式感知,以支持機(jī)器人的全身接觸感知。
  • 夾爪安裝與集成傳感器: 直接在操作界面集成感知能力,為閉環(huán)控制提供緊湊且共址的實(shí)時(shí)多模態(tài)反饋。



圖 10. 具有代表性的觸覺傳感器

四、 尚未統(tǒng)一的大考:評(píng)估指標(biāo)與基準(zhǔn)

盡管發(fā)展迅速,但多模態(tài)觸覺融合仍缺乏統(tǒng)一的基準(zhǔn),現(xiàn)有的評(píng)估協(xié)議高度依賴于特定任務(wù)。文章尖銳地指出了當(dāng)前領(lǐng)域面臨的四大核心挑戰(zhàn):

  • 數(shù)據(jù)碎片化與可擴(kuò)展性瓶頸: 現(xiàn)有數(shù)據(jù)集往往是任務(wù)定制且依賴特定傳感器的,規(guī)模遠(yuǎn)小于視覺 - 語言資源,這限制了基礎(chǔ)模型的零樣本遷移能力。
  • 模態(tài)不對(duì)齊與噪聲干擾: 稀疏觸覺輸入與密集視覺 / 語言輸入之間存在固有的時(shí)空不對(duì)齊,傳感器漂移和視覺遮擋等現(xiàn)實(shí)問題會(huì)進(jìn)一步削弱對(duì)齊的可靠性。
  • 軟硬件集成壁壘: 觸覺傳感器形態(tài)各異且缺乏標(biāo)準(zhǔn)接口,其耐久性和功耗限制了與大型視覺 - 語言模型在具身系統(tǒng)中的實(shí)時(shí)閉環(huán)融合。
  • 評(píng)估與基準(zhǔn)的不一致性: 指標(biāo)碎片化,缺乏端到端的具身基準(zhǔn),難以綜合評(píng)估模型在實(shí)際物理交互中的安全性和魯棒性。



圖 11. 多模態(tài)觸覺融合評(píng)價(jià)指標(biāo)綜述

五、挑戰(zhàn)與未來:通往通用具身智能之路

盡管進(jìn)展迅速,多模態(tài)觸覺融合仍面臨著諸多亟待突破的瓶頸。目前的數(shù)據(jù)規(guī)模與大型語言模型的訓(xùn)練需求相比仍有巨大差距,且異構(gòu)傳感器之間缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。同時(shí)在非結(jié)構(gòu)化環(huán)境中,稀疏的觸覺輸入與密集的視覺或語言信息之間經(jīng)常出現(xiàn)空間和時(shí)間上的不對(duì)齊。此外現(xiàn)有的評(píng)估指標(biāo)往往局限于特定任務(wù),缺乏一個(gè)能全面衡量觸覺真實(shí)性、語義一致性和控制有效性的統(tǒng)一端到端基準(zhǔn)測(cè)試。

對(duì)于未來,構(gòu)建統(tǒng)一且可擴(kuò)展的大規(guī)模數(shù)據(jù)集是打破發(fā)展瓶頸的關(guān)鍵所在。算法層面需要向?qū)哟位娜诤霞軜?gòu)演進(jìn),將觸覺作為多模態(tài)推理的底層支撐。在硬件端,柔性、耐用且具備端側(cè)處理能力的仿生觸覺皮膚將極大拓展機(jī)器人的感知邊界。通過將觸覺反饋?zhàn)鳛檫B續(xù)的監(jiān)督信號(hào)直接嵌入決策閉環(huán),具身智能系統(tǒng)必將從受控的實(shí)驗(yàn)室環(huán)境穩(wěn)步邁向復(fù)雜多變的人類生活空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

上觀新聞
2026-04-11 14:49:04
A股:不用等周一開盤了,明天(4月13日),不出意外會(huì)這么走

A股:不用等周一開盤了,明天(4月13日),不出意外會(huì)這么走

財(cái)經(jīng)大拿
2026-04-12 07:10:10
上海二手房單日成交1632套:連續(xù)打破5年峰值紀(jì)錄,高端房源成交占比提升

上海二手房單日成交1632套:連續(xù)打破5年峰值紀(jì)錄,高端房源成交占比提升

澎湃新聞
2026-04-12 13:52:27
角力伊斯蘭堡,美伊都到了!宮殿風(fēng)格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗(yàn);預(yù)計(jì)雙方各占酒店一邊,避免走廊偶遇

角力伊斯蘭堡,美伊都到了!宮殿風(fēng)格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗(yàn);預(yù)計(jì)雙方各占酒店一邊,避免走廊偶遇

每日經(jīng)濟(jì)新聞
2026-04-11 16:34:11
明天周一A股將會(huì)怎么走?到底是漲是跌?我做了一個(gè)大膽的預(yù)判

明天周一A股將會(huì)怎么走?到底是漲是跌?我做了一個(gè)大膽的預(yù)判

股市皆大事
2026-04-12 11:30:57
馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

楓塵余往逝
2026-04-11 23:52:17
48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

羅氏八卦
2026-04-11 18:00:03
美媒預(yù)測(cè)本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達(dá)48%

美媒預(yù)測(cè)本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達(dá)48%

你的籃球頻道
2026-04-12 12:01:46
笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

搗蛋窩
2026-04-11 10:57:44
48 小時(shí) 2 架飛機(jī):鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機(jī)抵臺(tái)

48 小時(shí) 2 架飛機(jī):鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機(jī)抵臺(tái)

眼界看視野
2026-04-11 20:50:20
鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
浪姐7一公排名:蕭薔團(tuán)墊底,李小冉團(tuán)喜劇效果拉滿,大黑馬誕生

浪姐7一公排名:蕭薔團(tuán)墊底,李小冉團(tuán)喜劇效果拉滿,大黑馬誕生

娛樂圈筆娛君
2026-04-12 11:17:01
巴拿馬總統(tǒng)尋求緩和與中國關(guān)系

巴拿馬總統(tǒng)尋求緩和與中國關(guān)系

參考消息
2026-04-11 19:52:15
太復(fù)雜了!天津一司機(jī)把奔馳開進(jìn)了中心路的地道…差幾步就到平地了…

太復(fù)雜了!天津一司機(jī)把奔馳開進(jìn)了中心路的地道…差幾步就到平地了…

天津人
2026-04-11 15:34:18
4人輪休+2人缺陣!火箭隊(duì)超級(jí)殘陣對(duì)戰(zhàn)灰熊!預(yù)計(jì)全新首發(fā)出爐

4人輪休+2人缺陣!火箭隊(duì)超級(jí)殘陣對(duì)戰(zhàn)灰熊!預(yù)計(jì)全新首發(fā)出爐

熊哥愛籃球
2026-04-12 12:36:12
不要錯(cuò)過!下周,光通信測(cè)試龍頭來了

不要錯(cuò)過!下周,光通信測(cè)試龍頭來了

新浪財(cái)經(jīng)
2026-04-12 13:37:47
投資群2947人,2946人是托:殺豬盤進(jìn)化史,只有你一個(gè)獵物

投資群2947人,2946人是托:殺豬盤進(jìn)化史,只有你一個(gè)獵物

覺叔說
2026-04-11 13:57:01
伊朗代表團(tuán)離開巴基斯坦

伊朗代表團(tuán)離開巴基斯坦

上觀新聞
2026-04-12 12:54:04
體檢報(bào)告出現(xiàn)這幾個(gè)字,距離腦梗只有一步之遙!別等嚴(yán)重了才后悔

體檢報(bào)告出現(xiàn)這幾個(gè)字,距離腦梗只有一步之遙!別等嚴(yán)重了才后悔

荊醫(yī)生科普
2026-04-11 14:23:04
解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
2026-04-12 16:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

數(shù)碼
親子
旅游
教育
公開課

數(shù)碼要聞

榮耀YOYO Claw PC版首曝,有望隨MagicBook Pro 14一起亮相

親子要聞

日本農(nóng)村生活重啟!喜娜醬又開始打網(wǎng)球,學(xué)跳舞,風(fēng)一樣的女孩

旅游要聞

五一機(jī)票預(yù)訂量漲8%,北京位居熱門目的地榜首|提振消費(fèi)看京潮

教育要聞

Q開頭的單詞!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版