国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「被動(dòng)感知」到「理解接觸」!它石智航重磅發(fā)布OmniVTA視觸覺(jué)世界模型

0
分享至


新智元報(bào)道

編輯:犀牛

【新智元導(dǎo)讀】從「被動(dòng)感知」到「主動(dòng)預(yù)測(cè)」,首個(gè)視觸覺(jué)世界模型讓機(jī)器人真正學(xué)會(huì)「理解接觸」。

想象這樣一個(gè)場(chǎng)景:你正在擦桌子、削水果,或者插拔一個(gè)精密零件。

這些動(dòng)作對(duì)人類來(lái)說(shuō)輕而易舉,然而對(duì)于機(jī)器人來(lái)說(shuō),這些看似簡(jiǎn)單的操作卻是一道難以跨越的技術(shù)鴻溝。

近期,它石智航聯(lián)合新加坡國(guó)立大學(xué)、復(fù)旦大學(xué)、中科院自動(dòng)化所、清華大學(xué)、中關(guān)村學(xué)院以及北京航空航天大學(xué)六大頂尖機(jī)構(gòu),推出OmniVTA視觸覺(jué)操作框架和OmniViTac大規(guī)模視觸覺(jué)數(shù)據(jù)集并發(fā)表相關(guān)論文,讓機(jī)器人實(shí)現(xiàn)從被動(dòng)感知,到對(duì)觸覺(jué)進(jìn)行主動(dòng)預(yù)測(cè)和閉環(huán)精準(zhǔn)控制,邁出靈巧操作的關(guān)鍵一步。


論文鏈接:https://arxiv.org/pdf/2603.19201

項(xiàng)目主頁(yè):https://mrsecant.github.io/OmniVTA/

數(shù)據(jù)集鏈接:https://huggingface.co/datasets/tars-robotics/OmniVitac

當(dāng)前,業(yè)內(nèi)深陷于一個(gè)反直覺(jué)困境:即便觸覺(jué)傳感器在機(jī)器人領(lǐng)域已經(jīng)廣泛應(yīng)用,整個(gè)行業(yè)卻深陷「感知更多、做得更差」的困境。

機(jī)器人明明「摸得到」,卻依然「不會(huì)用」。

為什么給機(jī)器人提供額外的觸覺(jué)感知,反而可能讓它表現(xiàn)更差?

答案在于,當(dāng)前主流方案對(duì)觸覺(jué)本質(zhì)存在根本性誤解。

機(jī)器人操作領(lǐng)域長(zhǎng)期缺乏對(duì)接觸動(dòng)態(tài)的建模和對(duì)觸覺(jué)信息的有效利用。

當(dāng)前主流方案僅將視覺(jué)與觸覺(jué)特征簡(jiǎn)單拼接后輸入策略網(wǎng)絡(luò)。這種方式看似合理,實(shí)際上卻忽視了觸覺(jué)的核心特征。

相較于具備全局語(yǔ)義與連續(xù)觀測(cè)能力的視覺(jué),觸覺(jué)信號(hào)高度局部且由接觸事件驅(qū)動(dòng)無(wú)法提供全局感知,難以支撐長(zhǎng)時(shí)序規(guī)劃。

更關(guān)鍵的是,接觸本質(zhì)上是一個(gè)隨時(shí)間演化的動(dòng)態(tài)過(guò)程

擦拭、削皮、插接、擰緊等操作,都是「接觸狀態(tài)隨時(shí)間不斷變化」的過(guò)程。

然而,現(xiàn)有方法通常僅利用當(dāng)前或歷史幾幀觸覺(jué)觀測(cè),缺乏對(duì)「接觸如何隨時(shí)間演化」的顯式建模。

結(jié)果是觸覺(jué)往往只被用于簡(jiǎn)單的接觸檢測(cè)或視覺(jué)遮擋補(bǔ)償,而無(wú)法真正參與對(duì)接觸過(guò)程的預(yù)測(cè)與決策。

同時(shí)高頻觸覺(jué)數(shù)據(jù)缺失也讓模型難以學(xué)習(xí)真實(shí)接觸規(guī)律,操作穩(wěn)定性與泛化性嚴(yán)重不足。

人類真實(shí)行為啟發(fā)

「預(yù)測(cè)+反饋」協(xié)同機(jī)制

如何破解這一困局?答案或許就藏在人類自身的神經(jīng)機(jī)制中。

神經(jīng)科學(xué)研究表明,人類在進(jìn)行接觸操作時(shí),依賴的是一套「預(yù)測(cè)+反饋」的協(xié)同機(jī)制:大腦一方面通過(guò)前向模型提前預(yù)測(cè)動(dòng)作將帶來(lái)的感覺(jué)變化,另一方面通過(guò)實(shí)時(shí)感覺(jué)反饋進(jìn)行快速修正,抵消誤差和擾動(dòng)。

正是這種「先預(yù)測(cè)再修正」的機(jī)制,讓人類能夠在不確定的環(huán)境中,依然完成穩(wěn)定而靈巧的接觸操作。


「預(yù)測(cè) + 反饋」的協(xié)同機(jī)制。圖源:Motor prediction[1]

本次它石智航聯(lián)合六大頂尖機(jī)構(gòu),從數(shù)據(jù)底座與技術(shù)框架雙向攻堅(jiān)。在數(shù)據(jù)層面上,團(tuán)隊(duì)發(fā)布了OmniViTac大規(guī)模視觸覺(jué)數(shù)據(jù)集,如下圖所示,為后續(xù)模型訓(xùn)練筑牢基礎(chǔ)。

這是迄今為止規(guī)模最大、質(zhì)量最高的視觸覺(jué)操作數(shù)據(jù)集之一,目前已收錄2萬(wàn)余條操作軌跡,覆蓋近百類任務(wù)和百余種物體,并將接觸模式系統(tǒng)性分為擦拭、削皮、切割、抓取、裝配以及手內(nèi)調(diào)整六類,在數(shù)據(jù)采集過(guò)程中嚴(yán)格保證視覺(jué)、觸覺(jué)與動(dòng)作的高精度同步,并保留了原始傳感器頻率。

該數(shù)據(jù)集也同步受到了業(yè)界認(rèn)可,獲得由魔搭社區(qū)(ModelScope)主辦的「EAI-2025年度10大數(shù)據(jù)集」獎(jiǎng)項(xiàng)。



OmniVitac數(shù)據(jù)集

依托 OmniViTac 的多模態(tài)數(shù)據(jù)支持,它石創(chuàng)新提出了 OmniVTA——一種以世界模型為核心的視觸覺(jué)操作框架。

該方法的核心思路在于從「被動(dòng)感知觸覺(jué)」轉(zhuǎn)向「主動(dòng)預(yù)測(cè)觸覺(jué)」:機(jī)器人不僅能夠感知當(dāng)前觸覺(jué)信號(hào),還實(shí)現(xiàn)了建模并預(yù)測(cè)未來(lái)觸覺(jué)的演化過(guò)程,并以此指導(dǎo)動(dòng)作規(guī)劃與閉環(huán)調(diào)整。

在系統(tǒng)設(shè)計(jì)上,OmniVTA 采用慢–快分層控制結(jié)構(gòu),如下圖所示:慢系統(tǒng)基于視覺(jué)–觸覺(jué)世界模型預(yù)測(cè)未來(lái)觸覺(jué)表征并生成動(dòng)作序列,快系統(tǒng)則利用預(yù)測(cè)觸覺(jué)與實(shí)時(shí)觸覺(jué)反饋進(jìn)行反射式高頻控制,從而實(shí)現(xiàn)穩(wěn)定、魯棒且精細(xì)的接觸操作。


OmniVTA系統(tǒng)圖

在此基礎(chǔ)上, OmniVTA通過(guò)四個(gè)關(guān)鍵模塊協(xié)同構(gòu)建統(tǒng)一的閉環(huán)控制體系,使機(jī)器人具備「預(yù)測(cè)觸覺(jué)—理解接觸—修正動(dòng)作」的能力,從而重塑其在復(fù)雜接觸場(chǎng)景中的操作表現(xiàn):

TactileVAE通過(guò)時(shí)空聯(lián)合編碼與隱式函數(shù)解碼,將高頻、稠密的觸覺(jué)3D形變壓縮為低維連續(xù)潛變量表示,如下圖所示。

該模塊不僅在空間上保留細(xì)粒度接觸結(jié)構(gòu)(如剪切、法向形變等),還在時(shí)間上建模觸覺(jué)動(dòng)態(tài)變化,從而有效刻畫接觸過(guò)程的演化軌跡。

在顯著降低數(shù)據(jù)維度與計(jì)算開銷的同時(shí),為后續(xù)預(yù)測(cè)與控制提可泛化的觸覺(jué)表征,使機(jī)器人能夠高效理解當(dāng)前接觸狀態(tài)并快速響應(yīng)環(huán)境變化。


TactileVAE網(wǎng)絡(luò)結(jié)構(gòu)圖

視觸覺(jué)世界模型(預(yù)測(cè)模塊)基于雙流擴(kuò)散生成架構(gòu),在共享?xiàng)l件約束下聯(lián)合建模視覺(jué)與觸覺(jué)的時(shí)序演化關(guān)系。

視覺(jué)分支提供全局語(yǔ)義與幾何先驗(yàn),觸覺(jué)分支聚焦局部接觸動(dòng)態(tài),兩者在潛空間中協(xié)同對(duì)齊,從而實(shí)現(xiàn)對(duì)未來(lái)觸覺(jué)信號(hào)的高質(zhì)量預(yù)測(cè)。

通過(guò)顯式建!附佑|發(fā)生前—接觸發(fā)生中—接觸演化后」的動(dòng)態(tài)過(guò)程,該模塊使機(jī)器人能夠提前預(yù)判接觸趨勢(shì)(如即將發(fā)生的接觸、接觸強(qiáng)度變化或滑動(dòng)風(fēng)險(xiǎn)),為動(dòng)作規(guī)劃提供前瞻性信息支撐。

自適應(yīng)融合策略(決策模塊):引入 Latent Tactile Differential(LTD)編碼器,對(duì)當(dāng)前觸覺(jué)與預(yù)測(cè)觸覺(jué)之間的差異進(jìn)行顯式建模,從而提取接觸動(dòng)態(tài)變化的關(guān)鍵信號(hào)。

在此基礎(chǔ)上,結(jié)合門控(gating)機(jī)制對(duì)視覺(jué)與觸覺(jué)模態(tài)進(jìn)行動(dòng)態(tài)加權(quán),使策略能夠根據(jù)接觸階段自適應(yīng)調(diào)整感知依賴:在無(wú)接觸或遠(yuǎn)接觸階段側(cè)重視覺(jué)全局信息,在接觸發(fā)生及演化階段增強(qiáng)觸覺(jué)主導(dǎo)作用。

該模塊有效避免了簡(jiǎn)單特征拼接帶來(lái)的信息沖突問(wèn)題,使動(dòng)作決策更加精確且具備情境適應(yīng)性。


OmniVTA慢策略:視觸覺(jué)世界模型+自適應(yīng)融合策略

反射式觸覺(jué)控制器(執(zhí)行模塊)基于預(yù)測(cè)觸覺(jué)與實(shí)時(shí)觸覺(jué)反饋,在 60 Hz 高頻下輸出單步修正動(dòng)作,對(duì)慢系統(tǒng)生成的動(dòng)作序列進(jìn)行連續(xù)閉環(huán)補(bǔ)償。

該控制器通過(guò)建模觸覺(jué)誤差(預(yù)測(cè)–觀測(cè)差異)實(shí)現(xiàn)快速響應(yīng),可在接觸擾動(dòng)、物體偏移或摩擦變化等情況下即時(shí)修正執(zhí)行軌跡,從而顯著提升操作穩(wěn)定性與精度。

其引入使系統(tǒng)具備類似人類「觸覺(jué)反射」的能力,能夠有效彌補(bǔ)低頻規(guī)劃帶來(lái)的滯后性。


基于觸覺(jué)特征的反射式控制器

實(shí)操驗(yàn)證

從「機(jī)械記憶」到「理解接觸」

實(shí)驗(yàn)數(shù)據(jù)表明,OmniVTA視觸覺(jué)操作框架在不同物體、不同接觸模式下均取得了最優(yōu)性能。在位置變化、工具變化和外界擾動(dòng)等情境中,展現(xiàn)出了遠(yuǎn)超傳統(tǒng)方法的魯棒性和泛化能力。



操作過(guò)程中實(shí)時(shí)擾動(dòng)-恢復(fù)接觸

更具深遠(yuǎn)意義的是,模型學(xué)習(xí)到了可遷移的接觸動(dòng)態(tài)規(guī)律。

如下圖所示,模型能根據(jù)預(yù)測(cè)的接觸狀態(tài)自適應(yīng)調(diào)整視覺(jué)與觸覺(jué)的權(quán)重,并在不同物體和工具下保持穩(wěn)定表現(xiàn)。

這表明機(jī)器人正在從「執(zhí)行動(dòng)作」走向「理解物理接觸」,逐步具備類似人類的預(yù)測(cè)與反饋協(xié)同能力。


門控機(jī)制效果:觸覺(jué)和視覺(jué)權(quán)重隨操作過(guò)程的變化

可以看到,OmniVTA展示了一條清晰的技術(shù)路徑:以「世界模型」為核心,以預(yù)測(cè)為先導(dǎo)、反饋為保障,最終使機(jī)器人能夠真正勝任精密裝配、家居清潔與食材備制等工業(yè)生產(chǎn)與日常生活中不可或缺的接觸密集型(contact-rich)任務(wù)。

本次它石聯(lián)合多所頂尖科研機(jī)構(gòu)發(fā)布的OmniVTA框架,不僅在學(xué)術(shù)研究方面有所突破,更具有深遠(yuǎn)的產(chǎn)業(yè)應(yīng)用落地價(jià)值,將具身智能「干活」的能力提升至可落地、可泛化、可規(guī);娜赂叨取

參考資料:

[1] Wolpert, Daniel M., and J. Randall Flanagan. 「Motor prediction.」 Current biology 11.18 (2001): R729-R732.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雪峰母親:下崗擺攤育子上學(xué),四年內(nèi)喪夫又喪子,有錢又如何?

張雪峰母親:下崗擺攤育子上學(xué),四年內(nèi)喪夫又喪子,有錢又如何?

游戲收藏指南
2026-03-25 23:03:52
女同主播出軌大哥 被"正宮"直播對(duì)質(zhì)!真實(shí)長(zhǎng)相曝光

女同主播出軌大哥 被"正宮"直播對(duì)質(zhì)!真實(shí)長(zhǎng)相曝光

游民星空
2026-03-25 20:08:13
美伊沖突,已經(jīng)出現(xiàn)了3個(gè)贏家,10個(gè)輸家,都是誰(shuí)?

美伊沖突,已經(jīng)出現(xiàn)了3個(gè)贏家,10個(gè)輸家,都是誰(shuí)?

七號(hào)說(shuō)三國(guó)
2026-03-25 21:11:29
普京訪華,臺(tái)灣問(wèn)題解決還會(huì)遠(yuǎn)嗎?

普京訪華,臺(tái)灣問(wèn)題解決還會(huì)遠(yuǎn)嗎?

達(dá)文西看世界
2026-03-26 10:03:54
50歲何潤(rùn)東做夢(mèng)也沒(méi)想到,因張凌赫一個(gè)造型,讓他的口碑一夜暴漲

50歲何潤(rùn)東做夢(mèng)也沒(méi)想到,因張凌赫一個(gè)造型,讓他的口碑一夜暴漲

八卦南風(fēng)
2026-03-24 15:15:25
她出身上海名門,是國(guó)家一級(jí)演員,嫁東北丈夫,如今66歲生活幸福

她出身上海名門,是國(guó)家一級(jí)演員,嫁東北丈夫,如今66歲生活幸福

白面書誏
2026-03-23 17:38:15
故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

清茶淺談
2024-12-04 14:29:09
國(guó)務(wù)院原官員:中國(guó)男足40年沒(méi)有進(jìn)步,希望中歐足球多合作

國(guó)務(wù)院原官員:中國(guó)男足40年沒(méi)有進(jìn)步,希望中歐足球多合作

懂球帝
2026-03-25 13:05:06
特朗普宣布:對(duì)伊朗戰(zhàn)爭(zhēng)已勝利,收到伊朗“價(jià)值連城的厚禮,與石油天然氣有關(guān)”!美國(guó)油價(jià)1個(gè)月暴漲35%,特朗普支持率大跌至36%創(chuàng)新低

特朗普宣布:對(duì)伊朗戰(zhàn)爭(zhēng)已勝利,收到伊朗“價(jià)值連城的厚禮,與石油天然氣有關(guān)”!美國(guó)油價(jià)1個(gè)月暴漲35%,特朗普支持率大跌至36%創(chuàng)新低

每日經(jīng)濟(jì)新聞
2026-03-25 12:22:42
2-0!2-1!四強(qiáng)出爐 薩巴倫卡戰(zhàn)萊巴金娜 鄭欽文最新參賽計(jì)劃曝光

2-0!2-1!四強(qiáng)出爐 薩巴倫卡戰(zhàn)萊巴金娜 鄭欽文最新參賽計(jì)劃曝光

侃球熊弟
2026-03-26 08:38:34
不可思議,德國(guó)人急了,日本急了,美國(guó)也急了,中國(guó)這下贏麻了。

不可思議,德國(guó)人急了,日本急了,美國(guó)也急了,中國(guó)這下贏麻了。

阿七說(shuō)史
2026-03-09 16:01:03
特斯拉車主被售后暖到,15 萬(wàn)元電池免費(fèi)換,還送帶 FSD 的 Model 3 代步!

特斯拉車主被售后暖到,15 萬(wàn)元電池免費(fèi)換,還送帶 FSD 的 Model 3 代步!

新浪財(cái)經(jīng)
2026-03-25 01:53:52
克拉拉擦邊香艷床戲包貝爾再演壞淫!這部網(wǎng)大爽得太膚淺

克拉拉擦邊香艷床戲包貝爾再演壞淫!這部網(wǎng)大爽得太膚淺

釋凡電影
2026-03-24 04:57:40
朝鮮霸占了四個(gè)世界第一,至今無(wú)人能破?

朝鮮霸占了四個(gè)世界第一,至今無(wú)人能破?

阿訊說(shuō)天下
2026-03-18 16:22:46
朱拉尼踩中時(shí)代風(fēng)口,敘利亞石油逆襲,阿薩德輸?shù)靡稽c(diǎn)不冤

朱拉尼踩中時(shí)代風(fēng)口,敘利亞石油逆襲,阿薩德輸?shù)靡稽c(diǎn)不冤

起喜電影
2026-03-26 10:26:46
暴賺144億美元!美烏沒(méi)轍,朝鮮兵工廠24小時(shí)全開,狂掃中國(guó)機(jī)床

暴賺144億美元!美烏沒(méi)轍,朝鮮兵工廠24小時(shí)全開,狂掃中國(guó)機(jī)床

知法而形
2026-03-24 15:57:37
重磅實(shí)錘!瓜帥即將告別曼城,下一站徹底跳出英超

重磅實(shí)錘!瓜帥即將告別曼城,下一站徹底跳出英超

瀾歸序
2026-03-26 06:02:38
馬斯克放話:比MPV更酷的新車要來(lái)了,特斯拉卻只剩3款車在賣

馬斯克放話:比MPV更酷的新車要來(lái)了,特斯拉卻只剩3款車在賣

我是一個(gè)養(yǎng)蝦人
2026-03-25 23:32:20
克什米爾,印度與巴基斯坦為何爭(zhēng)奪八十年?

克什米爾,印度與巴基斯坦為何爭(zhēng)奪八十年?

地圖帝
2026-03-25 09:17:39
一個(gè)21歲中國(guó)姑娘在阿根廷機(jī)場(chǎng),給所有為人父母者上了深刻的一課

一個(gè)21歲中國(guó)姑娘在阿根廷機(jī)場(chǎng),給所有為人父母者上了深刻的一課

男孩派
2026-03-25 10:00:06
2026-03-26 11:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14817文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

36歲男子辭百萬(wàn)年薪工作 在電商賣玩具半年賺了300萬(wàn)

頭條要聞

36歲男子辭百萬(wàn)年薪工作 在電商賣玩具半年賺了300萬(wàn)

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

游戲
家居
手機(jī)
本地
公開課

新馬里奧兄弟重制MC評(píng)分86!痛點(diǎn)解決 畫面性能暴漲

家居要聞

傍海而居 靜觀蝴蝶海

手機(jī)要聞

小米MIUI正式停更,最后兩款設(shè)備停止支持

本地新聞

春日吃花第三站——廣東

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版