国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

邱錫鵬團(tuán)隊新作:讓機(jī)器人學(xué)會「察言觀色」

0
分享至



跳出VLA框架限制,具身全模態(tài)模型來了。

作者丨齊鋮湧

編輯丨馬曉寧

人類究竟需要什么樣的具身智能?

先來回答一道閱讀理解題:

在一個家庭場景中,作為一個非常聰慧的家庭機(jī)器人,你聽到孩子和媽媽展開了一段對話:

孩子:媽,我渴了

媽媽:冰箱里有橙汁和可樂

孩子不太情愿地說:呃,橙汁······(非常排斥的語氣)

這時,孩子看向了你,作為機(jī)智的機(jī)器人,你應(yīng)該怎么做?

顯然,你聽出了孩子不想喝酸酸的橙汁,如此機(jī)智聰慧的你,肯定會主動問孩子:那我給你拿一罐肥仔快樂水?


這個小劇場,不是段子,而是出現(xiàn)在一篇嚴(yán)肅論文里的內(nèi)容。

最近,來自復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院及新加坡國立大學(xué)研究團(tuán)隊發(fā)布了一個全新的操作框架 RoboOmni ,讓機(jī)器人學(xué)會了“察言觀色”。


https://arxiv.org/pdf/2510.23763

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

01
傳統(tǒng) VLA 帶來的具身局限:

極度依賴「顯式指令」

過去一段時間,多模態(tài)大語言模型(MLLMs)的發(fā)展,推動了VLA(視覺-語言-動作)模型的快速繁榮,也給機(jī)器人領(lǐng)域帶來了巨大的變化。

盡管 VLA(視覺-語言-動作)范式愈發(fā)成熟,但依舊存在一個巨大的局限性:

“機(jī)器人的推理能力,極度依賴「顯式指令」”。

而在現(xiàn)實世界交互中,人類很少直接發(fā)出指令。有效的協(xié)作往往需要機(jī)器人主動推斷人類的意圖。

比如,大部分機(jī)器人只能理解 “從冰箱里拿出可樂放到餐桌上” ,或者“打開冰箱門,取出紅色罐狀物體,然后關(guān)上冰箱門,再將紅色罐狀物給我”這樣的指令。

但大部分現(xiàn)實場景中,人類卻經(jīng)常發(fā)出“隱式指令”,比如“呃,橙汁······(非常排斥的語氣)”。

于是,復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院及新加坡國立大學(xué)研究團(tuán)隊發(fā)布引入了跨模態(tài)情境指令,以此創(chuàng)造了一個新的場景:從口語對話、環(huán)境聲音和視覺提示中推導(dǎo)出來的場景,而不是顯式命令。

為了應(yīng)對這一新場景,研究團(tuán)隊提出了 RoboOmni,這是一個基于端到端全模態(tài) LLMs 的感知者-思考者-說話者-執(zhí)行者框架,它統(tǒng)一了意圖識別、交互確認(rèn)和動作執(zhí)行。

仿真和現(xiàn)實環(huán)境中的實驗表明,RoboOmni 在成功率、推理速度、意圖識別和主動輔助方面超越了基于文本和 ASR 的基線。

這樣的表現(xiàn),讓我們對真正的智能有了新的期待。

02
智能與否,在于機(jī)器人能否聽出

“話里有話”

在這項研究里,團(tuán)隊提出了一個關(guān)鍵的問題:

“機(jī)器人能否整合跨模態(tài)上下文,包括語音、環(huán)境音頻和視覺觀察,以主動推斷和驗證用戶意圖?

想要做出主動推斷,機(jī)器人必須從音頻和視覺觀察中推斷隱含意圖,也就是“話里的話”。

但現(xiàn)有數(shù)據(jù)集缺乏這種模態(tài)組合(大多數(shù)缺乏音頻模態(tài))以及意圖推理所需的推斷指令。

為解決這一差距,團(tuán)隊引入了 OmniAction。RoboOmni 融合了聽覺和視覺信號,以實現(xiàn)魯棒的意圖識別,同時支持直接語音交互。

并且,為了解決機(jī)器人操作中主動意圖識別缺乏訓(xùn)練數(shù)據(jù)的問題,團(tuán)隊構(gòu)建了 OmniAction 大規(guī)模情境指令數(shù)據(jù)集,包含 140k多模態(tài)樣本、5 千多名說話人、2.4k事件聲音、640 個背景和六種情境指令類型。


OmniAction 數(shù)據(jù)集構(gòu)建流程概述及示例

在語料庫的基礎(chǔ)上,RoboOmni 融入了六種上下文指令類型。

包括身份線索(比如是孩子想喝東西,不是媽媽),非語言線索,重疊語音,情感線索(比如“呃,橙汁太酸了”暗示要求提供替代品)等等。

基于以上, RoboOmni 的開發(fā)團(tuán)隊,建立了一個用于操控的、端到端多模態(tài)框架。

這意味著,在文章開始的案例中,從最開始意圖識別(聽媽媽和孩子對話)、交互確認(rèn)(是否需要可樂)和動作執(zhí)行(拿可樂),都包含在內(nèi),從而形成了“感知-思考-回應(yīng)-執(zhí)行”統(tǒng)一架構(gòu),在同一模型中完成語音理解、語音對話與動作執(zhí)行。

03
機(jī)器人的高情商,

來自“跨模態(tài)上下文指令”

看到這里,大家一定關(guān)心的是 RoboOmni 的具體研究過程:

與先前方法不同,RoboOmni 不需要直接指令,而是跨模態(tài)上下文指令。

作為一種新的機(jī)器人操作環(huán)境,它的指令形式要求機(jī)器人從多模態(tài)上下文(視覺、環(huán)境聲音和語音)中主動推斷用戶指令,而不是被動等待明確的指令。

研究團(tuán)隊進(jìn)一步評估了 RoboOmni 在真實人類錄音的直接音頻指令下的魯棒性。

他們用了 OmniAction-LIBERO-Real 基準(zhǔn)測試,測試顯示 RoboOmni 實現(xiàn)了最高的平均性能(76.6%),超越了強(qiáng)大的基于文本的 VLA,包括π(73.8%)、OpenVLA(40.1%)和 NORA(17.4%)。


不難發(fā)現(xiàn),RoboOmni 直接處理語音,能夠避免了 ASR 管道錯誤,效果不錯。

在基線模型方面,當(dāng)前開源的視覺-語言-動作(VLA)模型主要設(shè)計用于文本指令,無法直接處理音頻輸入,因此研究團(tuán)隊構(gòu)建了兩種基線范式來驗證端到端音頻處理必要性:

第一是真實文本提示,將預(yù)先標(biāo)注的語音指令轉(zhuǎn)錄直接輸入 VLA 模型;第二是語音-ASR-文本提示,其中語音指令首先使用 ASR 模型 Whisper large-v3轉(zhuǎn)錄為文本,然后輸入 VLA 模型。

過程中,將 RoboOmni 與兩種范式的四個代表 VLA 基線進(jìn)行比較,分別是OpenVLA、OpenVLA-OFT、π和 NORA。

在實現(xiàn)細(xì)節(jié)上,團(tuán)隊使用 224×224 的輸入圖像分辨率、16,000 Hz 的音頻采樣率和 6 的動作分塊大小來訓(xùn)練模型。對于大規(guī)模預(yù)訓(xùn)練,RoboOmni 在 64 個 A100 GPU 組成的集群上進(jìn)行了 10 天的優(yōu)化,總共對應(yīng) 15,360 個 A100 小時,比較扎實。

訓(xùn)練過程使用學(xué)習(xí)率為 5×10 的 10 個 epoch,其中前 1k 步保留用于預(yù)熱。對于下游任務(wù)的監(jiān)督微調(diào)(SFT),團(tuán)隊采用學(xué)習(xí)率為 5×10,并使用 8 個 A100 GPU 進(jìn)行 10-30k 步的訓(xùn)練。

同時,為了驗證 RoboOmni 的功能是否超越模擬環(huán)境,團(tuán)隊在WidowX 250S 上使用演示數(shù)據(jù)集對預(yù)訓(xùn)練模型進(jìn)行微調(diào),研究團(tuán)隊找了10名志愿者,錄制了這份數(shù)據(jù)集。


RoboOmni 在真實世界的 WidowX 250S 機(jī)械臂上成功案例的演示:在多個干擾物中定位正確的物體并將其放入指定的花盆中

在試驗過程中,RoboOmni 在三個維度的表現(xiàn)都很突出:

強(qiáng)大的意圖識別:根據(jù)音頻識別物體,并根據(jù)視覺場景確定容器是花盆;

有效的交互:在推斷出用戶的潛在意圖后主動詢問澄清問題(例如,“我應(yīng)該……嗎?”),并在收到確認(rèn)后執(zhí)行操作;

可靠的執(zhí)行:成功執(zhí)行確認(rèn)的操作;

在模擬和現(xiàn)實世界場景中的評估中,RoboOmni 展現(xiàn)出新興的認(rèn)知智能,在成功率、推理速度以及更有效的主動輔助和意圖識別方面優(yōu)于基線模型。


這使得 RoboOmni 能夠在真實機(jī)器人上運(yùn)行,并處理多樣化的語音指令(例如,情感、重疊提示)。

于是,就有了前面的場景中,機(jī)器人聽到孩子和媽媽的對話,一通分析,判斷孩子不喜歡橙子,主動問孩子:那我給你拿個可樂?得到孩子肯定回答后,就吭哧吭哧去拿了。

什么是高情商,這才是高情商。

04
OmniAction-LIBERO是什么?

前面提到,研究團(tuán)隊在 RoboOmni 的探索過程中,除了大量的高質(zhì)量數(shù)據(jù)喂養(yǎng)和上下文指令類型外,還需要評估機(jī)器人理解的準(zhǔn)確性。

這就需要用到 OpenMoss 團(tuán)隊的另一個殺手锏: OmniAction-LIBERO。

這是一個針對主流 VLA 模型的系統(tǒng)性、全方面、細(xì)粒度的魯棒性分析框架,它的核心目的就是對 VLA 模型進(jìn)行泛化性能測試。

OmniAction-LIBERO 的原理機(jī)制和論文鏈接如下:


LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

https://arxiv.org/pdf/2510.13626v1

在OmniAction-LIBERO-TTS 基準(zhǔn)測試中,不同機(jī)器人操作模型在四種任務(wù)套件(空間、目標(biāo)、物體、長時程)下,針對六種上下文指令類型的性能表現(xiàn):


加粗值表示最佳性能

RoboOmni 的框架,形成了一個感知者-思考者-說話者-執(zhí)行者架構(gòu):

感知來自多模態(tài)輸入編碼,它負(fù)責(zé)將異構(gòu)輸入模態(tài)編碼到一個統(tǒng)一的嵌入空間中;思考來自全模態(tài)推理,思考者是中央推理引擎,基于 LLM 主干構(gòu)建。它處理感知器提供的統(tǒng)一多模態(tài)表;執(zhí)行器負(fù)責(zé)動作生成,為了實現(xiàn)機(jī)器人控制在語言模型框架中的無縫集成;它將視覺、文本和音頻統(tǒng)一到一個共享的標(biāo)記空間中,以生成動作和語音,且將語音、環(huán)境音頻、視覺和機(jī)器人動作統(tǒng)一在一個自回歸模型中,形成一個閉環(huán)。


05
足夠復(fù)雜的情境,可能是AGI的突破口

RoboOmni 框架的形成,在這個團(tuán)隊過去的研究中,是有跡可循的。

今年上半年,新的訓(xùn)練路徑探索中,RoboOmni 團(tuán)隊的通訊作者復(fù)旦大學(xué)/上海創(chuàng)智學(xué)院邱錫鵬教授就曾在中提出過一個新思路 :

Context Scaling

與參數(shù)規(guī)模、后訓(xùn)練推理等路徑不一樣,Context Scaling 更看重如何讓 AI 真正理解并適應(yīng)復(fù)雜、多變、模糊的情境(Context)。

邱錫鵬教授非常推崇情境理解,并將它轉(zhuǎn)化為一個新的探索方向:

情境智能(Contextual Intelligence)

這次 RoboOmni 的發(fā)布,正是他們團(tuán)隊在情境智能方向探索的的一次成果匯報。

這也給很多科學(xué)家探索真正的智能,提供了一種思路。

人類之所以表現(xiàn)出智能,是因為人能夠理解任務(wù)的模糊與復(fù)雜。

在語言交流中,人類能聽懂朋友的“暗示”,能形成“只可意會不可言傳”的默契,這讓我們能夠高效合作與共贏;在勞動中,我們能夠橫跨很多領(lǐng)域?qū)W習(xí),從蝙蝠的飛行智慧中領(lǐng)悟雷達(dá)的原理,從荷葉表面學(xué)會不粘鍋。

不難發(fā)現(xiàn),這些行為,都不是簡單的狀態(tài) - 動作 - 獎勵循環(huán)而是在足夠豐富的情境中交互,才能涌現(xiàn)出的智能和突破。RoboOmni重新定義了機(jī)器人交互:從“執(zhí)行命令”到“主動理解”,讓機(jī)器人洞察人意,從而開啟了具身智能的“共情時代”。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
楊虎城的后人今何在:長子省委書記,倆女兒廳級,孫子移民加拿大

楊虎城的后人今何在:長子省委書記,倆女兒廳級,孫子移民加拿大

抽象派大師
2025-12-14 03:12:02
前法國國腳西塞:我討厭阿根廷隊,他們現(xiàn)在是我們最大的敵人

前法國國腳西塞:我討厭阿根廷隊,他們現(xiàn)在是我們最大的敵人

林子說事
2025-12-25 08:28:07
5500公里大奔襲,美軍無處可躲,殲20掛4油箱升空,關(guān)島淪為前線

5500公里大奔襲,美軍無處可躲,殲20掛4油箱升空,關(guān)島淪為前線

諦聽骨語本尊
2025-12-25 13:29:20
俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項正式鬧掰

俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項正式鬧掰

律法刑道
2025-12-23 22:50:36
曝37歲福原愛將誕下3胎!老公身份公開,簡直把前夫臉面放地上踩

曝37歲福原愛將誕下3胎!老公身份公開,簡直把前夫臉面放地上踩

法老不說教
2025-12-22 19:20:00
王中遠(yuǎn):我親手掩埋了林彪父子

王中遠(yuǎn):我親手掩埋了林彪父子

霹靂炮
2025-12-24 12:47:20
【西街觀察】人民幣升值,別期待“一口吃成胖子”

【西街觀察】人民幣升值,別期待“一口吃成胖子”

北京商報
2025-12-24 22:30:05
內(nèi)蒙古滿洲里市政協(xié)主席凌云任烏蘭察布市委常委、組織部部長

內(nèi)蒙古滿洲里市政協(xié)主席凌云任烏蘭察布市委常委、組織部部長

澎湃新聞
2025-12-25 09:38:26
王勵勤人事調(diào)整展現(xiàn)高超手腕!秦志戩由乒協(xié)回國乒,有望任總教練

王勵勤人事調(diào)整展現(xiàn)高超手腕!秦志戩由乒協(xié)回國乒,有望任總教練

觀察鑒娛
2025-12-25 09:00:46
8人死亡,接送幼兒車輛墜入池塘

8人死亡,接送幼兒車輛墜入池塘

中國新聞周刊
2025-12-24 18:14:25
鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認(rèn),一大把年紀(jì)還玩性感

鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認(rèn),一大把年紀(jì)還玩性感

黃小仙的搞笑視頻
2025-12-24 11:46:44
四川華西醫(yī)院有多牛?網(wǎng)友:醫(yī)術(shù)和醫(yī)德不能畫等號

四川華西醫(yī)院有多牛?網(wǎng)友:醫(yī)術(shù)和醫(yī)德不能畫等號

帶你感受人間冷暖
2025-12-25 00:15:06
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
每年1000萬以上的大學(xué)畢業(yè)生將會持續(xù)將近20年,就業(yè)會越來越難

每年1000萬以上的大學(xué)畢業(yè)生將會持續(xù)將近20年,就業(yè)會越來越難

爆角追蹤
2025-12-24 11:53:34
新F4演唱會上,周渝民就快讓人認(rèn)不出來了,這濃濃的“人夫感”啊

新F4演唱會上,周渝民就快讓人認(rèn)不出來了,這濃濃的“人夫感”啊

安寧007
2025-12-22 23:55:02
36歲好萊塢童星落魄街頭!拒絕食物索要違禁品,自知“我完了”

36歲好萊塢童星落魄街頭!拒絕食物索要違禁品,自知“我完了”

譯言
2025-12-24 08:58:48
沒有水貨!NBA公布新秀榜TOP10:馬刺榜眼重返前5 不愧是選秀大年

沒有水貨!NBA公布新秀榜TOP10:馬刺榜眼重返前5 不愧是選秀大年

鍋子籃球
2025-12-25 11:00:24
鄧成波去世4年后,留下800億資產(chǎn)快被兒子敗光,如今已經(jīng)瀕臨破產(chǎn)

鄧成波去世4年后,留下800億資產(chǎn)快被兒子敗光,如今已經(jīng)瀕臨破產(chǎn)

歸史
2025-12-24 11:32:03
又一大佬想跑路?他花1元買下8.6億股權(quán)后,在機(jī)場被勸返

又一大佬想跑路?他花1元買下8.6億股權(quán)后,在機(jī)場被勸返

毒sir財經(jīng)
2025-12-22 21:09:27
一夜之間,房價的玩笑這次開大了

一夜之間,房價的玩笑這次開大了

重遠(yuǎn)投資觀
2025-12-24 12:14:19
2025-12-25 14:07:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

女子入室殺害好友三名未成年子女 隨后在樓內(nèi)上吊自殺

頭條要聞

女子入室殺害好友三名未成年子女 隨后在樓內(nèi)上吊自殺

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財經(jīng)要聞

美國未來18個月不對中國芯片加額外關(guān)稅

汽車要聞

預(yù)售31.3萬元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

健康
旅游
藝術(shù)
時尚
軍事航空

這些新療法,讓化療不再那么痛苦

旅游要聞

元旦迎新跑,火熱報名中→

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

對不起周柯宇,是陳靖可先來的

軍事要聞

澤連斯基版“和平計劃”透露哪些信息

無障礙瀏覽 進(jìn)入關(guān)懷版