国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「聽覺」引導「視覺」,OmniAgent開啟全模態(tài)主動感知新范式

0
分享至



針對端到端全模態(tài)大模型(OmniLLMs)在跨模態(tài)對齊和細粒度理解上的痛點,浙江大學、西湖大學、螞蟻集團聯(lián)合提出 OmniAgent。這是一種基于「音頻引導」的主動感知 Agent,通過「思考 - 行動 - 觀察 - 反思」閉環(huán),實現(xiàn)了從被動響應到主動探詢的范式轉變。

在 Daily-Omni 等多個基準測試中,其準確率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等開閉源模型。



  • 論文地址:https://arxiv.org/pdf/2512.23646
  • 論文主頁:https://kd-tao.github.io/OmniAgent
  • 發(fā)起實驗室ENCODE LAB:https://westlake-encode-lab.github.io/



背景與痛點



  1. 端到端全模態(tài)模型雖然實現(xiàn)了視聽統(tǒng)一,但往往受限于高昂的訓練成本和困難的跨模態(tài)特征對齊,導致在細粒度跨模態(tài)理解上表現(xiàn)不佳;
  2. 基于固定 Workflow 的智能體依賴人為設定僵化的流程,缺乏細粒度和靈活性,無法根據(jù)問題自主的進行規(guī)劃與信息獲?。?/li>
  3. Caption-based 視頻智能體需要在分析問題之前,先針對整個視頻構建幀 caption 數(shù)據(jù)庫,隨后基于視頻字幕數(shù)據(jù)庫來理解內(nèi)容,但這種方法計算成本高,難以捕捉細節(jié)的跨模態(tài)信息。

相比之下,OmniAgent 引入了一種全新的主動感知推理范式。通過在迭代反思循環(huán)中策略性地調(diào)度視頻與音頻理解能力,該方法有效攻克了跨模態(tài)對齊的難題,從而實現(xiàn)了對視聽內(nèi)容的細粒度理解。

方法論



OmniAgent 摒棄了固定的工作流,采用了「思考 - 行動 - 觀察 - 反思」閉環(huán)機制 。

1.思考:OmniAgent 會根據(jù)問題進行分析,自主決定「聽」還是「看」。

2.行動:根據(jù)計劃,OmniAgent 會從構建的多模態(tài)工具中選取合適的工具進行調(diào)用:

  1. 事件工具:利用音頻能夠高效捕捉全局上下文的特性,首創(chuàng)音頻引導事件定位,快速鎖定關鍵時間窗口,避免對長視頻進行無效的視覺掃描 。
  2. 視頻工具:包含粗粒度的全局視頻問答,以及在特定時間內(nèi)基于更高幀率進行分析的片段問答工具。
  3. 音頻工具:涵蓋音頻全局描述、細粒度問答,以及支持精確時間戳的語音轉錄 (ASR)。

3.觀察與反思機制:智能體接受工具結果,評估目前已有的證據(jù)能否正確的回答問題,并且結合之前在多步推理中進行跨模態(tài)一致性檢查,確保視聽證據(jù)互證,解決幻覺與對齊問題。

效果如何?

OmniAgent 在三個主流視聽理解基準測試中均取得了 SOTA 成績,顯著優(yōu)于現(xiàn)有的開源及閉源模型:

1.Daily-Omni Benchmark:準確率達到 82.71%,超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%),提升幅度超 10% 。



2.OmniVideoBench:在長視頻理解任務中,準確率達 59.1%,大幅領先 Qwen3-Omni-30B (38.4%) 。



3.WorldSense:OmniAgent 也保持了領先的準確度。



未來愿景

  1. OmniAgent 的設計理念有很高的擴展性,能夠繼續(xù)結合其他模態(tài)的工具;
  2. OmniAgent 能夠幫助生成高質量的 COTT 數(shù)據(jù),用來構建可以自我調(diào)用工具的下一代智能體全模態(tài)模型。

總的來看,OmniAgent 證明了在全模態(tài)理解任務中,音頻引導的的主動感知策略是解決跨模態(tài)對齊困難、提升細粒度推理能力的有效路徑。該工作為未來的全模態(tài) Agent 算法設計提供了新的范式參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
朱棣死在榆木川,榆木川位于現(xiàn)在的哪里?說出來你可能不信

朱棣死在榆木川,榆木川位于現(xiàn)在的哪里?說出來你可能不信

小豫講故事
2026-01-12 06:00:05
壓歲錢發(fā)到幾歲最合適?內(nèi)行給出“4個”答案,你更贊成哪一個?

壓歲錢發(fā)到幾歲最合適?內(nèi)行給出“4個”答案,你更贊成哪一個?

美食格物
2026-01-12 17:17:08
洗碗機女主:制造爭議,吸引流量,開播,被封,主打一個完美

洗碗機女主:制造爭議,吸引流量,開播,被封,主打一個完美

TVB的四小花
2026-01-11 06:02:24
廣東一54歲男子痛風去世,從不吃內(nèi)臟海鮮,醫(yī)生嘆息:無知害了他

廣東一54歲男子痛風去世,從不吃內(nèi)臟海鮮,醫(yī)生嘆息:無知害了他

華庭講美食
2026-01-03 11:13:38
送走小波特后,籃網(wǎng)能否順勢交易得到賈?莫蘭特?

送走小波特后,籃網(wǎng)能否順勢交易得到賈?莫蘭特?

夜白侃球
2026-01-12 20:23:32
基輔市長克里琴科:基輔已經(jīng)癱瘓了,應該離開基輔!

基輔市長克里琴科:基輔已經(jīng)癱瘓了,應該離開基輔!

達文西看世界
2026-01-11 09:44:04
外交部:目前沒有得到有中國公民在伊朗傷亡的報告

外交部:目前沒有得到有中國公民在伊朗傷亡的報告

環(huán)球網(wǎng)資訊
2026-01-12 16:04:42
西安未來五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

西安未來五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

林子說事
2026-01-12 15:27:41
日方求當面交涉,吳大使反應不出所料,難聽的話高市只能照單全收

日方求當面交涉,吳大使反應不出所料,難聽的話高市只能照單全收

劍哥的思政課
2026-01-12 19:23:48
中國衛(wèi)星封板漲停,再創(chuàng)歷史新高

中國衛(wèi)星封板漲停,再創(chuàng)歷史新高

每日經(jīng)濟新聞
2026-01-12 10:00:06
朱雨玲奪冠后開心提及孫穎莎王曼昱,帶走28萬獎金

朱雨玲奪冠后開心提及孫穎莎王曼昱,帶走28萬獎金

孤酒老巷QA
2026-01-12 13:31:41
老公走了,我養(yǎng)大三個小叔子,今年我住院,他們的表現(xiàn)讓我覺得值

老公走了,我養(yǎng)大三個小叔子,今年我住院,他們的表現(xiàn)讓我覺得值

會一帆風順的
2026-01-12 14:11:52
楊樂樂曬兒子正臉照,一家四口合照曝光,沐沐疑和妹妹睡上下鋪

楊樂樂曬兒子正臉照,一家四口合照曝光,沐沐疑和妹妹睡上下鋪

阿纂看事
2026-01-12 09:24:30
中國1-0爆冷澳洲,沒想到賽后王玉棟這么說 距離創(chuàng)造歷史僅差一步

中國1-0爆冷澳洲,沒想到賽后王玉棟這么說 距離創(chuàng)造歷史僅差一步

籃球看比賽
2026-01-12 11:19:53
對 “臺獨劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

對 “臺獨劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

達文西看世界
2026-01-12 14:14:16
印度要求智能手機制造商共享“源代碼”,蘋果和三星等表示擔憂!

印度要求智能手機制造商共享“源代碼”,蘋果和三星等表示擔憂!

AI商業(yè)論
2026-01-11 19:27:35
歷史性一幕發(fā)生:馬杜羅被抓后,世界分成3派,烏克蘭最令人氣憤

歷史性一幕發(fā)生:馬杜羅被抓后,世界分成3派,烏克蘭最令人氣憤

文史旺旺旺
2026-01-11 15:47:04
十大元帥中誰最佩服毛主席?幾乎到了言聽計從的地步!無怨無悔

十大元帥中誰最佩服毛主席?幾乎到了言聽計從的地步!無怨無悔

汪茫的創(chuàng)業(yè)之路
2026-01-12 14:20:08
18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

環(huán)球趣聞分享
2026-01-07 13:30:09
楊瀚森防守效率力壓濃眉、約基奇,位居NBA中鋒第六

楊瀚森防守效率力壓濃眉、約基奇,位居NBA中鋒第六

大眼瞄世界
2026-01-12 11:16:58
2026-01-12 20:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12101文章數(shù) 142535關注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

蔡少芬結婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

教育
親子
家居
旅游
軍事航空

教育要聞

剛迎超長寒假!北京中小學又撞上近十年“最短學期”?!

親子要聞

寶媽必學,傷害孩子的壞人不分性別!

家居要聞

包絡石木為生 野性舒適

旅游要聞

中國文旅看山西:省文旅廳和交通廳聯(lián)手規(guī)劃打造“萬里山河”景觀路

軍事要聞

官方確認:殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機

無障礙瀏覽 進入關懷版