国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OmniGAIA: 全模態(tài)AI智能體新基準(zhǔn),最強(qiáng)開(kāi)源模型僅13分!

0
分享至


人大&小紅書(shū)推出OmniGAIA基準(zhǔn)和OmniAtlas智能體。

人類的智能是自然交織的——我們不僅同時(shí)用眼睛看、用耳朵聽(tīng)、用語(yǔ)言交流,還能進(jìn)行復(fù)雜的長(zhǎng)邏輯鏈推理,并在遇到難題時(shí)熟練使用搜索引擎等外部工具來(lái)輔助自己完成任務(wù)。

然而,當(dāng)前爆火的“多模態(tài)大模型(MLLM)”大多仍局限于“圖文”或“音文”的雙模態(tài)交互。它們嚴(yán)重缺乏作為“通用AI助手”所必需的全模態(tài)統(tǒng)籌、長(zhǎng)程推理與工具調(diào)用能力。

為了填補(bǔ)這一空白,中國(guó)人民大學(xué)聯(lián)合小紅書(shū)、東南大學(xué)、浙江大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)重磅推出了 OmniGAIA——一個(gè)專為評(píng)估“原生全模態(tài)AI智能體”而設(shè)計(jì)的新基準(zhǔn),并同時(shí)開(kāi)源了配套的基礎(chǔ)智能體訓(xùn)練秘籍 OmniAtlas!

該工作不僅揭示了當(dāng)前開(kāi)源模型與頂尖閉源模型之間的巨大“智能鴻溝”,更給出了一套讓大模型真正學(xué)會(huì)“看、聽(tīng)、想與用工具”的實(shí)戰(zhàn)配方。目前代碼、數(shù)據(jù)、模型已全面開(kāi)源!


論文鏈接: https://arxiv.org/pdf/2602.22897

代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA

數(shù)據(jù)集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

01


Demo

1. 圖片+音頻任務(wù):計(jì)算圖片和音頻中兩個(gè)事件發(fā)生時(shí)間相隔多久?

2. 帶音頻的視頻任務(wù):視頻中講者提到了一個(gè)某電影中的橋,請(qǐng)幫我調(diào)研其背景。

02


痛點(diǎn)直擊:現(xiàn)有的評(píng)測(cè)為什么不夠看

隨著 Qwen3-Omni、Gemini-3 等全模態(tài)大模型的涌現(xiàn),模型已經(jīng)能在單一網(wǎng)絡(luò)內(nèi)統(tǒng)一處理文本、視覺(jué)和音頻。但現(xiàn)有的評(píng)測(cè)基準(zhǔn)(如 OmniBench、WorldSense 等)大多基于極短的音視頻,且題型多為重“感知”的多項(xiàng)選擇題。

在真實(shí)世界中,我們需要 AI 解決的問(wèn)題是這樣的:

“視頻里導(dǎo)游指著遠(yuǎn)處的那座活動(dòng)橋,解說(shuō)提到這讓他想起了電影《福祿雙霸天》。請(qǐng)問(wèn)這座橋到底叫什么名字?在1979年電影開(kāi)拍時(shí),這座橋已經(jīng)建成了多少年?”


這就要求 AI 不能只會(huì)“看圖說(shuō)話”,它必須面對(duì)幾十分鐘的長(zhǎng)視頻,從中錨定地理位置,主動(dòng)去搜索引擎查證橋的真實(shí)名字和建成年份,最后進(jìn)行相關(guān)計(jì)算。

現(xiàn)有的評(píng)測(cè)測(cè)不出這種能力,OmniGAIA因此應(yīng)運(yùn)而生!

03


OmniGAIA:全模態(tài)智能體的新基準(zhǔn)

OmniGAIA 包含360個(gè)源自真實(shí)世界的高難度任務(wù),覆蓋地理、歷史、科技等 9 大垂直領(lǐng)域。輸入不僅包含時(shí)長(zhǎng)數(shù)十分鐘的“視頻+音頻”,還有復(fù)雜的“圖片+音頻”組合。模型不能靠盲猜,必須多次調(diào)用外部工具才能得出唯一可驗(yàn)證的開(kāi)放式最終答案。

它是如何構(gòu)建出來(lái)的?——首創(chuàng)全模態(tài)事件圖譜驅(qū)動(dòng)法


為了自動(dòng)合成邏輯嚴(yán)密且防作弊的高難度QA,團(tuán)隊(duì)設(shè)計(jì)了一套極其精妙的流水線:

1.數(shù)據(jù)收集從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻(含音頻)及“圖像+音頻”數(shù)據(jù)源,覆蓋 100 多個(gè)不同的垂直領(lǐng)域。

2.高價(jià)值信息挖掘使用Gemini-3-Flash 提取事件、進(jìn)行環(huán)境分析、音頻分析(包含自動(dòng)語(yǔ)音識(shí)別 ASR、說(shuō)話人身份識(shí)別 Speaker ID)以及圖像理解(包含光學(xué)字符識(shí)別 OCR、物體識(shí)別、人臉識(shí)別)。

3.智能體全模態(tài)事件圖譜構(gòu)建DeepSeek-V3.2通過(guò)規(guī)劃后續(xù)步驟、利用工具獲取新信息,并結(jié)合大語(yǔ)言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來(lái)驗(yàn)證事實(shí)準(zhǔn)確性,從而迭代式地?cái)U(kuò)展初始事件圖譜。

4.問(wèn)答生成與質(zhì)量審查通過(guò)事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問(wèn)答對(duì),隨后由 LLM 和人工共同驗(yàn)證其準(zhǔn)確性、任務(wù)難度以及答案的唯一性。

04


OmniAtlas:原生全模態(tài)智能體基座模型

在嚴(yán)苛的測(cè)試下,早期的開(kāi)源模型表現(xiàn)較差。為了提升開(kāi)源全模態(tài)模型的 Agent 能力,團(tuán)隊(duì)不僅提出了基準(zhǔn),更給出了一套開(kāi)源解法與完整的“訓(xùn)練秘籍”——OmniAtlas。


它遵循工具集成推理范式,包含三大核心殺手锏:

1.主動(dòng)全模態(tài)感知(Active Perception)

面對(duì)超長(zhǎng)視頻或高清大圖,傳統(tǒng)的“全局降采樣”會(huì)丟失大量細(xì)節(jié)。OmniAtlas 賦予了模型“指哪看哪、聽(tīng)哪”的特技!它可以通過(guò)內(nèi)置工具(read_video / read_audio / read_image)精準(zhǔn)截取特定時(shí)間段的視頻或裁剪特定區(qū)域的圖片,實(shí)現(xiàn)高保真的按需感知。

2.高質(zhì)量軌跡合成與監(jiān)督微調(diào)

團(tuán)隊(duì)利用強(qiáng)大的推理模型進(jìn)行“后見(jiàn)之明引導(dǎo)的樹(shù)探索”,在已知正確答案的引導(dǎo)下,剪枝掉錯(cuò)誤分支,合成出完美的“思考+工具調(diào)用”成功軌跡。在監(jiān)督微調(diào)階段,采用掩碼監(jiān)督(Masked SFT),只對(duì)模型生成的“思考和動(dòng)作”算 Loss,屏蔽掉外部工具返回的冗長(zhǎng)噪音,讓模型真正學(xué)會(huì)“如何思考”。

3. OmniDPO細(xì)粒度糾錯(cuò)

全模態(tài)任務(wù)極易“一步錯(cuò),步步錯(cuò)”。團(tuán)隊(duì)首創(chuàng)了OmniDPO,能夠精準(zhǔn)定位失敗軌跡中的第一處錯(cuò)誤點(diǎn)(到底是沒(méi)看清、聽(tīng)漏了,還是搜索關(guān)鍵詞用錯(cuò)了?),并生成糾正后的正確前綴,構(gòu)建正負(fù)樣本對(duì)進(jìn)行偏好優(yōu)化,實(shí)現(xiàn)真正的“對(duì)癥下藥”!。

05


實(shí)驗(yàn)結(jié)果:性能鴻溝與成因

1.主實(shí)驗(yàn)結(jié)果:在OmniGAIA上對(duì)比全模態(tài)模型的性能


團(tuán)隊(duì)在統(tǒng)一提供外部工具(搜索、瀏覽器、代碼)的嚴(yán)苛環(huán)境下評(píng)測(cè)了各大前沿模型,我們可以發(fā)現(xiàn):

1.閉源王者斷崖領(lǐng)先:最強(qiáng)的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過(guò)率(Pass@1),展現(xiàn)出極其成熟的規(guī)劃與驗(yàn)證能力。而最強(qiáng)的開(kāi)源基線 Qwen-3-Omni (30B) 僅有13.3%,差距近乎 4.7 倍!

2.大力出奇跡失效:擁有高達(dá)5600億 (560B) 龐大參數(shù)量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!這證明了:在全模態(tài)Agent領(lǐng)域,優(yōu)秀的“智能體工具調(diào)用策略”比單純的參數(shù)規(guī)模更關(guān)鍵。

3.OmniAtlas療效顯著:經(jīng)過(guò)OmniAtlas 訓(xùn)練配方優(yōu)化的 Qwen-3-Omni,準(zhǔn)確率從 13.3% 暴漲至 20.8% (+7.5)!在較小的 7B 模型上,更是提升了近 4 倍(3.6% ?? 13.3%)。

2.細(xì)粒度錯(cuò)誤分析:AI到底錯(cuò)在了哪一步?


通過(guò)對(duì)模型失敗軌跡的解剖,研究發(fā)現(xiàn):在困難任務(wù)中,開(kāi)源模型有高達(dá) 90% 以上的失敗源于沒(méi)有正確使用工具(比如沒(méi)有調(diào)用工具,陷入搜索死循環(huán)、查錯(cuò)方向),這直接導(dǎo)致了下游任務(wù)完成的全面崩潰。

3.工具調(diào)用行為分析


AI 到底該調(diào)用幾次工具?散點(diǎn)分布圖(Violin Plot)揭示了有趣的現(xiàn)象:

工具冷漠癥完全不用工具的模型(集中在 0 次),成功率很低。這證實(shí)了僅靠模型腦內(nèi)的先驗(yàn)知識(shí),根本搞不定復(fù)雜的真實(shí)環(huán)境。

調(diào)得多就一定好嗎?錯(cuò)!部分失敗軌跡調(diào)用了 10~20 次以上工具,但全在做低效重復(fù)的無(wú)用功,無(wú)法有效解決不確定性。

從被動(dòng)到主動(dòng):OmniAtlas 的工具調(diào)用分布更加主動(dòng),有效探索率的大幅提升直接拉動(dòng)了過(guò)關(guān)率,但也帶來(lái)了工具調(diào)用冗余的問(wèn)題,希望后續(xù)工作可以更好的平衡性能與效率。

4.原生全模態(tài)感知vs外掛感知工具,哪個(gè)更好


我們真的需要原生全模態(tài)大模型嗎?能不能用純文本大模型,外掛一個(gè)“識(shí)圖/聽(tīng)音 API”來(lái)代替?消融實(shí)驗(yàn)給出了答案:

1.對(duì)強(qiáng)模型來(lái)說(shuō),原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具調(diào)用僅需 4.4 次。如果把感知拆分成外部工具,不僅成績(jī)下降,API調(diào)用成本更是翻倍(增至 9.4 次)。

2.外掛工具打不了硬仗對(duì)于較弱的開(kāi)源模型,外掛感知工具雖然能在簡(jiǎn)單題上提點(diǎn)分,但在需要復(fù)雜跨模態(tài)推理的 Hard 難題中,成績(jī)直接崩盤(從 9.0 跌至 3.9)。

結(jié)論:外掛工具會(huì)切斷模態(tài)間的內(nèi)在聯(lián)系,原生全模態(tài)融合,才是拔高AI智能上限的唯一正解!

06


總結(jié)與未來(lái)展望

看得清、聽(tīng)得懂只是起點(diǎn),會(huì)思考、善用工具、能行動(dòng)才是邁向通用人工智能(AGI)的試金石。

OmniGAIA 揭開(kāi)了現(xiàn)有全模態(tài)大模型在“長(zhǎng)程推理與多輪工具使用”上的缺陷,而OmniAtlas 的全套硬核實(shí)驗(yàn)剖析則為開(kāi)源社區(qū)指明了一條極具潛力的演進(jìn)路線。研究團(tuán)隊(duì)指出,通往真正原生全模態(tài) AI 助手的道路上,未來(lái)有三大黃金賽道:

1.全模態(tài)智能體強(qiáng)化學(xué)習(xí)(Agentic RL):在真實(shí)全模態(tài)反饋下直接優(yōu)化長(zhǎng)視野決策策略。

2.全模態(tài)MCP生態(tài):為全模態(tài)智能體接入更多工具,打造可擴(kuò)展的MCP工具集。

3.全模態(tài)具身智能(Embodied Agents):將擁有“全模態(tài)大腦”的智能體引入物理世界,完成真實(shí)世界的交互,來(lái)打造我們生活中的AI助手。

07


作者信息


本工作第一作者李曉熙,目前就讀于中國(guó)人民大學(xué)高瓴人工智能學(xué)院,博士三年級(jí),研究方向主要包括Agentic AI、Deep Research、大模型推理、強(qiáng)化學(xué)習(xí)等。在國(guó)際頂級(jí)會(huì)議NeurIPS,ICLR,ACL等發(fā)表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小紅書(shū)參加 RedStar 實(shí)習(xí)項(xiàng)目,進(jìn)行Agentic AI和Deep Research領(lǐng)域的研究工作。


本文的通信作者竇志成,中國(guó)人民大學(xué)高瓴人工智能學(xué)院長(zhǎng)聘教授、博士生導(dǎo)師、副院長(zhǎng)。主要研究方向?yàn)樾畔z索、大模型、智能體、大模型檢索增強(qiáng)、AI搜索、司法智能等。在國(guó)際知名學(xué)術(shù)會(huì)議和期刊上發(fā)表論文200余篇,帶領(lǐng)團(tuán)隊(duì)研發(fā)涉外法治大模型,開(kāi)源大模型檢索增強(qiáng)工具包FlashRAG、iAgent系列信息智能體(WebThinker、ARPO、DeepAgent等)累計(jì)獲得GitHub星標(biāo)1萬(wàn)余枚。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
駐韓美軍部分“薩德”反導(dǎo)系統(tǒng)轉(zhuǎn)往中東

駐韓美軍部分“薩德”反導(dǎo)系統(tǒng)轉(zhuǎn)往中東

環(huán)球網(wǎng)資訊
2026-03-10 13:06:08
人在庫(kù)姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

人在庫(kù)姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

老馬拉車莫少裝
2026-03-09 19:03:45
新歡上位成功?買超又曝喜當(dāng)?shù)?,新歡似是當(dāng)年那個(gè)女大學(xué)生

新歡上位成功?買超又曝喜當(dāng)?shù)職g似是當(dāng)年那個(gè)女大學(xué)生

悅君兮君不知
2026-03-09 21:42:31
A股:不出意外 明天周三 牛市很有可能會(huì)迎大級(jí)別的反彈!

A股:不出意外 明天周三 牛市很有可能會(huì)迎大級(jí)別的反彈!

夜深愛(ài)雜談
2026-03-10 20:50:27
只有一個(gè)女兒的父母千萬(wàn)記住:女婿對(duì)你啥樣,都別交這五樣底

只有一個(gè)女兒的父母千萬(wàn)記住:女婿對(duì)你啥樣,都別交這五樣底

楓紅染山徑
2026-03-06 00:41:37
為什么有人會(huì)信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

為什么有人會(huì)信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

侃神評(píng)故事
2026-03-09 11:15:03
粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長(zhǎng),有幾人能鎮(zhèn)住他?

粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長(zhǎng),有幾人能鎮(zhèn)住他?

浩渺青史
2026-03-10 18:31:00
眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說(shuō)不出話

眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說(shuō)不出話

萌神木木
2026-03-10 11:43:57
滅國(guó)級(jí)絞殺!伊朗新領(lǐng)袖剛上臺(tái),美軍基地全面開(kāi)放,這要徹底亡國(guó)

滅國(guó)級(jí)絞殺!伊朗新領(lǐng)袖剛上臺(tái),美軍基地全面開(kāi)放,這要徹底亡國(guó)

東極妙嚴(yán)
2026-03-09 17:19:50
伊各方誓言贏得戰(zhàn)爭(zhēng),美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖

伊各方誓言贏得戰(zhàn)爭(zhēng),美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖

環(huán)球網(wǎng)資訊
2026-03-10 06:43:10
身價(jià)僅80萬(wàn)!前皇馬7號(hào)沉淪:西甲10場(chǎng)0球 球隊(duì)瀕臨降級(jí)區(qū)

身價(jià)僅80萬(wàn)!前皇馬7號(hào)沉淪:西甲10場(chǎng)0球 球隊(duì)瀕臨降級(jí)區(qū)

葉青足球世界
2026-03-10 15:18:17
48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

博士觀察
2026-03-09 16:22:08
追覓手機(jī)外觀確認(rèn):奢華設(shè)計(jì)叫板華為小米 三分天下

追覓手機(jī)外觀確認(rèn):奢華設(shè)計(jì)叫板華為小米 三分天下

快科技
2026-03-09 16:32:10
48小時(shí)生成500萬(wàn)字小說(shuō)?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來(lái)自AI

48小時(shí)生成500萬(wàn)字小說(shuō)?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來(lái)自AI

藍(lán)鯨新聞
2026-03-09 12:14:45
為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

心靈的觸動(dòng)a
2026-03-09 22:33:30
伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計(jì)難奏效

伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計(jì)難奏效

深度財(cái)線
2026-03-10 15:46:07
2026中國(guó)高端手機(jī)最新銷量:iPhone 17以2383.97萬(wàn)臺(tái)登頂榜首

2026中國(guó)高端手機(jī)最新銷量:iPhone 17以2383.97萬(wàn)臺(tái)登頂榜首

PChome電腦之家
2026-03-09 15:16:03
外媒:法國(guó)要求聯(lián)合國(guó)安理會(huì)召開(kāi)緊急會(huì)議,討論黎巴嫩當(dāng)前局勢(shì)

外媒:法國(guó)要求聯(lián)合國(guó)安理會(huì)召開(kāi)緊急會(huì)議,討論黎巴嫩當(dāng)前局勢(shì)

環(huán)球網(wǎng)資訊
2026-03-09 19:57:22
巴薩棄將巴甲閃耀 計(jì)劃世界杯后離開(kāi)帕爾梅拉斯 標(biāo)價(jià)超5000萬(wàn)歐

巴薩棄將巴甲閃耀 計(jì)劃世界杯后離開(kāi)帕爾梅拉斯 標(biāo)價(jià)超5000萬(wàn)歐

智道足球
2026-03-10 19:16:51
寶馬銷售直播狂踩小米汽車!小米高管回應(yīng)

寶馬銷售直播狂踩小米汽車!小米高管回應(yīng)

鞭牛士
2026-03-10 14:32:06
2026-03-10 23:15:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

小伙輾轉(zhuǎn)8天回國(guó):后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國(guó):后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

娛樂(lè)要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
手機(jī)
時(shí)尚
家居
公開(kāi)課

本地新聞

云游中國(guó)|候鳥(niǎo)高顏值亮相!沉浸式打卡青海濕地

手機(jī)要聞

7999起,小米17 Ultra徠卡版全新黑銀色開(kāi)售

看來(lái)看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

家居要聞

自然肌理 溫度質(zhì)感婚房

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版