国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港中文 MMlab×美團(tuán)新研究:僅用一個(gè)模型,應(yīng)對(duì)多種視覺推理任務(wù)

0
分享至



港中文岳翔宇教授團(tuán)隊(duì)提出統(tǒng)一多模態(tài)推理模型 OneThinker,驗(yàn)證任務(wù)泛化能力。

作者丨鄭佳美

編輯丨岑峰

在大模型邁向通用視覺智能的浪潮中,單一任務(wù)或單一模態(tài)的方法正面臨瓶頸。現(xiàn)實(shí)世界的視覺理解系統(tǒng)不僅要回答問題,還要理解動(dòng)態(tài)視頻、定位事件、跟蹤目標(biāo)、生成描述乃至進(jìn)行復(fù)雜的邏輯推理,這要求模型具備綜合的跨任務(wù)和跨模態(tài)能力。

然而,現(xiàn)有方法多數(shù)依賴任務(wù)?;P?,難以實(shí)現(xiàn)不同視覺任務(wù)間的協(xié)同與知識(shí)共享,這不僅導(dǎo)致系統(tǒng)復(fù)雜度高,也限制了模型在綜合推理場(chǎng)景中的表現(xiàn)。

在這樣的行業(yè)背景下,香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)與美團(tuán)的聯(lián)合研究團(tuán)隊(duì)提出了OneThinker多模態(tài)統(tǒng)一推理模型,并在論文中系統(tǒng)性地給出了答案。

不同于為每個(gè)視覺任務(wù)單獨(dú)設(shè)計(jì)模型,OneThinker 選擇了一條更激進(jìn)的路線:將圖像與視頻中的問答、描述、時(shí)空定位、跟蹤和分割等任務(wù)統(tǒng)一抽象為“先推理、后作答”的通用形式,并通過(guò)多任務(wù)強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行整體優(yōu)化。

這項(xiàng)工作不僅關(guān)注模型在單一基準(zhǔn)上的性能提升,更試圖驗(yàn)證一個(gè)更根本的問題,“是否可以通過(guò)統(tǒng)一的推理機(jī)制,讓一個(gè)模型同時(shí)具備多種視覺理解與推理能力,而不犧牲任何單項(xiàng)任務(wù)的表現(xiàn)?”

圍繞這一問題,研究團(tuán)隊(duì)構(gòu)建了大規(guī)模多任務(wù)數(shù)據(jù)集,引入改進(jìn)的強(qiáng)化學(xué)習(xí)算法,并在圖像與視頻兩種模態(tài)上進(jìn)行了系統(tǒng)而全面的實(shí)驗(yàn)評(píng)測(cè),為通用視覺推理模型的設(shè)計(jì)提供了具有參考價(jià)值的實(shí)證結(jié)果。


論文地址:https://arxiv.org/pdf/2512.03043v2

01
從任務(wù)割裂到統(tǒng)一推理

為驗(yàn)證 OneThinker 模型在多模態(tài)、多任務(wù)場(chǎng)景下的有效性,研究團(tuán)隊(duì)在圖像與視頻兩種模態(tài)上,對(duì)多類典型視覺理解任務(wù)進(jìn)行了系統(tǒng)評(píng)測(cè)。實(shí)驗(yàn)內(nèi)容涵蓋問答、描述、定位、跟蹤和分割等多個(gè)方向,旨在全面評(píng)估模型在不同任務(wù)類型和不同模態(tài)下的整體表現(xiàn)。

整體實(shí)驗(yàn)結(jié)果來(lái)看,OneThinker 在絕大多數(shù)視覺理解任務(wù)中均優(yōu)于基礎(chǔ)模型以及多種現(xiàn)有開源方法,表現(xiàn)出較為穩(wěn)定的性能優(yōu)勢(shì)。這一結(jié)果表明,通過(guò)統(tǒng)一建模并引入多任務(wù)強(qiáng)化學(xué)習(xí)機(jī)制,模型能夠在不犧牲單任務(wù)性能的前提下,有效提升其綜合推理能力和跨任務(wù)適應(yīng)性。


圖像問答任務(wù)中,OneThinker 需要同時(shí)處理視覺內(nèi)容理解、數(shù)學(xué)推理、邏輯推斷以及跨模態(tài)信息融合等多種復(fù)雜能力。實(shí)驗(yàn)結(jié)果顯示,該模型在多項(xiàng)高難度圖像問答任務(wù)中均取得了明顯優(yōu)于對(duì)比模型的表現(xiàn),尤其在涉及數(shù)學(xué)推理、科學(xué)推理和多步驟邏輯推斷的問題上優(yōu)勢(shì)更加突出。

上述結(jié)果表明,統(tǒng)一的推理框架不僅未削弱模型在復(fù)雜問答任務(wù)中的表現(xiàn),反而通過(guò)多任務(wù)聯(lián)合訓(xùn)練,使模型獲得了更強(qiáng)的抽象推理能力和跨領(lǐng)域泛化能力。


視頻問答任務(wù)中,模型不僅需要理解單幀視覺信息,還需有效建模時(shí)間順序、事件演變以及長(zhǎng)程依賴關(guān)系。實(shí)驗(yàn)結(jié)果表明,OneThinker 在多項(xiàng)視頻問答任務(wù)中整體性能優(yōu)于專門針對(duì)視頻推理設(shè)計(jì)的模型,尤其在長(zhǎng)視頻推理和視頻數(shù)學(xué)推理等任務(wù)中表現(xiàn)更為突出。

這一結(jié)果說(shuō)明,在統(tǒng)一訓(xùn)練框架下,OneThinker 成功學(xué)習(xí)到了穩(wěn)定而有效的時(shí)間建模能力,從而能夠在復(fù)雜視頻場(chǎng)景中進(jìn)行連續(xù)推理和事件級(jí)理解。


圖像和視頻描述任務(wù)中,OneThinker 需要生成與視覺內(nèi)容高度一致、語(yǔ)義連貫且信息完整的自然語(yǔ)言描述。實(shí)驗(yàn)結(jié)果表明,該模型在圖像描述和視頻描述任務(wù)中均取得了較為領(lǐng)先的性能,生成文本在準(zhǔn)確性、完整性和語(yǔ)言質(zhì)量等方面均有明顯提升。

這進(jìn)一步說(shuō)明,推理能力的增強(qiáng)有助于模型更有效地組織和整合視覺信息,從而生成結(jié)構(gòu)更加清晰、邏輯更加合理的描述文本。


時(shí)間定位任務(wù)中,模型需要準(zhǔn)確判斷事件在視頻中發(fā)生的起止時(shí)間;而在空間定位任務(wù)中,則需要精確預(yù)測(cè)目標(biāo)在圖像中的空間位置。實(shí)驗(yàn)結(jié)果顯示,OneThinker 在這兩類任務(wù)中均取得了顯著性能提升,能夠更準(zhǔn)確地理解事件發(fā)生的時(shí)間范圍以及目標(biāo)的空間分布特征。


進(jìn)一步地,在同時(shí)涉及時(shí)間與空間信息的聯(lián)合定位任務(wù)中,OneThinker 同樣表現(xiàn)出較強(qiáng)的綜合建模能力,表明該模型能夠在統(tǒng)一框架下同時(shí)處理“何時(shí)發(fā)生”和“發(fā)生在哪里”這兩個(gè)關(guān)鍵問題。


目標(biāo)跟蹤任務(wù)中,OneThinker 需要在視頻序列中持續(xù)、穩(wěn)定地定位同一目標(biāo)。實(shí)驗(yàn)結(jié)果顯示,該模型在跟蹤精度和整體穩(wěn)定性方面均明顯優(yōu)于對(duì)比方法,尤其在長(zhǎng)時(shí)間序列中表現(xiàn)更加穩(wěn)健。


圖像與視頻分割任務(wù)中,OneThinker 能夠結(jié)合推理過(guò)程生成結(jié)構(gòu)化提示,從而有效引導(dǎo)分割模型獲得更加精確的目標(biāo)區(qū)域。實(shí)驗(yàn)結(jié)果表明,該模型在細(xì)粒度視覺理解任務(wù)中同樣具備較強(qiáng)競(jìng)爭(zhēng)力,說(shuō)明推理機(jī)制能夠?qū)Ω兄惾蝿?wù)形成有效補(bǔ)充。


此外,通過(guò)消融實(shí)驗(yàn)可以發(fā)現(xiàn),僅采用監(jiān)督微調(diào)而不引入強(qiáng)化學(xué)習(xí),會(huì)導(dǎo)致模型在多項(xiàng)任務(wù)上的性能明顯下降;同時(shí),用傳統(tǒng)強(qiáng)化學(xué)習(xí)方法替代論文提出的 EMA-GRPO 算法,也會(huì)引起整體性能的退化。這進(jìn)一步驗(yàn)證了強(qiáng)化學(xué)習(xí)策略及其改進(jìn)方法在統(tǒng)一多任務(wù)訓(xùn)練中的重要作用。


最后,在未參與訓(xùn)練的新任務(wù)上,OneThinker 依然表現(xiàn)出較好的零樣本泛化能力,說(shuō)明統(tǒng)一多任務(wù)訓(xùn)練有助于模型學(xué)習(xí)更加通用和可遷移的視覺推理知識(shí)。


02
讓推理成為訓(xùn)練的核心

為支持統(tǒng)一多模態(tài)推理模型的訓(xùn)練,研究中構(gòu)建了一個(gè)大規(guī)模、多任務(wù)的數(shù)據(jù)集,覆蓋圖像和視頻兩種模態(tài)。這個(gè)數(shù)據(jù)集包含問答、描述、時(shí)間定位、空間定位、時(shí)空定位、目標(biāo)跟蹤以及分割等多種視覺理解任務(wù),數(shù)據(jù)來(lái)源廣泛,涵蓋多個(gè)應(yīng)用領(lǐng)域和不同難度層級(jí),從而為模型學(xué)習(xí)多樣化的視覺推理能力提供了充分支撐。

在此基礎(chǔ)上,研究團(tuán)隊(duì)還進(jìn)一步構(gòu)建了一個(gè)帶有推理過(guò)程標(biāo)注的子數(shù)據(jù)集,用于模型的監(jiān)督微調(diào)階段。該子數(shù)據(jù)集中的推理過(guò)程由性能較強(qiáng)的模型自動(dòng)生成,并經(jīng)過(guò)嚴(yán)格的篩選與校驗(yàn),以保證推理鏈條在邏輯正確性和表達(dá)一致性方面的可靠性,為后續(xù)強(qiáng)化學(xué)習(xí)階段奠定了良好的初始化基礎(chǔ)。


在訓(xùn)練過(guò)程中,所有任務(wù)均被統(tǒng)一表示為“先推理、后作答”的形式,即模型首先生成內(nèi)部推理過(guò)程,再輸出最終答案或結(jié)構(gòu)化結(jié)果。這種統(tǒng)一的任務(wù)表達(dá)方式使不同類型的任務(wù)能夠在同一訓(xùn)練框架下進(jìn)行聯(lián)合優(yōu)化,同時(shí)也便于獎(jiǎng)勵(lì)函數(shù)的自動(dòng)計(jì)算與評(píng)估。

對(duì)于感知類任務(wù),模型需要輸出符合預(yù)定義格式的結(jié)構(gòu)化結(jié)果,以確保評(píng)估過(guò)程具有良好的可重復(fù)性和穩(wěn)定性,從而避免因輸出格式差異帶來(lái)的評(píng)價(jià)偏差。


在完成監(jiān)督微調(diào)之后,研究團(tuán)隊(duì)引入強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力。在訓(xùn)練過(guò)程中,模型根據(jù)不同任務(wù)類型獲得相應(yīng)的準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì),從而引導(dǎo)模型生成既符合任務(wù)目標(biāo)又滿足輸出規(guī)范的結(jié)果。


針對(duì)多任務(wù)訓(xùn)練中不同任務(wù)獎(jiǎng)勵(lì)分布差異較大的問題,研究中提出了一種基于指數(shù)滑動(dòng)平均的歸一化方法,使各類任務(wù)在訓(xùn)練過(guò)程中能夠獲得相對(duì)平衡的優(yōu)化信號(hào),從而有效避免模型過(guò)度偏向少數(shù)獎(jiǎng)勵(lì)分布較強(qiáng)的任務(wù)。

模型訓(xùn)練在大規(guī)模 GPU 集群上完成,整體訓(xùn)練流程分為監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)兩個(gè)階段。通過(guò)合理設(shè)置學(xué)習(xí)率、批大小以及視頻幀數(shù)上限,在保證訓(xùn)練效率的同時(shí),實(shí)現(xiàn)了穩(wěn)定而有效的多任務(wù)聯(lián)合優(yōu)化。

03
讓推理跨越任務(wù)邊界

從實(shí)驗(yàn)結(jié)果可以看出,統(tǒng)一的多模態(tài)推理模型在性能層面具有良好的可行性和有效性。這一發(fā)現(xiàn)表明,將不同視覺任務(wù)整合到同一模型中進(jìn)行建模,并不會(huì)削弱模型在單一任務(wù)上的表現(xiàn),反而能夠在整體上提升其推理能力。

同時(shí),實(shí)驗(yàn)也顯示,強(qiáng)化學(xué)習(xí)并非只適用于語(yǔ)言推理任務(wù),在引入合適的建模方式后,同樣可以有效作用于視覺感知和時(shí)序理解等多模態(tài)場(chǎng)景。

在這一背景下,OneThinker 所采用的模型設(shè)計(jì)思路展現(xiàn)出一定的普適性。通過(guò)統(tǒng)一接口、統(tǒng)一訓(xùn)練流程以及統(tǒng)一優(yōu)化策略,不同任務(wù)和不同模態(tài)之間得以共享推理能力和結(jié)構(gòu)性知識(shí),從而減少了重復(fù)建模的需求。這種設(shè)計(jì)范式為通用視覺推理模型的構(gòu)建提供了一條相對(duì)清晰且具有復(fù)用價(jià)值的技術(shù)路徑。

從應(yīng)用層面來(lái)看,統(tǒng)一的多模態(tài)推理模型也更貼近真實(shí)場(chǎng)景的實(shí)際需求。在諸如自動(dòng)駕駛、智能監(jiān)控以及機(jī)器人感知與決策等任務(wù)中,系統(tǒng)往往需要在同一框架下同時(shí)完成理解、推理和定位等多種功能。相比依賴多個(gè)獨(dú)立模型的方案,統(tǒng)一模型在系統(tǒng)復(fù)雜度控制和任務(wù)協(xié)同方面具有更大的潛在優(yōu)勢(shì)。

總體而言,這些實(shí)驗(yàn)結(jié)果提示,多模態(tài)通用模型的發(fā)展方向不應(yīng)僅停留在模型規(guī)模的擴(kuò)展上,而更值得關(guān)注的是任務(wù)建模方式的統(tǒng)一、推理機(jī)制的合理設(shè)計(jì)以及訓(xùn)練策略的協(xié)同優(yōu)化。

這些方面的探索為后續(xù)多模態(tài)通用智能系統(tǒng)的研究提供了有益的參考。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
明年1月1日起,向好友發(fā)淫穢信息,無(wú)論是公開微信群還是私人私聊均違法

明年1月1日起,向好友發(fā)淫穢信息,無(wú)論是公開微信群還是私人私聊均違法

觀威海
2025-12-23 09:18:13
徐湖平跑不了!收藏家顏明:江南春剛調(diào)撥出去,隔天就被陸挺買走

徐湖平跑不了!收藏家顏明:江南春剛調(diào)撥出去,隔天就被陸挺買走

知法而形
2025-12-23 17:56:52
南京博物院背后的徐院長(zhǎng)、徐公子、徐小姐,都是人才??!

南京博物院背后的徐院長(zhǎng)、徐公子、徐小姐,都是人才?。?/a>

人格志
2025-12-23 00:04:02
五件南博處置文物已找到,院長(zhǎng)徐湖平涉嫌走私故宮南遷文物

五件南博處置文物已找到,院長(zhǎng)徐湖平涉嫌走私故宮南遷文物

亞哥談古論今
2025-12-23 18:35:47
突發(fā)!曝鄭州中原保時(shí)捷4S店人去樓空,賬號(hào)私密,三朵金花已跳槽

突發(fā)!曝鄭州中原保時(shí)捷4S店人去樓空,賬號(hào)私密,三朵金花已跳槽

裕豐娛間說(shuō)
2025-12-24 12:13:58
俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

律法刑道
2025-12-23 22:50:36
曝闞清子生下女兒但沒保住,月初被拍到孕期狀態(tài)差,需要丈夫攙扶

曝闞清子生下女兒但沒保住,月初被拍到孕期狀態(tài)差,需要丈夫攙扶

萌神木木
2025-12-23 23:59:18
重要知情人出現(xiàn)!《江南春》是97年陸挺花16萬(wàn)買走,收據(jù)系偽造!

重要知情人出現(xiàn)!《江南春》是97年陸挺花16萬(wàn)買走,收據(jù)系偽造!

一支破筆半支煙
2025-12-23 21:09:24
摩爾線程、沐曦股份撐不住了,盤中閃崩大跌,抄底的虧慘了!

摩爾線程、沐曦股份撐不住了,盤中閃崩大跌,抄底的虧慘了!

財(cái)經(jīng)智多星
2025-12-24 14:37:59
烏軍稱已從謝韋爾斯克撤出!托卡耶夫:哈薩克斯坦愿為俄烏提供談判平臺(tái)

烏軍稱已從謝韋爾斯克撤出!托卡耶夫:哈薩克斯坦愿為俄烏提供談判平臺(tái)

每日經(jīng)濟(jì)新聞
2025-12-24 15:56:03
南博事件升級(jí)!高層震怒,南博曾多次向龐家討要藏品,被逐一披露

南博事件升級(jí)!高層震怒,南博曾多次向龐家討要藏品,被逐一披露

火山詩(shī)話
2025-12-23 18:07:03
今年上海發(fā)生居住場(chǎng)所火災(zāi)4928起,消防部門專項(xiàng)推進(jìn)冬季火災(zāi)防控

今年上海發(fā)生居住場(chǎng)所火災(zāi)4928起,消防部門專項(xiàng)推進(jìn)冬季火災(zāi)防控

澎湃新聞
2025-12-24 17:44:27
沒有回旋余地,中國(guó)下令直接收回,17萬(wàn)日本人淚奔,高市闖禍了!

沒有回旋余地,中國(guó)下令直接收回,17萬(wàn)日本人淚奔,高市闖禍了!

凡知
2025-12-23 19:25:31
澎湃新聞?dòng)浾叩恼{(diào)查補(bǔ)齊了徐湖平犯罪證據(jù)鏈,江南春已經(jīng)實(shí)際成交5000萬(wàn)元,拍賣行的畫作就是龐家的

澎湃新聞?dòng)浾叩恼{(diào)查補(bǔ)齊了徐湖平犯罪證據(jù)鏈,江南春已經(jīng)實(shí)際成交5000萬(wàn)元,拍賣行的畫作就是龐家的

互聯(lián)網(wǎng)大觀
2025-12-24 17:03:44
硬剛中俄,與日本簽了稀土協(xié)議后,托卡耶夫直接趕往俄羅斯攤牌

硬剛中俄,與日本簽了稀土協(xié)議后,托卡耶夫直接趕往俄羅斯攤牌

策略述
2025-12-24 14:33:50
特朗普正式宣布:香港世紀(jì)號(hào)及180萬(wàn)桶原油,將由美國(guó)永久保留。

特朗普正式宣布:香港世紀(jì)號(hào)及180萬(wàn)桶原油,將由美國(guó)永久保留。

云鵬敘事
2025-12-24 13:41:16
“劇終”!《亞洲周刊》發(fā)南博前院長(zhǎng)徐湖平別墅照片,還配上兩字

“劇終”!《亞洲周刊》發(fā)南博前院長(zhǎng)徐湖平別墅照片,還配上兩字

火山詩(shī)話
2025-12-24 06:31:34
烏總統(tǒng):一定條件下可考慮在頓涅茨克設(shè)自由經(jīng)濟(jì)區(qū)

烏總統(tǒng):一定條件下可考慮在頓涅茨克設(shè)自由經(jīng)濟(jì)區(qū)

界面新聞
2025-12-24 17:50:42
每年1000萬(wàn)以上的大學(xué)畢業(yè)生將會(huì)持續(xù)將近20年,就業(yè)會(huì)越來(lái)越難

每年1000萬(wàn)以上的大學(xué)畢業(yè)生將會(huì)持續(xù)將近20年,就業(yè)會(huì)越來(lái)越難

爆角追蹤
2025-12-24 11:53:34
20歲小伙王帥去世!凌晨5點(diǎn)跳湖,父親公布其最后影像:兒子解脫了

20歲小伙王帥去世!凌晨5點(diǎn)跳湖,父親公布其最后影像:兒子解脫了

社會(huì)日日鮮
2025-12-24 05:45:22
2025-12-24 18:47:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7020文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

接送幼兒車輛墜入池塘致8死 村民:事故路面有明顯淤泥

頭條要聞

接送幼兒車輛墜入池塘致8死 村民:事故路面有明顯淤泥

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

重磅!北京市優(yōu)化調(diào)整住房限購(gòu)政策

汽車要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

家居
手機(jī)
本地
時(shí)尚
公開課

家居要聞

法式大平層 智能家居添彩

手機(jī)要聞

聯(lián)發(fā)科天璣9500s來(lái)了:OPPO K15 Turbo全球首發(fā)

本地新聞

云游安徽|一川江水潤(rùn)安慶,一塔一戲一城史

赫本黑色高領(lǐng)衫的4種搭配,太值得借鑒!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版