国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南大騰訊聯(lián)合提出TimeLens,數(shù)據(jù)+算法全方位升級(jí)

0
分享至



隨著多模態(tài)大模型(MLLMs)的飛速發(fā)展,模型已經(jīng)能夠很好地理解視頻中 “發(fā)生了什么(What)”,卻無法精準(zhǔn)地定位到事件在視頻中 “何時(shí)發(fā)生(When)”。這種視頻時(shí)序定位(Video Temporal Grounding, VTG)能力的嚴(yán)重缺陷,已成為制約 MLLM 邁向更精細(xì)化的視頻理解的主要瓶頸。

長(zhǎng)期以來,大量研究致力于設(shè)計(jì)復(fù)雜的模型結(jié)構(gòu),卻忽視了兩個(gè)關(guān)鍵問題:在數(shù)據(jù)層面,我們依賴的評(píng)測(cè)基準(zhǔn)是否可靠?在算法層面,是否存在一套簡(jiǎn)潔通用的最佳實(shí)踐?

針對(duì)上述痛點(diǎn),來自南京大學(xué)、騰訊 ARC Lab 和上海 AI Lab 的聯(lián)合研究團(tuán)隊(duì)提出了TimeLens(時(shí)間透鏡),系統(tǒng)性地揭示了現(xiàn)有數(shù)據(jù)的“評(píng)測(cè)陷阱”,構(gòu)建出更可靠的評(píng)測(cè)基準(zhǔn)和高質(zhì)量訓(xùn)練數(shù)據(jù),并探索出一套簡(jiǎn)潔有效的算法優(yōu)化。得益于這些貢獻(xiàn),僅8B 參數(shù)的 TimeLens 模型成為了開源模型中的新 SOTA,更擊敗了 GPT-5 和 Gemini-2.5-Flash 等閉源巨頭。





  • 論文標(biāo)題:TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
  • 論文鏈接: https://arxiv.org/abs/2512.14698
  • 項(xiàng)目主頁(yè): https://timelens-arc-lab.github.io/
  • 代碼鏈接: https://github.com/TencentARC/TimeLens

核心洞察:撥開數(shù)據(jù)質(zhì)量的迷霧

在深度學(xué)習(xí)中,“Data is fuel”(數(shù)據(jù)即燃料)是公認(rèn)的真理。然而,團(tuán)隊(duì)發(fā)現(xiàn),在 VTG 領(lǐng)域,燃料的質(zhì)量卻令人擔(dān)憂。

1. 現(xiàn)有基準(zhǔn)的 “隱形陷阱”

研究團(tuán)隊(duì)通過一套標(biāo)注流水線,對(duì) Charades-STA、ActivityNet Captions 和 QVHighlights 等主流基準(zhǔn)進(jìn)行了嚴(yán)格的人工核驗(yàn),發(fā)現(xiàn)這些基準(zhǔn)數(shù)據(jù)集中充斥著大量的標(biāo)注錯(cuò)誤。許多樣本中的文本描述模糊不清,或是文本描述的事件在視頻中根本未出現(xiàn)。標(biāo)注方面,也存在大量的時(shí)間邊界標(biāo)注錯(cuò)誤,或是同一描述對(duì)應(yīng)了視頻中的多個(gè)片段卻只標(biāo)注了其中之一(漏標(biāo))。統(tǒng)計(jì)數(shù)據(jù)顯示,這些錯(cuò)誤在現(xiàn)有基準(zhǔn)中的比例極高。





2. TimeLens-Bench:對(duì)評(píng)估結(jié)果的“撥亂反正”

為了解決現(xiàn)有數(shù)據(jù)集中存在的嚴(yán)重錯(cuò)誤,團(tuán)隊(duì)構(gòu)建了嚴(yán)格的標(biāo)注準(zhǔn)則,對(duì)上述三個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行了全面的修復(fù)和重新標(biāo)注,推出了TimeLens-Bench。這是一個(gè)經(jīng)過嚴(yán)格交叉驗(yàn)證的高質(zhì)量評(píng)測(cè)基準(zhǔn),能夠更真實(shí)地反映模型的時(shí)序定位能力。

將 TimeLens-Bench 和原始 Benchmark 上的評(píng)測(cè)結(jié)果進(jìn)行對(duì)比,揭露了過往評(píng)估結(jié)果的不可靠—— 舊基準(zhǔn)嚴(yán)重高估了開源模型的能力,而掩蓋了前沿閉源模型(如 Gemini)的真實(shí)水平。TimeLens-Bench 對(duì)這一錯(cuò)誤進(jìn)行了撥亂反正,事實(shí)上,現(xiàn)有開源模型仍明顯落后于閉源模型。



3. 高質(zhì)量訓(xùn)練數(shù)據(jù):TimeLens-100K

針對(duì)同樣低質(zhì)量的訓(xùn)練數(shù)據(jù),團(tuán)隊(duì)設(shè)計(jì)了一套自動(dòng)化流水線,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了大規(guī)模的清洗和重標(biāo),發(fā)布了高質(zhì)量的大型訓(xùn)練數(shù)據(jù)集 TimeLens-100K。實(shí)驗(yàn)證明,數(shù)據(jù)質(zhì)量的提升能帶來顯著的性能增長(zhǎng)。



算法設(shè)計(jì)的“最佳實(shí)踐”

在夯實(shí)數(shù)據(jù)基礎(chǔ)后,TimeLens 進(jìn)一步對(duì) MLLM 在 VTG 任務(wù)上的算法設(shè)計(jì)進(jìn)行了全方位的消融實(shí)驗(yàn),從時(shí)間戳編碼到訓(xùn)練范式,總結(jié)出一套簡(jiǎn)潔有效的 “最佳實(shí)踐”。

1. 簡(jiǎn)潔有效的時(shí)間戳編碼

時(shí)間戳編碼(timestamp encoding)是 VTG 任務(wù)中的關(guān)鍵模型結(jié)構(gòu)設(shè)計(jì),決定了模型能否準(zhǔn)確地感知到輸入的每一視頻幀的采樣時(shí)間。

團(tuán)隊(duì)全面地對(duì)比了各種時(shí)間戳編碼方式的優(yōu)劣。實(shí)驗(yàn)結(jié)果表明,最優(yōu)的時(shí)間戳編碼方式是簡(jiǎn)單的交錯(cuò)文本編碼(Interleaved Textual Encoding) 策略,即在每一幀的視覺 Token 前插入文本形式的時(shí)間戳 token。這種方法無需修改 LLM 的底層架構(gòu),保證了實(shí)現(xiàn)上的簡(jiǎn)潔,同時(shí)還能取得最優(yōu)的效果。





2. 訓(xùn)練范式:Thinking-free RLVR 的勝利

隨著 DeepSeek-R1 等一系列工作的提出,帶有可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制的強(qiáng)化學(xué)習(xí)(RLVR)范式在提升模型推理能力方面的作用備受關(guān)注。而在 VTG 領(lǐng)域,關(guān)于訓(xùn)練范式的幾個(gè)關(guān)鍵問題尚無定論:

  • 有監(jiān)督微調(diào)(SFT)仍是 VTG 領(lǐng)域最為主流的訓(xùn)練范式,RLVR 范式在同樣的訓(xùn)練開銷下,是否明顯優(yōu)于 SFT?
  • 時(shí)序定位任務(wù)是一個(gè)以感知 (Perception) 而非推理 (Reasoning) 為主的任務(wù)。針對(duì)這樣的任務(wù)進(jìn)行 RLVR 訓(xùn)練時(shí),顯式的思考過程(thinking)是否是必須的?
  • SFT+RLVR 的多階段訓(xùn)練,是否比單階段訓(xùn)練的效果更好?

TimeLens 對(duì)比了多種訓(xùn)練范式的優(yōu)劣。結(jié)論出人意料且極具啟發(fā)性:?jiǎn)坞A段的 Thinking-free RLVR 訓(xùn)練范式在計(jì)算效率和性能上均取得了最優(yōu)。該范式直接讓模型輸出定位結(jié)果,并根據(jù)定位準(zhǔn)確率(IoU)給予獎(jiǎng)勵(lì)。這種方式不需要生成冗長(zhǎng)的中間思考過程,訓(xùn)練和推理效率高于 Thinking-based RLVR 范式和多階段訓(xùn)練范式,且性能優(yōu)于 SFT 范式。

這一結(jié)果表明,對(duì)于時(shí)序定位這種偏向感知(Perception-heavy)的任務(wù),顯式的思考過程不是必須的。 模型可以直接學(xué)習(xí)從任務(wù)輸入到輸出的映射,不需要進(jìn)行復(fù)雜的邏輯推理。



3. 關(guān)鍵訓(xùn)練技巧:Early Stopping 與 Difficulty-based Sampling

針對(duì)Thinking-free RLVR范式,團(tuán)隊(duì)進(jìn)行了更加深入的實(shí)驗(yàn)探究,發(fā)現(xiàn)了兩個(gè)關(guān)鍵的訓(xùn)練技巧。

首先,與 SFT 中 “訓(xùn)練越久越好” 的共識(shí)不同,在 RL 訓(xùn)練中,當(dāng)獎(jiǎng)勵(lì)指標(biāo)進(jìn)入平臺(tái)期后,就應(yīng)該采用早停策略(Early Stopping) 立即停止訓(xùn)練,在該階段之后繼續(xù)訓(xùn)練反而會(huì)使得模型的性能下降。

其次,基于難度的數(shù)據(jù)采樣(Difficulty-based Sampling) 至關(guān)重要。即使數(shù)據(jù)的標(biāo)注質(zhì)量有保證,也并非所有的數(shù)據(jù)都適合用于 RLVR 訓(xùn)練。需要預(yù)先使用待訓(xùn)練的模型進(jìn)行推理,評(píng)估每個(gè)訓(xùn)練樣本的難度,采樣足夠具有挑戰(zhàn)性的樣本進(jìn)行 RLVR 訓(xùn)練,才能最大程度上提升模型的性能。



實(shí)驗(yàn)驗(yàn)證:8B 模型逆襲閉源巨頭

研究團(tuán)隊(duì)將上述數(shù)據(jù)和算法層面的所有改進(jìn)聚合在了一起,每一項(xiàng)技術(shù)都帶來了明顯的性能提升,最終得到了 TimeLens 系列模型。



評(píng)測(cè)結(jié)果表明,TimeLens-8B 展現(xiàn)出了驚人的性能,不僅大幅超越了 Qwen3-VL 等開源模型成為新的開源 SOTA,更以 8B 的參數(shù)量,在多項(xiàng)核心指標(biāo)上全面擊敗了 GPT-5 和 Gemini-2.5-Flash 等前沿的閉源模型。



這一結(jié)果有力地證明了:在 VTG 任務(wù)中,通過系統(tǒng)性地提升數(shù)據(jù)質(zhì)量并采用有效的算法設(shè)計(jì),開源小尺寸模型完全具備挑戰(zhàn)甚至超越閉源大模型的能力。

總結(jié)

TimeLens 的貢獻(xiàn)不止于一個(gè) SOTA 開源模型。團(tuán)隊(duì)在數(shù)據(jù)和算法雙維度的系統(tǒng)性探索,為后續(xù)研究提供了極具參考價(jià)值的方法論與設(shè)計(jì)藍(lán)圖。

目前,TimeLens 的代碼、模型、訓(xùn)練數(shù)據(jù)和評(píng)測(cè)基準(zhǔn)都已開源,希望能為未來的視頻時(shí)序定位研究提供一個(gè)更好的起點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
閆學(xué)晶的事越鬧越大,遼寧衛(wèi)視估計(jì)要慌了

閆學(xué)晶的事越鬧越大,遼寧衛(wèi)視估計(jì)要慌了

麥杰遜
2026-01-07 20:16:03
錢交了、單鎖了、承諾卻沒了? 極氪“食言”購(gòu)置稅兜底,數(shù)百車主怒斥“言而無信”

錢交了、單鎖了、承諾卻沒了? 極氪“食言”購(gòu)置稅兜底,數(shù)百車主怒斥“言而無信”

新浪財(cái)經(jīng)
2026-01-07 08:30:09
20歲福建網(wǎng)紅被騙柬埔寨,8萬榨干涉毒瀕死,暴富夢(mèng)碎街頭流浪

20歲福建網(wǎng)紅被騙柬埔寨,8萬榨干涉毒瀕死,暴富夢(mèng)碎街頭流浪

星辰夜語(yǔ)
2026-01-07 20:43:22
80年代一名剛做完結(jié)扎手術(shù)的農(nóng)村婦女被人抬上板車準(zhǔn)備回家的情景

80年代一名剛做完結(jié)扎手術(shù)的農(nóng)村婦女被人抬上板車準(zhǔn)備回家的情景

霹靂炮
2026-01-01 23:29:30
最討厭的演員排名,潘長(zhǎng)江僅第五,閆學(xué)晶第二,第一毋庸置疑

最討厭的演員排名,潘長(zhǎng)江僅第五,閆學(xué)晶第二,第一毋庸置疑

林雁飛
2026-01-04 19:29:51
全國(guó)最好的醫(yī)院排名,建議收藏!

全國(guó)最好的醫(yī)院排名,建議收藏!

霹靂炮
2025-11-24 22:55:34
一天只能吃一個(gè)雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

一天只能吃一個(gè)雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

小胡軍事愛好
2025-12-27 17:38:58
加時(shí)三分絕殺,拒絕18分大逆轉(zhuǎn)!班凱羅30分14板6助,小波特34分

加時(shí)三分絕殺,拒絕18分大逆轉(zhuǎn)!班凱羅30分14板6助,小波特34分

無術(shù)不學(xué)
2026-01-08 12:26:55
讓日本汽車業(yè)心臟停跳!中國(guó)祭出最狠“斷供令”,高市這回真慌了

讓日本汽車業(yè)心臟停跳!中國(guó)祭出最狠“斷供令”,高市這回真慌了

胖哥不胡說
2026-01-07 15:10:31
英超3連平新年不勝!曼城1-1布萊頓距榜首5分  哈蘭德破荒+失絕殺

英超3連平新年不勝!曼城1-1布萊頓距榜首5分 哈蘭德破荒+失絕殺

我愛英超
2026-01-08 05:32:57
郭富城大房:掌管郭富城20億身家,卻30年沒有名分,甘愿為郭帶娃

郭富城大房:掌管郭富城20億身家,卻30年沒有名分,甘愿為郭帶娃

玥來玥好講故事
2025-12-27 17:01:58
32名衛(wèi)士血戰(zhàn)到底,古巴戰(zhàn)士用生命回報(bào)了盟友,南美要變天了!

32名衛(wèi)士血戰(zhàn)到底,古巴戰(zhàn)士用生命回報(bào)了盟友,南美要變天了!

局勢(shì)帝
2026-01-07 12:49:22
日本抗議無效!不到48小時(shí),中方發(fā)布第2號(hào)公告,對(duì)日反傾銷調(diào)查

日本抗議無效!不到48小時(shí),中方發(fā)布第2號(hào)公告,對(duì)日反傾銷調(diào)查

說歷史的老牢
2026-01-08 12:00:32
出嫁前3天彩禮漲到28.8萬后續(xù):男方堅(jiān)持退婚,女子曝光已社死

出嫁前3天彩禮漲到28.8萬后續(xù):男方堅(jiān)持退婚,女子曝光已社死

千言?shī)蕵酚?/span>
2025-12-13 18:34:13
“蘭州瓜農(nóng)刺死城管”案一審宣判:法院認(rèn)定被害方有明顯過錯(cuò),對(duì)被告減輕處罰

“蘭州瓜農(nóng)刺死城管”案一審宣判:法院認(rèn)定被害方有明顯過錯(cuò),對(duì)被告減輕處罰

封面新聞
2026-01-07 22:21:04
有膽識(shí)!邵佳一公布國(guó)足戰(zhàn)術(shù)體系,回歸高洪波路線,無懼外界爭(zhēng)議

有膽識(shí)!邵佳一公布國(guó)足戰(zhàn)術(shù)體系,回歸高洪波路線,無懼外界爭(zhēng)議

國(guó)足風(fēng)云
2026-01-07 08:55:41
杜潤(rùn)旺動(dòng)態(tài)引關(guān)注,崔永熙稱河北神驢,孫世睿公開致歉

杜潤(rùn)旺動(dòng)態(tài)引關(guān)注,崔永熙稱河北神驢,孫世睿公開致歉

小潌拍客在北漂
2026-01-08 12:40:52
既然強(qiáng)調(diào)文化自信,那么很多西方擅自定義的東西,就該改改名字了

既然強(qiáng)調(diào)文化自信,那么很多西方擅自定義的東西,就該改改名字了

歷史擺渡
2025-12-30 14:20:03
閆學(xué)晶這次恐怕真要哭了,被資本“拋棄”,或?qū)⒚媾R巨額賠款

閆學(xué)晶這次恐怕真要哭了,被資本“拋棄”,或?qū)⒚媾R巨額賠款

社會(huì)日日鮮
2026-01-07 08:09:34
“出生在你家真晦氣”,4個(gè)臥室舍不得給倆女兒用,家長(zhǎng)被罵慘了

“出生在你家真晦氣”,4個(gè)臥室舍不得給倆女兒用,家長(zhǎng)被罵慘了

卷史
2025-12-30 21:43:27
2026-01-08 13:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142531關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營(yíng)銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

委內(nèi)瑞拉外長(zhǎng):感謝中方支持

頭條要聞

委內(nèi)瑞拉外長(zhǎng):感謝中方支持

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

不談?lì)嵏才c奇跡,智駕企業(yè)還能聊點(diǎn)什么?

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
親子
數(shù)碼
旅游

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

藝術(shù)要聞

頤和園金光穿洞

親子要聞

“她真丟了就好了!”寶媽稱厭惡10歲女兒,引眾多網(wǎng)友共鳴!

數(shù)碼要聞

鷹角網(wǎng)絡(luò)×八位堂Retro 87復(fù)古鍵盤新春周邊套裝發(fā)布,499元

旅游要聞

報(bào)告:預(yù)計(jì)2025-2026冬季,我國(guó)冰雪旅游休閑收入有望達(dá)到4500億元

無障礙瀏覽 進(jìn)入關(guān)懷版