国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Qwen負(fù)責(zé)人轉(zhuǎn)發(fā)2025寶藏論文,年底重讀「視覺領(lǐng)域GPT時(shí)刻」

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

2025最后幾天,是時(shí)候來看點(diǎn)年度寶藏論文了。

比如,阿里最年輕P10、Qwen大模型技術(shù)負(fù)責(zé)人林俊旸最新轉(zhuǎn)發(fā)了一篇名為《Video models are zero-shot learners and reasoners》的研究。

沒錯(cuò),就是谷歌DeepMind提出視頻模型“思維鏈”CoF的那篇入選ICCV 2025的論文。

當(dāng)時(shí),這篇研究還給出了一個(gè)關(guān)鍵信號(hào):視覺領(lǐng)域的“GPT時(shí)刻”要來了。



該研究用1.8萬組實(shí)驗(yàn)數(shù)據(jù)證明,視頻模型正在跳出任務(wù)專屬的局限,走上LLM的老路——

用一個(gè)模型,通過提示,完成幾乎所有的視覺任務(wù)

并且,推理過程還能被CoF“演”出來。

從NLP到CV

自然語言處理領(lǐng)域的GPT時(shí)刻,核心是實(shí)現(xiàn)了一個(gè)模型通吃所有

在此之前,翻譯、寫作、問答等任務(wù)都各自有專屬的模型,而LLM的出現(xiàn),靠大規(guī)模數(shù)據(jù)訓(xùn)練和生成式架構(gòu),讓零樣本學(xué)習(xí)成為可能,模型通過文字提示就能完成各種各樣的任務(wù)。

但計(jì)算機(jī)視覺領(lǐng)域卻還一直深陷于這種碎片化的困境。

比如,要做目標(biāo)檢測得用YOLO,做語義分割依賴SAM,圖像超分要找專門模型,3D重建還得換另一套工具。

這些針對(duì)不同任務(wù)的模型架構(gòu)差異很大,不僅開發(fā)成本高,還嚴(yán)重限制了視覺AI的泛化能力,導(dǎo)致視覺AI的進(jìn)步一直是單點(diǎn)突破。

比如這個(gè)模型在分割任務(wù)上刷新SOTA,另一個(gè)模型在檢測任務(wù)上實(shí)現(xiàn)提速,卻始終沒能解決“多任務(wù)統(tǒng)一”的問題。



而這篇論文詳解了谷歌DeepMind借鑒LLM的成功路徑,讓Veo 3成為了一個(gè)“視覺通才”。

通過大規(guī)模視頻與文本數(shù)據(jù)的生成式訓(xùn)練,打通了視覺感知與語言理解的壁壘,讓模型具備了跨任務(wù)的通用能力



而且Veo 3完美復(fù)刻了LLM的零樣本優(yōu)勢,面對(duì)沒專門訓(xùn)練過的任務(wù),只要用文字說清需求,模型就能直接輸出結(jié)果,無需額外調(diào)參或數(shù)據(jù)微調(diào)。

這也正是說視覺GPT時(shí)刻到來的核心標(biāo)志。

從生成視頻到用視頻思考

就像林俊旸提到的那樣,這篇論文指出視頻模型一個(gè)非常關(guān)鍵的變化在于——視頻不再只是輸出的形式,也開始體現(xiàn)推理的過程。

模型在生成視頻的過程中,會(huì)逐步展開中間狀態(tài),這就讓推理不再是完全不可見的黑箱。

論文中將這種現(xiàn)象稱為Chain-of-Frames,也就是CoF,類似于語言模型中的CoT,只不過視頻模型是通過連續(xù)生成的視頻幀,把整個(gè)推理過程“演”出來。

模型在時(shí)間和空間中不斷調(diào)整畫面,用可見的變化替代抽象的符號(hào)推理。



因此,無論是解迷宮、做路徑規(guī)劃,還是進(jìn)行規(guī)則外推,模型都不是一次性輸出結(jié)果,而是在連續(xù)的視覺變化中逐步逼近正確解。

推理過程則被隱含地編碼在視頻序列之中,視頻模型開始在過程中思考

正是這種“逐幀生成即推理”的方式,為通用性提供了基礎(chǔ)。
因?yàn)槟P筒辉賴@某一個(gè)具體任務(wù)去算結(jié)果,轉(zhuǎn)而在統(tǒng)一的生成過程中,不斷更新對(duì)場景狀態(tài)的理解。

不同任務(wù)之間的差異,不再體現(xiàn)在模型結(jié)構(gòu)或輸出形式上,而是被壓縮成了“生成過程中關(guān)注什么、如何繼續(xù)生成”的差別。

這種框架下,分割、檢測、編輯、路徑規(guī)劃等原本割裂的視覺任務(wù),可以被統(tǒng)一到同一套生成機(jī)制中。模型始終做的只有一件事:生成下一幀視頻

在逐幀生成過程中,它自然完成了感知、推理與決策的協(xié)同,這就不再需要為每類任務(wù)單獨(dú)設(shè)計(jì)模型或系統(tǒng)。

論文進(jìn)一步觀察到,在無需針對(duì)具體任務(wù)進(jìn)行專門訓(xùn)練、也不引入額外監(jiān)督的前提下,視頻模型已經(jīng)能夠通過不同形式的提示,在多類視覺任務(wù)中展現(xiàn)出一定的零樣本泛化能力。

也正因?yàn)槿绱耍琕eo 3用感知、建模、操控、推理4大核心能力能搞定62種沒學(xué)過的視覺任務(wù)。



現(xiàn)在經(jīng)過a16z投資合伙人Justine Moore和林俊旸一提醒,回看這篇論文發(fā)現(xiàn),視頻模型在視覺領(lǐng)域的的突破,還真有點(diǎn)當(dāng)年LLM顛覆NLP的味兒了……

論文地址:https://arxiv.org/abs/2509.20328
參考鏈接:https://x.com/venturetwins/status/2005330176977293743

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

長得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

瓜汁橘長Dr
2025-12-27 14:52:48
A股壟斷性龍頭,剛回購30億注銷,又增持30億股票,A股良心啊

A股壟斷性龍頭,剛回購30億注銷,又增持30億股票,A股良心啊

風(fēng)風(fēng)順
2025-12-30 02:25:03
康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場臉色大變

康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場臉色大變

千秋文化
2025-12-24 23:35:07
攜程事件升級(jí)!用戶哭訴,注銷太難了,要手持身份證照片和手機(jī)號(hào)

攜程事件升級(jí)!用戶哭訴,注銷太難了,要手持身份證照片和手機(jī)號(hào)

火山詩話
2025-12-28 07:35:08
被庫克怒告泄密,他直接“擺爛”:折疊屏iPhone全細(xì)節(jié)曝光,售價(jià)或超1.4萬元!

被庫克怒告泄密,他直接“擺爛”:折疊屏iPhone全細(xì)節(jié)曝光,售價(jià)或超1.4萬元!

CSDN
2025-12-29 18:15:20
比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
曾國藩視察軍營,見侍衛(wèi)在暴雨中紋絲不動(dòng),他立馬下令:即刻斬殺

曾國藩視察軍營,見侍衛(wèi)在暴雨中紋絲不動(dòng),他立馬下令:即刻斬殺

卡西莫多的故事
2025-12-24 11:01:13
“外面太累 想進(jìn)去待幾天” 24歲男子因生活壓力太大 舉報(bào)自己“無證駕駛”

“外面太累 想進(jìn)去待幾天” 24歲男子因生活壓力太大 舉報(bào)自己“無證駕駛”

閃電新聞
2025-12-29 14:53:42
小米手機(jī)被炒到20000塊,雷軍賭贏了!

小米手機(jī)被炒到20000塊,雷軍賭贏了!

鳴金網(wǎng)
2025-12-29 12:45:17
反轉(zhuǎn)了!成都4s店燃爆后續(xù):官方再通報(bào),辟謠糾紛原因,澄清真相

反轉(zhuǎn)了!成都4s店燃爆后續(xù):官方再通報(bào),辟謠糾紛原因,澄清真相

阿纂看事
2025-12-29 16:22:14
這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

千言娛樂記
2025-12-27 19:56:34
突然一聲爆響!河南一地連夜通報(bào):請(qǐng)廣大市民不必恐慌

突然一聲爆響!河南一地連夜通報(bào):請(qǐng)廣大市民不必恐慌

都市快報(bào)橙柿互動(dòng)
2025-12-30 00:16:06
中國不做我不做?越南剛宣布與德國合作高鐵,越南首富:我撤資。

中國不做我不做?越南剛宣布與德國合作高鐵,越南首富:我撤資。

卷史
2025-12-29 15:06:33
12.8萬億天量提前還貸!老百姓扛不住, 樓市救市, 這次真的要來了

12.8萬億天量提前還貸!老百姓扛不住, 樓市救市, 這次真的要來了

現(xiàn)代小青青慕慕
2025-12-29 12:02:38
“黃河畫家”徐惠君126平尺巨幅畫作被人無意“潑墨”,本人稱:該畫作估價(jià)380萬元,不會(huì)追查肇事者,希望網(wǎng)友提供補(bǔ)救建議,讓墨漬成為神來之筆

“黃河畫家”徐惠君126平尺巨幅畫作被人無意“潑墨”,本人稱:該畫作估價(jià)380萬元,不會(huì)追查肇事者,希望網(wǎng)友提供補(bǔ)救建議,讓墨漬成為神來之筆

極目新聞
2025-12-29 20:27:57
2-1,聯(lián)賽第14掀翻聯(lián)賽第11,英超前冠軍終結(jié)2連敗,21歲新星制勝

2-1,聯(lián)賽第14掀翻聯(lián)賽第11,英超前冠軍終結(jié)2連敗,21歲新星制勝

側(cè)身凌空斬
2025-12-30 05:46:39
佟麗婭陳思誠合體帶娃,一家三口三亞度假好歡樂,離婚后更和諧!

佟麗婭陳思誠合體帶娃,一家三口三亞度假好歡樂,離婚后更和諧!

阿廢冷眼觀察所
2025-12-29 15:59:05
小卡55+11+5單節(jié)26分生涯新高刷紀(jì)錄 快船輕取活塞豪取4連勝

小卡55+11+5單節(jié)26分生涯新高刷紀(jì)錄 快船輕取活塞豪取4連勝

醉臥浮生
2025-12-29 12:30:03
徐湖平的膽子太大了!

徐湖平的膽子太大了!

仕道
2025-12-29 10:15:03
此次演習(xí)為何劃分5個(gè)區(qū)域?新代號(hào)釋放何種信號(hào)?專家解讀

此次演習(xí)為何劃分5個(gè)區(qū)域?新代號(hào)釋放何種信號(hào)?專家解讀

新京報(bào)
2025-12-29 14:20:11
2025-12-30 07:55:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11941文章數(shù) 176346關(guān)注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當(dāng)個(gè)賣手機(jī)的

頭條要聞

東部戰(zhàn)區(qū)開展"正義使命-2025"演習(xí) 鄭麗文回應(yīng)

頭條要聞

東部戰(zhàn)區(qū)開展"正義使命-2025"演習(xí) 鄭麗文回應(yīng)

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

44歲林俊杰官宣戀情 帶23歲女友見家長

財(cái)經(jīng)要聞

翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時(shí)代來了

態(tài)度原創(chuàng)

旅游
手機(jī)
時(shí)尚
公開課
軍事航空

旅游要聞

增設(shè)車位吸引“粵車南下”游客暢享盛宴

手機(jī)要聞

一加Turbo 6系列外觀公布,新機(jī)下周見

這一抹瑞紅,在2025年終

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

演習(xí)第2天 東部戰(zhàn)區(qū)組織實(shí)彈射擊

無障礙瀏覽 進(jìn)入關(guān)懷版