国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

0
分享至



團(tuán)隊(duì)一作林之秋(Zhiqiu Lin)是卡內(nèi)基梅隆大學(xué)(CMU)機(jī)器人研究所的博士,研究方向涵蓋視覺 - 語言大模型的評(píng)估、數(shù)據(jù)與生成;前作 CameraBench 曾獲 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即將前往麻省理工學(xué)院(MIT)攻讀博士,專注于多模態(tài)大模型。本工作由 CMU 與哈佛大學(xué)合作完成。

先來做一個(gè)小實(shí)驗(yàn):把希區(qū)柯克變焦(dolly zoom)、拉焦(rack focus)、荷蘭角(Dutch angle)或變速剪輯(speed ramp)這幾個(gè)詞,輸入到大部分主流視頻生成器里。結(jié)果幾乎都一樣,你只會(huì)得到一個(gè)普通的推鏡,或一段平庸的慢動(dòng)作。

原因很簡單:這些技法對(duì)應(yīng)著電影人之間通用的一套「鏡頭語言」,而當(dāng)前的視覺 - 語言大模型幾乎聽不懂。



視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

近日,由 CMU 聯(lián)合哈佛大學(xué)組成的研究團(tuán)隊(duì)推出了CHAI(Critique-based Human-AI Oversight),一整套從「標(biāo)注體系」「可擴(kuò)展監(jiān)督」到「后訓(xùn)練方法」再到「視頻生成」的完整方案。該工作已被CVPR 2026 接收為 Highlight 論文(Top 3%)。



  • 論文鏈接:https://arxiv.org/abs/2604.21718
  • 代碼:https://github.com/chancharikmitra/CHAI



圖 1:CHAI 的整體方案。上半(紅)是過往視頻字幕工作的三大短板:缺乏統(tǒng)一規(guī)范、僅用人類或模型標(biāo)注、僅憑輸出對(duì)比做后訓(xùn)練;下半(藍(lán))是 CHAI 的對(duì)應(yīng)方案:精準(zhǔn)的結(jié)構(gòu)化規(guī)范、可擴(kuò)展的人機(jī)監(jiān)督、基于顯式偏好與批改的后訓(xùn)練,最終反哺出更專業(yè)的視頻生成。

概述:CHAI 的四塊拼圖

CHAI 不是一個(gè)單獨(dú)的模型,而是一整套面向精準(zhǔn)視頻語言的落地方案,由四塊拼圖組成:

  1. 標(biāo)注體系(Specification):覆蓋主體、場景、動(dòng)作、空間構(gòu)圖和移動(dòng)、鏡頭參數(shù)和運(yùn)動(dòng) 5 大維度,由 200+ 個(gè)與職業(yè)攝影師共同設(shè)計(jì)的視覺基元支撐。
  2. 可擴(kuò)展監(jiān)督(Scalable Oversight):讓 LLM 起草字幕,由人類專家給出批改(critique),指出錯(cuò)誤并提供修正,再交由 AI 改寫。這一過程讓 AI 負(fù)責(zé)寫作,人類專注糾錯(cuò),各司其長。
  3. 后訓(xùn)練方法(Post-Training):基于(初稿,批改,終稿),同時(shí)訓(xùn)練字幕、獎(jiǎng)勵(lì)模型與批改模型。團(tuán)隊(duì)訓(xùn)練的 Qwen3-VL-8B 開源小模型得以反超閉源的 Gemini-3.1-Pro 與 GPT-5。
  4. 更好的視頻生成(Better Generation):用后訓(xùn)練好的模型重新對(duì)專業(yè)視頻打字幕,再微調(diào) Wan2.2,使其能聽懂長達(dá) 400 英文詞的電影級(jí)指令,精準(zhǔn)生成希區(qū)柯克變焦、拉焦、荷蘭角、變速、等距視角等專業(yè)攝影技法。

一、標(biāo)注體系:把電影人的鏡頭語言寫下來

過去的視頻文本數(shù)據(jù)集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕規(guī)范,常見問題包括:混淆 dolly-in(推軌)與 zoom-in(變焦),遺漏關(guān)鍵相機(jī)與變焦細(xì)節(jié),用「氛圍感足」「讓人熱血沸騰」等主觀描述代替客觀視覺內(nèi)容。

電影人以及更廣泛的視頻創(chuàng)作者則沒有這個(gè)問題。他們用拉焦(rack focus)、荷蘭角(Dutch angle)、中景(medium full shot)這樣的專業(yè)術(shù)語在片場與團(tuán)隊(duì)實(shí)現(xiàn)了精準(zhǔn)的溝通、協(xié)作。CHAI 正是把這套影視行業(yè)內(nèi)的通用詞匯整理成了一套清晰的標(biāo)注體系。



圖 2:與 100+ 位職業(yè)視頻創(chuàng)作者歷時(shí)一年共建的標(biāo)注體系。左(紅):過往數(shù)據(jù)集的三類典型問題,包括術(shù)語含混、信息缺失、主觀描述;右(藍(lán)):CHAI 的結(jié)構(gòu)化標(biāo)注體系及配套的標(biāo)注規(guī)則與教程。

CHAI 的字幕標(biāo)注覆蓋 5 大維度:

  • 主體(Subject):類型、外觀、姿態(tài)、主體關(guān)系等
  • ? 場景(Scene):視角、疊加元素、環(huán)境、時(shí)間等
  • 動(dòng)作(Motion):動(dòng)作行為、人物互動(dòng)、群體動(dòng)態(tài)等
  • 空間構(gòu)圖和移動(dòng)(Spatial):景別、畫面位置、縱深、空間運(yùn)動(dòng)等
  • 鏡頭參數(shù)和運(yùn)動(dòng)(Camera):機(jī)位高度、角度、焦距、聚焦、穩(wěn)定度、運(yùn)動(dòng)軌跡等



圖 3:CHAI 的視頻語言分類體系:各一級(jí)維度進(jìn)一步細(xì)分為多個(gè)子維度,并由 200 余個(gè)視覺與運(yùn)動(dòng)基元支撐,實(shí)現(xiàn)對(duì)視頻內(nèi)容的精細(xì)化表達(dá)。

二、可擴(kuò)展監(jiān)督:AI 起草,人類批改

規(guī)范告訴你「描述什么」,但「誰來寫」仍是個(gè)問題。

人類親手寫的字幕常見問題有:錯(cuò)別字、語法錯(cuò)誤、事件順序混亂。模型寫的字幕:行文流暢,卻經(jīng)常憑空捏造畫面里沒有的物體和動(dòng)作(模型幻覺)。

CHAI 的核心思路是可擴(kuò)展監(jiān)督(Scalable Oversight):讓模型負(fù)責(zé)寫作,讓人類專注發(fā)現(xiàn)字幕中的視覺與動(dòng)作錯(cuò)誤,各司其長。

CHAI 的標(biāo)注流程由此被重新設(shè)計(jì)為「AI— 專家 —AI」的三段式協(xié)作:模型先按既定規(guī)范生成一份覆蓋全面的「pre-caption」初稿,專家隨后在初稿基礎(chǔ)上指出錯(cuò)誤并提出修改建議(critique),無需從零撰寫字幕;模型再依據(jù)專家的批改意見進(jìn)行改寫,生成準(zhǔn)確的「post-caption」終稿。

同時(shí),CHAI 引入同行評(píng)審獎(jiǎng)勵(lì)機(jī)制:標(biāo)注越準(zhǔn)確,獎(jiǎng)勵(lì)越高;審核糾錯(cuò)同樣有獎(jiǎng)勵(lì)。這一舉措顯著提升了標(biāo)注的質(zhì)量。



圖 4:左(紅):傳統(tǒng)純?nèi)斯せ蚣兡P蜆?biāo)注的三類問題,包括視覺幻覺、行文糟糕、細(xì)節(jié)不準(zhǔn);右(藍(lán)):CHAI 的可擴(kuò)展監(jiān)督框架。AI 基于基元生成初稿(pre-caption),人類用批改(critique)把幻覺與細(xì)節(jié)錯(cuò)誤指出來,再由 AI 生成終稿(post-caption);標(biāo)注員與審核員之間則通過同行評(píng)審獎(jiǎng)勵(lì)機(jī)制相互制衡。

把標(biāo)注員工作重心從「寫作」轉(zhuǎn)向「校對(duì)」,他們對(duì)單個(gè)視頻的認(rèn)知負(fù)擔(dān)得以顯著降低,卻能產(chǎn)出準(zhǔn)確度更高的 200–400 詞長字幕。

三、后訓(xùn)練效果:8B 小模型反超 GPT-5 與 Gemini-3.1-Pro

CHAI 流水線產(chǎn)出的不只是字幕,而是(pre-caption, critique, post-caption)三元組:一份數(shù)據(jù),同時(shí)可以訓(xùn)練三種模型能力,包括字幕生成、獎(jiǎng)勵(lì)建模、批改生成。

CHAI 團(tuán)隊(duì)發(fā)現(xiàn):批改的質(zhì)量,決定了模型能力。



圖 5:一條好的批改必須同時(shí)滿足三個(gè)屬性:準(zhǔn)確(precision)、完整(recall)、有建設(shè)性(constructive)。CHAI 的標(biāo)注機(jī)制通過強(qiáng)制標(biāo)注員撰寫高質(zhì)量批改,直接指導(dǎo)模型改寫,自然實(shí)現(xiàn)了這三點(diǎn)。

為了證明這一點(diǎn),團(tuán)隊(duì)做了一組對(duì)比實(shí)驗(yàn):分別削弱批改的某一項(xiàng)屬性,觀察對(duì)下游任務(wù)的影響。



研究得出三項(xiàng)關(guān)鍵結(jié)論。其一,在模型訓(xùn)練時(shí)加入獎(jiǎng)勵(lì)(reward)和批改(critique)的數(shù)據(jù)能夠顯著提升 SFT 與 RL 的效果,僅 8B 參數(shù)的 Qwen3-VL 經(jīng)過后訓(xùn)練,便在多項(xiàng)關(guān)鍵評(píng)測上反超閉源的 Gemini-3.1-Pro 與 GPT-5。其二,批改質(zhì)量是真正的瓶頸所在,準(zhǔn)確性、完整性、和建設(shè)性三者缺一不可;然而過往工作(如 OpenAI GDC、MM-RLHF)所收集的批改樣本中,超過 50% 屬于非建設(shè)性反饋。其三,推理時(shí)擴(kuò)展(Inference-Time Scaling)同樣適用于這一框架,以同一份獎(jiǎng)勵(lì)模型進(jìn)行 best-of-N 選擇,無需新增數(shù)據(jù),性能即可持續(xù)提升。

四、更準(zhǔn)的理解 → 更好的生成

視頻字幕做得更準(zhǔn)之后,最直接的下游應(yīng)用就是視頻生成。

研究團(tuán)隊(duì)用后訓(xùn)練好的字幕模型,重新對(duì)大規(guī)模專業(yè)視頻(電影、廣告、MV、游戲畫面)進(jìn)行打標(biāo),再以這些數(shù)據(jù)微調(diào) Wan2.2。結(jié)果:模型可以聽懂長達(dá) 400 詞的電影級(jí)指令,對(duì)那些開源生成器(Wan2.2)普遍翻車的技法實(shí)現(xiàn)精準(zhǔn)生成。





圖 6:在重新打標(biāo)的專業(yè)視頻上微調(diào)后,Wan2.2 對(duì)詳細(xì)的電影級(jí)指令顯著更忠實(shí),可以精準(zhǔn)執(zhí)行希區(qū)柯克變焦(上)、保持 2.5D 等距視角(下)等過往視頻模型頻繁失敗的復(fù)雜技法。

下面是更多團(tuán)隊(duì)展示的「電影技法」生成樣例:



荷蘭角(Dutch Angle)畫面地平線傾斜

視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA



拉焦(Rack Focus)焦點(diǎn)在不同平面切換

視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

為什么不用眾包?為什么過去的標(biāo)注總是失???

在請(qǐng)來職業(yè)創(chuàng)作者之前,團(tuán)隊(duì)也嘗試過眾包工人。結(jié)果?眾包標(biāo)注員仍然分不清 推軌(dolly-in)與 變焦 (zoom-in)、把全景鏡頭(full shot)叫成 特寫(close-up shot)、把魚眼鏡頭(fisheye lens)造成的建筑物變形描述成「圓形的建筑」。



圖 7:眾包標(biāo)注員描述常見鏡頭技法時(shí)的典型錯(cuò)誤。把鳥瞰鏡頭叫「鳥瞰視圖」、把魚眼鏡頭看作「圓形建筑」、把推焦鏡頭描述為「推軌鏡頭」等,反映出他們?nèi)狈?duì)鏡頭語言的基本視覺詞匯。

為進(jìn)一步驗(yàn)證這一判斷,團(tuán)隊(duì)系統(tǒng)評(píng)估了 2016 至 2025 年間發(fā)布的 8 個(gè)公開視頻 - 文本數(shù)據(jù)集(包括 MSR-VTT、PerceptionLM、Dream1K 等),結(jié)果指向兩類反復(fù)出現(xiàn)的問題。其一源于標(biāo)注規(guī)則缺失,術(shù)語含混、關(guān)鍵信息缺失;其二源于監(jiān)督不足,導(dǎo)致行文混亂與細(xì)節(jié)失真。無論擴(kuò)大模型規(guī)模還是增加數(shù)據(jù)體量,都難以解決,根本問題在于流程,必須從數(shù)據(jù)標(biāo)注源頭入手。這一發(fā)現(xiàn)直接促成了 CHAI 團(tuán)隊(duì)和 100+ 位職業(yè)視頻創(chuàng)作者的長期合作。

寫在最后:開源生態(tài)

為了支持后續(xù)研究與產(chǎn)業(yè)落地,CHAI 團(tuán)隊(duì)完整開源了:標(biāo)注體系、培訓(xùn)教材、標(biāo)注平臺(tái)、質(zhì)控流程、數(shù)據(jù)、代碼與模型。

項(xiàng)目主頁:https://linzhiqiu.github.io/papers/chai/

CHAI 是該 CMU 團(tuán)隊(duì)「精準(zhǔn)視頻語言」研究計(jì)劃中的一環(huán)。同期推進(jìn)的還有兩項(xiàng)工作:CameraBench(NeurIPS'25 Spotlight,入選率前 3%)作為相機(jī)運(yùn)動(dòng)理解的前作基準(zhǔn),包含約 3000 個(gè)專家標(biāo)注視頻、一套完整的運(yùn)動(dòng)基元分類體系,以及對(duì) SfM 與 VLM 方法的系統(tǒng)性評(píng)測;Moodio 與 CameraBench-Pro(2026 年 5 月發(fā)布)則在此基礎(chǔ)上更進(jìn)一步,基于 225 個(gè)電影級(jí)基元與 150 萬余條專業(yè)標(biāo)注,面向?qū)I(yè)視頻制作場景打造 AI 協(xié)作工具。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬來西亞與中國決裂,轉(zhuǎn)向日本,361億賠償引發(fā)熱議!

馬來西亞與中國決裂,轉(zhuǎn)向日本,361億賠償引發(fā)熱議!

橙色書卷
2026-05-06 21:19:04
你知道中國的大地原點(diǎn)位于何處嗎?經(jīng)國家測量,就在一個(gè)村莊上

你知道中國的大地原點(diǎn)位于何處嗎?經(jīng)國家測量,就在一個(gè)村莊上

南書房
2026-05-08 07:25:06
AI制黃群組被曝光,大批人遭殃了!

AI制黃群組被曝光,大批人遭殃了!

新浪財(cái)經(jīng)
2026-05-06 16:55:29
中疾控:本次漢坦病毒疫情涉及的安第斯病毒,我國境內(nèi)無自然宿主分布

中疾控:本次漢坦病毒疫情涉及的安第斯病毒,我國境內(nèi)無自然宿主分布

界面新聞
2026-05-08 13:42:14
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
雷霆新三巨頭要解散?二輪秀打出身價(jià),亞歷山大恐失去最得力助手

雷霆新三巨頭要解散?二輪秀打出身價(jià),亞歷山大恐失去最得力助手

麥子的籃球故事
2026-05-08 16:13:11
“12人吃燒烤花78元”,為拼兒子連生10胎,家長買燒烤都沒人敢吃

“12人吃燒烤花78元”,為拼兒子連生10胎,家長買燒烤都沒人敢吃

妍妍教育日記
2026-03-12 22:38:02
網(wǎng)友匿名爆料自己身邊的八卦,你永遠(yuǎn)也想不到,到底能有多炸裂!

網(wǎng)友匿名爆料自己身邊的八卦,你永遠(yuǎn)也想不到,到底能有多炸裂!

夜深愛雜談
2026-05-03 11:22:10
中央定調(diào)養(yǎng)老金調(diào)整,5400元漲幅或難達(dá)百元

中央定調(diào)養(yǎng)老金調(diào)整,5400元漲幅或難達(dá)百元

徐竦解說
2026-05-08 07:37:30
特朗普還沒到中國,美先拋出棄臺(tái)論,蕭美琴喊話大陸,鄭麗文拼了

特朗普還沒到中國,美先拋出棄臺(tái)論,蕭美琴喊話大陸,鄭麗文拼了

兵器海陸空視頻
2026-05-08 10:26:05
特朗普表態(tài)伊方“新提議”不可接受,已下令美軍參與恢復(fù)霍爾木茲通航行動(dòng) 伊朗:干涉海峽“新管理”將被視為違反?;?>
    </a>
        <h3>
      <a href=每日經(jīng)濟(jì)新聞
2026-05-04 16:18:27
在岸人民幣兌美元收盤報(bào)6.8017,較上一交易日下降2個(gè)基點(diǎn)

在岸人民幣兌美元收盤報(bào)6.8017,較上一交易日下降2個(gè)基點(diǎn)

每日經(jīng)濟(jì)新聞
2026-05-08 16:37:24
眼紅??!南寧一教師月薪14044元的截圖引熱議,網(wǎng)友:副高五級(jí)吧

眼紅啊!南寧一教師月薪14044元的截圖引熱議,網(wǎng)友:副高五級(jí)吧

火山詩話
2026-05-06 07:43:22
世乒賽5月8日:國乒男團(tuán)沖4強(qiáng),亞洲隊(duì)大變臉,王楚欽表態(tài)過生日

世乒賽5月8日:國乒男團(tuán)沖4強(qiáng),亞洲隊(duì)大變臉,王楚欽表態(tài)過生日

體育大學(xué)僧
2026-05-08 08:38:53
倒計(jì)時(shí)48小時(shí),普京算錯(cuò)一件事,烏軍不打莫斯科,中方發(fā)出提醒

倒計(jì)時(shí)48小時(shí),普京算錯(cuò)一件事,烏軍不打莫斯科,中方發(fā)出提醒

一家說
2026-05-08 14:27:28
方志輝主任:糖尿病人身上有這4種特殊味道,可能是并發(fā)癥來了!

方志輝主任:糖尿病人身上有這4種特殊味道,可能是并發(fā)癥來了!

大明愛養(yǎng)生
2026-05-08 13:52:34
我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
58歲狄仁杰路過一肉鋪,見女子切肉從不換手,立刻吩咐,速回府

58歲狄仁杰路過一肉鋪,見女子切肉從不換手,立刻吩咐,速回府

瓜哥的動(dòng)物日記
2026-05-07 11:45:08
北京局新任總經(jīng)理已到位

北京局新任總經(jīng)理已到位

軌道世界
2026-05-07 23:53:47
善惡到頭終有報(bào),如今73歲的唐國強(qiáng),已經(jīng)走上了一條不歸路!

善惡到頭終有報(bào),如今73歲的唐國強(qiáng),已經(jīng)走上了一條不歸路!

吳蒂旅行ing
2026-03-20 05:20:46
2026-05-08 17:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12946文章數(shù) 142646關(guān)注度
往期回顧 全部

科技要聞

SK海力士平均獎(jiǎng)金600萬 工服成相親神器

頭條要聞

沙特翻臉突然對(duì)美軍關(guān)閉領(lǐng)空 特朗普連忙打電話都沒用

頭條要聞

沙特翻臉突然對(duì)美軍關(guān)閉領(lǐng)空 特朗普連忙打電話都沒用

體育要聞

他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財(cái)經(jīng)要聞

一覺醒來,美伊又打起來了

汽車要聞

智能雙艙大五座SUV 樂道L80將于5月15日正式上市

態(tài)度原創(chuàng)

健康
旅游
數(shù)碼
公開課
軍事航空

干細(xì)胞治燒燙傷能用了么?

旅游要聞

旅游收入近300億元 廣東:“演出+”“電影+”“體育+”解鎖消費(fèi)新場景

數(shù)碼要聞

海信Vidda充電寶C1發(fā)布:20000mAh容量,自帶掛繩式快充線

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

無障礙瀏覽 進(jìn)入關(guān)懷版