德州農(nóng)工大學(xué)聯(lián)合團(tuán)隊打造"視頻編輯考官"

2026-04-27 21:32:24　來源: 科技行者

北京舉報

分享至

這項由德州農(nóng)工大學(xué)（Texas A&M University）、Visko Platform與Abaka AI聯(lián)合開展的研究，于2026年4月以預(yù)印本形式發(fā)布于arXiv平臺，編號為arXiv:2604.16272v1，發(fā)布日期為2026年4月17日。

說到AI視頻編輯，你大概已經(jīng)見過不少令人眼花繚亂的演示——用一句話就能把視頻里的晴天變成暴雪天，把草原變成沙漠，把普通人變成賽博朋克風(fēng)格的未來戰(zhàn)士。這類技術(shù)正在以驚人的速度進(jìn)入普通人的創(chuàng)作工具箱，從短視頻博主到影視后期制作團(tuán)隊，都開始嘗試用AI來完成過去需要大量人工的修改工作。

然而，一個關(guān)鍵問題始終懸而未決：這些AI工具，到底改得好不好？

這個問題看起來簡單，實則暗藏玄機。當(dāng)你讓AI把視頻里的蘋果變成香蕉，你需要問的不止是"它有沒有改"，還要問"改出來的香蕉好不好看"，以及"改的時候有沒有順手把旁邊的桌子也改掉"。這三件事，可以同時發(fā)生，也可以彼此獨立——一個AI可能把香蕉畫得活靈活現(xiàn)，但順帶把整張桌子的顏色都變了；另一個AI可能只動了蘋果，但改出來的香蕉像一團(tuán)黃色的模糊色塊。

正因為沒有一把好用的"量尺"，這個領(lǐng)域長期面臨一個尷尬局面：要么靠人工一個個看視頻打分，費時費力；要么靠通用的AI助手來當(dāng)"裁判"，但這些通用AI并不懂視頻編輯的專業(yè)門道。德州農(nóng)工大學(xué)、Visko Platform與Abaka AI的聯(lián)合團(tuán)隊決定徹底解決這個問題，他們打造了一套完整的"考試體系"——包括一個大型人工標(biāo)注數(shù)據(jù)集、一個專用評分模型，以及一個標(biāo)準(zhǔn)化測試題庫。

一、為什么給AI視頻編輯打分這么難

打分這件事，聽起來像是讓老師批改作文——但視頻編輯的"作文"有其特殊之處。

普通的作文評分，你可以整體感受一下語言是否流暢、邏輯是否清晰、內(nèi)容是否扣題。但視頻編輯的評分，至少需要同時考察三件完全不同的事情。第一，模型有沒有照著要求改？如果你說"把背景換成雪山"，它換沒換，換得像不像？第二，改完的視頻好不好看？畫面有沒有閃爍、模糊、穿幫、扭曲的地方？第三，改的時候有沒有"順帶破壞"不該碰的地方？比如你只讓它改背景，它結(jié)果把前景的人臉也一并改掉了。

這三件事在技術(shù)上被稱為"指令跟隨"（Instruction Following，簡稱IF）、"渲染質(zhì)量"（Rendering Quality，簡稱RQ）以及"編輯獨占性"（Edit Exclusivity，簡稱EE）。研究團(tuán)隊將這三個維度獨立開來打分，背后有一個重要原因：這三件事是可以相互脫節(jié)的。

舉個例子：你讓AI"把蘋果變成香蕉"，結(jié)果AI什么都沒改，原封不動地返回了原視頻——但原視頻畫質(zhì)非常高，完全沒有任何瑕疵，也沒有改動任何不該改的地方。這時候怎么打分？按照研究團(tuán)隊的標(biāo)準(zhǔn)，指令跟隨得1分（完全沒跟），渲染質(zhì)量得4分（畫面完美），編輯獨占性得4分（沒有改任何不該改的東西）。這三個分?jǐn)?shù)，同時都是對的。

如果你把這三件事合并成一個分?jǐn)?shù)，就會掩蓋掉真正的問題所在——到底是哪里出了毛病。

二、打造"題庫"：5049個有據(jù)可查的編輯案例

這項研究最扎實的基礎(chǔ)工程，是建立了一個叫做VEFX-Dataset的數(shù)據(jù)集，里面包含5049個視頻編輯的完整案例。

每一個案例都是一個完整的"考試題"：原始視頻是題目，編輯指令是要求，編輯結(jié)果是答案，而人工標(biāo)注的三維分?jǐn)?shù)則是評分標(biāo)準(zhǔn)。這聽起來簡單，但實際操作極為復(fù)雜。

視頻素材的來源包括公開數(shù)據(jù)集Open-Sora和OpenVid-1M，以及團(tuán)隊自行采集的私有素材，最終經(jīng)過嚴(yán)格篩選，保留了1419個高質(zhì)量原始視頻，覆蓋自然風(fēng)光、人物、街景、機器人等10種場景類型，分辨率要求在720p以上，且?guī)瑪?shù)不少于40幀，同時排除了任何存在剪切跳切、速度變化、裁剪縮放或不適宜內(nèi)容的素材。

編輯指令則覆蓋9大類、32個子類的編輯任務(wù)。這9大類分別是：實例編輯（比如給視頻里的某個物體換顏色或者換形狀）、攝像角度編輯（比如把平視鏡頭改成俯視鏡頭）、攝像運動編輯（比如添加推拉搖移的鏡頭運動）、數(shù)量編輯（比如把畫面里的一棵樹變成三棵樹）、屬性編輯（比如改變物體的紋理或材質(zhì)）、創(chuàng)意編輯（比如給場景添加戲劇性的創(chuàng)意元素）、風(fēng)格編輯（比如把寫實風(fēng)格改成水彩畫風(fēng)格）、實例運動編輯（比如讓視頻里的人做出特定的動作），以及視覺效果編輯（比如添加下雪、火焰、閃電等特效）。

為了讓指令和視頻內(nèi)容相匹配，團(tuán)隊使用谷歌的Gemini 3 Flash模型來分析每段視頻的內(nèi)容，然后自動生成適合該視頻的編輯指令，并排除掉那些匹配度不高的組合。

接下來是生成被編輯的視頻。團(tuán)隊沒有只用一種工具，而是刻意混合了多種來源：商業(yè)系統(tǒng)（包括Grok Imagine、Kling Omni、Wan 2.6和Luma Ray2）、開源模型（包括VACE和UniVideo），以及一套由團(tuán)隊自己設(shè)計的智能編輯流水線——這套流水線針對不同編輯類型使用了SAM 2、ROSE、PISCO、ViTPose、Depth Anything V3、ReCamMaster、LightX、Wan-Animate等多個專業(yè)工具，通過自動化串聯(lián)完成復(fù)雜的編輯任務(wù)。

多樣化的來源很重要，因為不同工具在不同類型的編輯上各有所長，這樣生成的數(shù)據(jù)集才能覆蓋各種質(zhì)量水平和失敗模式，讓后續(xù)訓(xùn)練出來的評分模型更加健壯。

三、打分員是怎么工作的：四級量尺的細(xì)節(jié)

有了題目和答案，還需要專業(yè)的打分員。研究團(tuán)隊邀請了受過專業(yè)訓(xùn)練的標(biāo)注員，對每一個編輯案例的三個維度分別打1到4分。

在指令跟隨維度上，4分代表所有要求的編輯都正確完成，沒有任何遺漏或錯誤；3分代表主要的編輯完成了，但有一處細(xì)節(jié)輕微偏差，比如顏色稍微不準(zhǔn)或范圍略有偏差；2分代表視頻和指令有些關(guān)聯(lián)，但主要要求只完成了一半，或者出現(xiàn)了比較嚴(yán)重的語義偏差，比如改了正確的區(qū)域但換成了錯誤的東西；1分則代表完全沒有執(zhí)行指令，或者改動方向完全相反。

渲染質(zhì)量的4分是畫面清晰、時間穩(wěn)定、自然流暢、幾乎沒有任何瑕疵；3分是基本可以看，但存在輕微模糊、局部閃爍、小范圍的不自然感；2分是明顯的、反復(fù)出現(xiàn)的質(zhì)量問題，比如持續(xù)閃爍、物體變形、鬼影、嚴(yán)重模糊；1分是完全無法接受的視覺崩壞，畫面主體失真，時間連貫性完全破壞。

編輯獨占性的打分邏輯是這樣的：4分代表沒有任何清晰可見的"誤傷"——所有不該改的地方都沒被動；3分代表有一處清晰的"誤傷"，但整體場景還在；2分代表有兩到三處"誤傷"，或者有一個很大的背景區(qū)域被意外改動了；1分代表全局性的過度編輯，整個場景面目全非，完全不像一個局部編輯的結(jié)果。

標(biāo)注員在正式打分之前，都要經(jīng)過專門的培訓(xùn)，看過完整的指導(dǎo)手冊和參考案例。團(tuán)隊還做了一次可靠性測試：從數(shù)據(jù)集里隨機抽取550個案例，交給另一批全新的標(biāo)注員重新打分，然后比對兩次結(jié)果的一致性。結(jié)果顯示，在三個維度上，"差距不超過1分"的一致率均超過91%：指令跟隨是93.5%，渲染質(zhì)量高達(dá)97.2%，編輯獨占性是91.7%。完全一致的比例分別是75.2%、87.2%和72.2%。這組數(shù)字說明，人類對渲染質(zhì)量的判斷最為統(tǒng)一，而對編輯獨占性和指令跟隨的判斷則稍微主觀一些，但整體仍然足夠穩(wěn)定，可以用于訓(xùn)練評分模型。

四、數(shù)據(jù)里藏著的秘密：三件事真的是三件獨立的事

數(shù)據(jù)集構(gòu)建完成之后，研究團(tuán)隊對所有標(biāo)注數(shù)據(jù)做了詳細(xì)的統(tǒng)計分析，發(fā)現(xiàn)了幾個頗為耐人尋味的規(guī)律。

從分?jǐn)?shù)分布來看，三個維度的差異相當(dāng)顯著。指令跟隨的分布呈現(xiàn)出極化特征：有41.2%的案例得了最低的1分，而得最高4分的有28.1%，中間兩分的比例相對較低。這說明當(dāng)前的AI視頻編輯工具在執(zhí)行指令這件事上，要么干得不錯，要么干得很差，模糊地帶反而不多。渲染質(zhì)量則截然不同，有高達(dá)78.6%的案例得了3分或4分，只有6.8%得了1分，說明現(xiàn)在的AI在讓視頻"看起來不錯"這件事上已經(jīng)做得相當(dāng)好了，視覺上的流暢感和真實感已經(jīng)不是最大的短板。編輯獨占性則在各個分?jǐn)?shù)段的分布比較均衡。

三個維度之間的相關(guān)性分析進(jìn)一步支持了"它們確實是三件不同的事"這個判斷。指令跟隨和渲染質(zhì)量之間的相關(guān)系數(shù)只有0.241，指令跟隨和編輯獨占性之間只有0.195，渲染質(zhì)量和編輯獨占性之間也只有0.327。這三個數(shù)值都很低，意味著一個維度的高分完全不能預(yù)測另一個維度的表現(xiàn)。如果把這三件事合并成一個分?jǐn)?shù)，大量重要信息就會淹沒在平均值里。

從任務(wù)難度來看，攝像角度編輯是最難的——指令跟隨平均分只有1.76，這是因為改變攝像角度需要AI理解三維空間關(guān)系，這對當(dāng)前模型來說仍然非常困難。相比之下，風(fēng)格編輯是最容易的，指令跟隨平均分達(dá)到2.87，把一段視頻改成水彩畫風(fēng)格或者賽博朋克風(fēng)格，現(xiàn)在的AI已經(jīng)做得相當(dāng)不錯了。但有意思的是，風(fēng)格編輯的編輯獨占性得分卻比較低，平均只有2.23，說明當(dāng)AI改風(fēng)格時，往往會"改得太多"，把一些不該動的細(xì)節(jié)也一并改掉了。這種"指令跟隨好但獨占性差"的組合，在單一分?jǐn)?shù)評估體系下是完全看不出來的。

五、訓(xùn)練一個專門的"考官"模型：VEFX-Reward的設(shè)計

有了數(shù)據(jù)集，研究團(tuán)隊的下一步是訓(xùn)練一個能自動打分的模型，這就是VEFX-Reward。

這個模型的工作方式，類似于一個同時拿著原稿、修改要求和修改結(jié)果的審稿人——它需要三件事都看，才能給出準(zhǔn)確的判斷。具體來說，VEFX-Reward的輸入是：原始視頻、編輯指令、編輯后的視頻，輸出是三個維度各自的分?jǐn)?shù)。

模型的骨架來自Qwen3-VL系列，這是一款能夠同時理解圖像、視頻和文字的多模態(tài)大模型。研究團(tuán)隊在這個骨架上做了兩處關(guān)鍵改造。

第一處改造是引入三個特殊的"問詢標(biāo)記"，分別叫做IF_reward、RQ_reward和EE_reward。這三個標(biāo)記就像三個各司其職的審稿員，每個人只負(fù)責(zé)看自己那一項——一個只看有沒有按要求改，一個只看畫質(zhì)好不好，一個只看有沒有誤傷無辜。模型最后從這三個標(biāo)記對應(yīng)的狀態(tài)向量里，分別提取出三個維度的分?jǐn)?shù)。

第二處改造是打分方式的設(shè)計。研究團(tuán)隊選擇了一種叫做"序數(shù)回歸"的方法，而不是簡單地預(yù)測一個連續(xù)的數(shù)值。序數(shù)回歸的思路是：與其直接預(yù)測"這個視頻的指令跟隨得幾分"，不如依次回答三個更簡單的是非題——"這個視頻的指令跟隨是否超過1分？是否超過2分？是否超過3分？"然后把三個是非題的結(jié)果綜合起來，得出最終分?jǐn)?shù)。這種方法更符合1到4這種有明確順序的評分尺度，而且能夠更好地處理數(shù)據(jù)里那種兩極分化的分布特征。

模型有兩個版本：VEFX-Reward-4B（40億參數(shù)）和VEFX-Reward-32B（320億參數(shù)）。訓(xùn)練時使用了4200個案例，測試時用了849個獨立案例，兩個集合之間沒有重疊，且按編輯類型和來源系統(tǒng)做了分層抽樣，確保測試集能代表真實的數(shù)據(jù)多樣性。

視頻在送入模型之前，會以每秒4幀的速度均勻抽幀，每一幀的分辨率被壓縮到大約632×632像素，原始畫面的長寬比則保留不變。原始視頻和編輯后視頻的抽幀時間點是對齊的，這樣模型才能真正做到幀對幀的比對。

訓(xùn)練分兩個階段進(jìn)行。第一階段持續(xù)1個訓(xùn)練周期，只訓(xùn)練新加入的問詢標(biāo)記和打分頭，預(yù)訓(xùn)練好的骨架參數(shù)全部凍結(jié)不動；第二階段持續(xù)49個訓(xùn)練周期，把語言部分的骨架、問詢標(biāo)記和打分頭全部打開一起微調(diào)，但視覺編碼器依然保持凍結(jié)。這種分階段的策略，是為了先讓模型學(xué)會"如何問問題"，再讓它學(xué)會"如何理解視頻內(nèi)容和問題的關(guān)系"。

六、實戰(zhàn)測試：VEFX-Reward和各路競爭對手的較量

有了模型，就需要檢驗它到底好不好用。研究團(tuán)隊設(shè)計了兩種評估方法，分別衡量不同層面的對齊能力。

第一種方法是學(xué)術(shù)界通用的圖像/視頻質(zhì)量評估指標(biāo)，包括斯皮爾曼秩相關(guān)系數(shù)（SRCC）、肯德爾秩相關(guān)系數(shù)（KRCC）、皮爾遜線性相關(guān)系數(shù)（PLCC）和均方根誤差（RMSE）。這四個指標(biāo)從不同角度衡量模型預(yù)測的分?jǐn)?shù)和人類打的分?jǐn)?shù)之間的一致程度，SRCC和KRCC看排名是否一致，PLCC和RMSE看具體數(shù)值是否接近。

參與對比的有三類"競爭對手"：以通用大模型作為評分裁判（Qwen3.5-397B、Qwen3.5-122B、Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、Gemini-2.5-Flash、Seed-2.0-Lite、Seed-1.6），以及兩個已有的專用評分模型（針對圖片編輯的EditReward，以及針對視頻編輯的VE-Bench）。

結(jié)果顯示，VEFX-Reward-32B在綜合得分（三維平均）上以0.780的SRCC、0.616的KRCC、0.790的PLCC和0.475的RMSE位居第一；VEFX-Reward-4B緊隨其后，四項指標(biāo)分別為0.760、0.595、0.771和0.493。相比之下，EditReward的綜合SRCC只有0.558，VE-Bench更低，只有0.214。通用大模型裁判雖然在個別指標(biāo)上表現(xiàn)尚可，但沒有一個能在所有維度和所有指標(biāo)上同時穩(wěn)定超越VEFX-Reward。

EditReward表現(xiàn)差的原因是顯而易見的：它是為圖片編輯設(shè)計的，并沒有考慮視頻的時間維度，也沒有專門用于編輯獨占性的評分頭，拿來評估視頻編輯自然力不從心——它在渲染質(zhì)量維度上的得分甚至是負(fù)的，說明它的判斷和人類完全背道而馳。VE-Bench雖然是視頻編輯評分模型，但它只輸出一個綜合分?jǐn)?shù)，無法區(qū)分不同維度的失敗，整體對齊效果也很弱。

第二種評估方法叫做"組內(nèi)偏好準(zhǔn)確率"，更接近真實使用場景。當(dāng)你拿到同一段原始視頻和同一條編輯指令，由不同工具分別生成了三個結(jié)果，你想知道哪個最好——這時候你不需要知道絕對分?jǐn)?shù)，只需要知道相對排名。組內(nèi)偏好準(zhǔn)確率衡量的就是：給定同一道題的多個答案，評分模型對好壞排序的判斷是否和人類一致。

在這個評估上，VEFX-Reward-32B的綜合準(zhǔn)確率達(dá)到了0.872，VEFX-Reward-4B是0.863，兩者都大幅領(lǐng)先EditReward（0.792）和VE-Bench（0.665）。這說明VEFX-Reward不只是在全局統(tǒng)計上和人類對齊，在幫助用戶從多個候選結(jié)果里挑選最好的那個這件實際任務(wù)上，它同樣可靠。

七、用新量尺來量一量市場上的主流工具

研究團(tuán)隊還用VEFX-Reward-32B對10款具有代表性的視頻編輯工具進(jìn)行了系統(tǒng)性評測，包括8款商業(yè)系統(tǒng)和2款開源系統(tǒng)。

為了衡量整體表現(xiàn)，團(tuán)隊設(shè)計了一個叫做"幾何加權(quán)綜合分"（GeoAgg）的排名指標(biāo)。這個指標(biāo)的核心思想是：強項不能彌補弱項。如果一個工具渲染質(zhì)量極高，但指令跟隨非常差，它的綜合分依然會被拖累——因為對用戶來說，一個畫質(zhì)再好但完全沒按要求改的視頻，根本沒有實用價值。在具體權(quán)重上，指令跟隨的權(quán)重是渲染質(zhì)量和編輯獨占性的兩倍，反映了語義準(zhǔn)確性在視頻編輯中的核心地位。

排名結(jié)果顯示，Kling o3 omni排名第一，幾何綜合分達(dá)到3.057，它在指令跟隨（3.033）和渲染質(zhì)量（3.588）上都表現(xiàn)強勁。Kling o1排名第二，綜合分2.985，指令跟隨同樣達(dá)到3.040。值得注意的是，Kling o1在三個維度的均衡性上表現(xiàn)出色，沒有明顯短板。

Runway Gen-4.5排名第三，綜合分2.912，它的綜合行為比較均衡，但因為部分測試題沒能完成（平臺有推理限制），它的分?jǐn)?shù)經(jīng)過了統(tǒng)計修正。Seedance 2.0排名第四，修正后綜合分2.766，渲染質(zhì)量（3.421）和編輯獨占性（3.088）都不錯，但指令跟隨（2.811）相對弱一些。

Grok Imagine有一個很有特點的表現(xiàn)：它的編輯獨占性得分在所有工具中最高，達(dá)到3.376，說明它在"只改該改的地方"這件事上做得最好，但它的指令跟隨只有2.606，所以綜合排名落在了第五位（2.723）。這個例子很好地說明了多維評估的價值——如果只看單一綜合分，Grok Imagine的這個獨特優(yōu)勢就會被淹沒。

在開源系統(tǒng)中，UniVideo（綜合分2.516）明顯強于VACE（1.775），甚至能和部分商業(yè)系統(tǒng)抗衡，特別是在編輯獨占性上表現(xiàn)相當(dāng)不錯。VACE在編輯獨占性上幾乎墊底，平均只有1.180，說明它在編輯時會對無辜區(qū)域造成大量誤傷。

從任務(wù)類型的雷達(dá)圖來看，沒有一個工具能在所有9類編輯任務(wù)上都保持一致的高水準(zhǔn)。Kling o3 omni和Kling o1的覆蓋面最廣，在數(shù)量編輯、屬性編輯、實例編輯和視覺效果編輯上都有明顯優(yōu)勢。Grok Imagine則在風(fēng)格編輯、實例編輯和視覺效果編輯上很強，但在攝像角度和攝像運動編輯上表現(xiàn)平平。這一結(jié)果意味著，對于不同類型的視頻編輯需求，用戶可能需要根據(jù)任務(wù)類型來選擇最合適的工具，而不是無腦選一個"綜合第一"的工具。

八、一個標(biāo)準(zhǔn)化的測試題庫：VEFX-Bench

除了數(shù)據(jù)集和評分模型之外，研究團(tuán)隊還發(fā)布了一個叫做VEFX-Bench的標(biāo)準(zhǔn)化測試題庫，包含300個精心挑選的（原始視頻，編輯指令）配對，專門用于不同編輯系統(tǒng)之間的橫向?qū)Ρ取?/p>

這300道題的設(shè)計遵循了幾個原則：覆蓋盡可能多的編輯類型，確保內(nèi)容的多樣性，以及確保題目的難度分布合理——不能全是簡單題，也不能全是極端難題。有了這個統(tǒng)一題庫，不同研究團(tuán)隊在評測新工具時可以用同一套題目，結(jié)果之間才具有可比性，不會因為題目選擇不同而產(chǎn)生偏差。

說到底，這項研究做的事情，本質(zhì)上是給一個快速發(fā)展但缺乏標(biāo)準(zhǔn)的領(lǐng)域，建立了一套經(jīng)過嚴(yán)格驗證的"考試體系"。數(shù)據(jù)集是題庫，評分模型是考官，測試題庫是考卷，三者配合，第一次讓AI視頻編輯的質(zhì)量評估有了可靠的、多維度的、可復(fù)現(xiàn)的衡量方式。

歸根結(jié)底，當(dāng)前市場上的AI視頻編輯工具最普遍的特點是：視覺上過得去，但語義上靠不住，而且經(jīng)常改過頭。渲染質(zhì)量已經(jīng)不是最大的挑戰(zhàn)，但精準(zhǔn)地按照指令改、同時不誤傷無辜，仍然是這個領(lǐng)域尚未完全解決的核心難題。這個發(fā)現(xiàn)，對于正在使用或者考慮使用AI視頻編輯工具的人來說，也許是一個有用的提醒：當(dāng)你看到一段AI編輯的視頻畫質(zhì)很好，千萬別忘了對照原始視頻，仔細(xì)檢查一下它到底有沒有真正按你說的改，以及有沒有順帶改掉它不該動的地方。

對于有興趣深入了解研究細(xì)節(jié)的讀者，可以通過arXiv編號2604.16272查閱完整論文。

Q&A

Q1：VEFX-Dataset和其他視頻編輯數(shù)據(jù)集相比有什么特別之處？

A：VEFX-Dataset最核心的區(qū)別在于同時滿足三個條件：包含實際編輯后的視頻結(jié)果、使用真人標(biāo)注而非自動打分、以及將質(zhì)量分解為指令跟隨、渲染質(zhì)量、編輯獨占性三個獨立維度。現(xiàn)有數(shù)據(jù)集通常只滿足其中一兩個條件，比如有的只有指令沒有結(jié)果，有的有結(jié)果但只給一個綜合分，VEFX-Dataset是目前唯一同時具備這三個屬性的大規(guī)模數(shù)據(jù)集。

Q2：VEFX-Reward的"編輯獨占性"維度是怎么打分的？

A：編輯獨占性衡量的是AI在編輯時有沒有"誤傷"不該動的區(qū)域。打分時，標(biāo)注員會仔細(xì)比對原始視頻和編輯后視頻，統(tǒng)計有多少清晰可見的"非目標(biāo)區(qū)域"發(fā)生了變化。沒有任何誤傷得4分，有一處局部誤傷得3分，有兩到三處或者一個大面積背景被改動得2分，整個場景被大規(guī)模改寫得1分。

Q3：Kling o3 omni評測第一，是不是意味著用AI編輯視頻首選它？

A：綜合分第一并不意味著在所有場景下都最好。評測結(jié)果顯示，不同工具在不同編輯類型上各有優(yōu)劣——Kling o3 omni在數(shù)量、屬性、實例和視覺效果編輯上領(lǐng)先，但Grok Imagine在風(fēng)格和實例編輯上也很強，而且編輯獨占性全場最高。實際使用時，最好根據(jù)具體的編輯任務(wù)類型來選擇工具，而不是只看綜合排名。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.