国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

教會視頻擴散模型「理解科學(xué)現(xiàn)象」:從初始幀生成整個物理演化

0
分享至



作者 | 論文團隊

編輯 | ScienceAI

近年來,Stable Diffusion、CogVideoX 等視頻生成模型在自然場景中表現(xiàn)驚艷,但面對科學(xué)現(xiàn)象 —— 如流體模擬或氣象過程 —— 卻常常「亂畫」:如圖一所示,生成的流體很容易產(chǎn)生違背物理直覺的現(xiàn)象,比如氣旋逆向旋轉(zhuǎn)或整體平移等等。

上述問題的根源在于,這些模型缺乏對科學(xué)規(guī)律的內(nèi)在理解。它們學(xué)習(xí)到的只是像素分布,而非支配這些分布的動力學(xué)方程。更糟的是,科學(xué)數(shù)據(jù)具有稀缺性,且缺少語言描述(不像「a dog is running」那樣易于提示),導(dǎo)致傳統(tǒng)「文本提示 — 圖像生成」范式在科學(xué)視頻生成任務(wù)中失效。



圖一:現(xiàn)有的視頻擴散模型生成效果。

因此,在擴散模型不斷重塑視覺生成的今天,一個全新的問題正在浮現(xiàn):當 AI 可以生成美麗的自然視頻時,能否同樣生成「真實的科學(xué)現(xiàn)象」?

這正是來自東方理工與上海交大的研究團隊在最新研究中提出的挑戰(zhàn)。他們在論文《Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame》中,提出了一種讓視頻擴散模型學(xué)習(xí)「潛在科學(xué)知識」的全新框架,使模型能夠僅憑一幀初始圖像,就生成更為貼近物理規(guī)律的科學(xué)現(xiàn)象演化過程—— 例如流體運動、臺風(fēng)路徑、湍流結(jié)構(gòu)等。

不同于以往依靠語言提示或大規(guī)模視覺數(shù)據(jù)的生成方式,這項方法讓模型在「看懂科學(xué)」的基礎(chǔ)上自己推演后續(xù)的演化軌跡,在生成式 AI 中注入了「物理直覺(physical intuition)」。該研究已被人工智能頂會 AAAI 2026 正式接收。



圖二:整體算法框架。該方法通過參數(shù)高效的微調(diào)將潛在的物理現(xiàn)象知識融入視頻擴散模型中,從而在數(shù)據(jù)受限的場景下實現(xiàn)更貼近物理規(guī)律的視頻生成。

方法介紹

如圖二所示,整個方法核心可分為三步:潛在知識提取 → 偽語言提示生成 → 知識引導(dǎo)視頻生成。

第一步:從一幀中提取「潛在科學(xué)知識」。研究的起點是極具挑戰(zhàn)性的設(shè)定:模型只能獲得一幀初始圖像。在這種情況下,它必須「推斷」出后續(xù)的動態(tài)演化。為此,作者設(shè)計了兩種互補的知識提取模塊:

  • 靜態(tài)知識(Static Knowledge)—— 通過預(yù)訓(xùn)練的 Masked Autoencoder (MAE) 提取。這一步相當于讓模型「看懂」一幀圖像中隱含的結(jié)構(gòu)規(guī)律,例如流場邊界、溫度梯度、云層形態(tài)等。不同于一般視覺自監(jiān)督方法中隨意的旋轉(zhuǎn)、噪聲擾動,研究者刻意避免破壞物理連續(xù)性的增強方式,使 MAE 能在「科學(xué)一致性」條件下學(xué)習(xí)。
  • 動態(tài)知識(Dynamic Knowledge)— 通過 光流預(yù)測網(wǎng)絡(luò)(Optical Flow Predictor, OFP) 提取,用以捕捉物理系統(tǒng)的運動趨勢,如流體方向或旋渦遷移。這一模塊讓模型「想象」科學(xué)現(xiàn)象的運動軌跡,從而獲得對動力學(xué)過程的隱式理解。通過這兩個模塊,模型獲得了一種「潛在物理直覺」:它不僅看到靜態(tài)狀態(tài),還能感受到變化的方向。

第二步:讓科學(xué)知識「說話」—— 偽語言提示生成。擴散模型通常依賴文字提示(prompt)來控制生成,但在科學(xué)領(lǐng)域,「語言提示」幾乎無法定義。例如,沒有人能準確描述「一個雷諾數(shù)為 10? 的流場如何演化」。為此,研究者創(chuàng)新性地利用了 CLIP 模型的跨模態(tài)對齊特性。他們將前一步提取的視覺特征與科學(xué)知識特征輸入 CLIP 的視覺空間中,并通過一種四元數(shù)網(wǎng)絡(luò)(Quaternion Network)進行投影,把這些潛在特征轉(zhuǎn)換成偽語言提示嵌入(pseudo-language embeddings)。

這一步的關(guān)鍵思想是,避開文字局限,通過跨模態(tài)特征對齊與多維信息融合,使科學(xué)知識轉(zhuǎn)化為可被擴散模型解析的引導(dǎo)信號。四元數(shù)網(wǎng)絡(luò)使模型能在多維空間中同時處理圖像、靜態(tài)知識、動態(tài)知識與頻率信息,從而生成能夠引導(dǎo)擴散模型的語義性信號。研究者還將頻域(Frequency Domain)特征注入提示生成過程,讓模型在「空間 - 頻率」兩個維度理解科學(xué)規(guī)律。

第三步:知識引導(dǎo)下的視頻生成。在擁有這些「偽語言提示」后,研究者將其注入 Stable Video Diffusion (SVD) 或 CogVideoX 的注意力層,通過 LoRA(Low-Rank Adaptation) 的方式進行輕量微調(diào)。在訓(xùn)練階段,模型從真實的科學(xué)視頻(如流體仿真、臺風(fēng)演化)中學(xué)習(xí)如何從噪聲逐步重建出物理一致的視頻序列;在推理階段,它只需要輸入一幀圖像,就能借助潛在知識推演出整個動態(tài)過程 —— 實現(xiàn)從「初態(tài)」到「演化」的全程科學(xué)生成。這種機制讓模型不再僅僅是圖像生成器,而是一個能夠模擬科學(xué)規(guī)律的世界現(xiàn)象生成器(World Phenomena Simulator)。

模型結(jié)果

研究團隊在流體力學(xué)仿真數(shù)據(jù)和真實臺風(fēng)觀測數(shù)據(jù)上進行了大規(guī)模實驗,結(jié)合數(shù)值精度指標和物理精度指標進行評估。該模型的輸出不僅呈現(xiàn)效果更優(yōu),更關(guān)鍵的是,它生成得更「科學(xué)」。

在實驗中,研究者分別使用了四種典型的流體模擬場景:Rayleigh-Bénard Convection(瑞利 - 貝納德對流)、Cylinder Flow(圓柱繞流)、DamBreak(潰壩流)和 DepthCharge(深水爆炸 / 水下爆炸)。這些都是流體力學(xué)中經(jīng)典而復(fù)雜的物理過程。此外,研究者還將方法應(yīng)用于真實衛(wèi)星觀測的臺風(fēng)數(shù)據(jù),選取了 4 個臺風(fēng)事件(202001、202009、202102、202204),讓模型在僅看到一幀初始衛(wèi)星圖像的情況下,推演整個風(fēng)暴演化。



圖三:臺風(fēng)現(xiàn)象生成效果對比。



圖四:流體現(xiàn)象生成效果對比。

定性上看,如圖三和圖四所示,傳統(tǒng)視頻擴散模型(如 Stable Video Diffusion 或 CogVideoX)往往會「畫出」違背物理規(guī)律的畫面。在相同的初始幀下,傳統(tǒng)模型生成的流體場常出現(xiàn)「靜止渦旋」或「反重力液面」,而本研究的模型則能自然還原出連續(xù)的流動與下泄過程。現(xiàn)有模型生成的臺風(fēng)中心漂移、風(fēng)眼逆轉(zhuǎn)、云層斷裂;而新方法生成的視頻不僅結(jié)構(gòu)連貫,而且旋轉(zhuǎn)方向、云帶卷吸、能量分布都更好的保持了物理合理性。



表一:對流體模擬數(shù)據(jù)(左)和真實臺風(fēng)數(shù)據(jù)(右)進行定量評估。

定量上評估,除了傳統(tǒng)的 RMSE 和 SSIM 指標,為了驗證生成結(jié)果是否「符合科學(xué)」,研究團隊設(shè)還基于六項物理一致性指標,從不同角度評估生成視頻是否尊重物理規(guī)律:

  • RMSE:像素層誤差,衡量整體偏差;
  • SSIM:結(jié)構(gòu)相似性,衡量圖像紋理保持程度;
  • SFE(Stream Function Error):流函數(shù)誤差,檢驗流體走向與真實場是否一致;
  • SE(Smoothness Error):平滑度誤差,考察流場演化是否連貫;
  • GS(Gradient Smoothness):梯度平滑度,評估空間變化是否自然;
  • CS(Continuity Score):連續(xù)性得分,檢驗是否違反質(zhì)量守恒;
  • QCE(Q-Criterion Error):渦度判據(jù)誤差,衡量渦旋結(jié)構(gòu)是否被保持;
  • VE(Vorticity Error):旋渦誤差,檢查流體旋轉(zhuǎn)強度的一致性。

如表一所示,在所有這些指標上,新模型都顯著超越了主流方法。例如,在流體模擬任務(wù)中,Q-Criterion 誤差降低了一個數(shù)量級,意味著生成視頻的渦旋結(jié)構(gòu)幾乎與真實物理場完全重合;而在臺風(fēng)預(yù)測任務(wù)中,SSIM 提升超過 10%,RMSE 降低 20% 以上,證明生成結(jié)果更加貼近真實觀測。

總結(jié)

綜上所述,這項研究展示了生成式 AI 在科學(xué)建模方向上的一次有意義的探索。通過讓視頻擴散模型學(xué)習(xí)潛在的科學(xué)知識,研究團隊讓 AI 不再只是「畫出」自然現(xiàn)象,而能「推演」出它們的演化邏輯。

在從一幀圖像生成出完整科學(xué)過程的同時,模型也學(xué)會了遵守能量守恒、流體連續(xù)性等自然規(guī)律。這種從「視覺生成」到「科學(xué)生成」的轉(zhuǎn)變,意味著生成模型開始具備理解物理世界的潛能。未來,這一方向有望在氣象預(yù)測、流體仿真、地球系統(tǒng)建模等領(lǐng)域發(fā)揮更大作用,讓 AI 真正成為科學(xué)家的助手,而不僅是藝術(shù)家的畫筆。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
73歲普京高調(diào)認愛,這就是相差41歲的“一見鐘情”

73歲普京高調(diào)認愛,這就是相差41歲的“一見鐘情”

吃瓜局
2025-12-26 15:30:08
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

南宮一二
2025-12-27 13:04:40
徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

西門老爹
2025-12-25 18:42:42
越扒越有!不止徐鶯,徐湖平被曝大小情人無數(shù),日本翻譯都不放過

越扒越有!不止徐鶯,徐湖平被曝大小情人無數(shù),日本翻譯都不放過

戶外阿嶄
2025-12-27 02:15:30
P站熱門亞裔女神大盤點,看你認識幾個

P站熱門亞裔女神大盤點,看你認識幾個

吃瓜黨二號頭目
2025-12-27 11:22:54
姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

細雨中的呼喊
2025-12-26 17:22:45
老了才明白:盡量不要跟身邊任何人,包括你的兒女,分享這5件事

老了才明白:盡量不要跟身邊任何人,包括你的兒女,分享這5件事

朗威談星座
2025-12-25 10:51:58
實錘了?《亞洲周刊》扒出徐湖平的父親身份

實錘了?《亞洲周刊》扒出徐湖平的父親身份

數(shù)字財經(jīng)智庫
2025-12-27 10:53:01
攀枝花警方通報一起刑事案件:1死3傷,嫌犯已被刑拘

攀枝花警方通報一起刑事案件:1死3傷,嫌犯已被刑拘

界面新聞
2025-12-27 13:49:19
剛剛,美國發(fā)出最高預(yù)警:疫情已完全失控!2026年人類面臨大考?

剛剛,美國發(fā)出最高預(yù)警:疫情已完全失控!2026年人類面臨大考?

徐德文科學(xué)頻道
2025-12-26 20:21:51
姜昆助理辟謠不到24小時,慘遭網(wǎng)友"打臉",視頻拍攝者:等吃官司

姜昆助理辟謠不到24小時,慘遭網(wǎng)友"打臉",視頻拍攝者:等吃官司

奇思妙想草葉君
2025-12-27 10:34:04
美國頁巖油陷阱!廢水回注正在失控,或引發(fā)人類巨大災(zāi)難

美國頁巖油陷阱!廢水回注正在失控,或引發(fā)人類巨大災(zāi)難

新浪財經(jīng)
2025-10-07 21:58:33
一男子每天穿破損羽絨服12小時,確診“羽絨肺” 導(dǎo)致的呼吸衰竭!原因竟是……

一男子每天穿破損羽絨服12小時,確診“羽絨肺” 導(dǎo)致的呼吸衰竭!原因竟是……

杭州之聲
2025-12-27 09:51:19
中國駐墨西哥使館:奉勸納瓦羅之流認真反思錯誤,停止自欺欺人的表演

中國駐墨西哥使館:奉勸納瓦羅之流認真反思錯誤,停止自欺欺人的表演

環(huán)球網(wǎng)資訊
2025-12-27 06:43:19
網(wǎng)購“10-9”枚鹵蛋實得1枚顧客最新發(fā)聲:蛋已吃,并獲10倍賠償;律師:商家強詞奪理涉嫌欺詐

網(wǎng)購“10-9”枚鹵蛋實得1枚顧客最新發(fā)聲:蛋已吃,并獲10倍賠償;律師:商家強詞奪理涉嫌欺詐

極目新聞
2025-12-26 19:33:46
太稀罕了!深圳一家公司通知供應(yīng)商趕緊對賬,12月底結(jié)清所有貨款

太稀罕了!深圳一家公司通知供應(yīng)商趕緊對賬,12月底結(jié)清所有貨款

火山詩話
2025-12-27 09:04:18
把副省長文國棟拉下馬的環(huán)保案件,賠償了50億

把副省長文國棟拉下馬的環(huán)保案件,賠償了50億

極目新聞
2025-12-26 22:46:14
36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬元預(yù)訂豪車,身后留下兩個幼女丨紅星調(diào)查

36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬元預(yù)訂豪車,身后留下兩個幼女丨紅星調(diào)查

紅星新聞
2025-12-27 10:37:08
全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

青青子衿
2025-12-26 04:42:30
南博前院長被帶走不到12小時,令人"厭惡"的事發(fā)生了,不止一件

南博前院長被帶走不到12小時,令人"厭惡"的事發(fā)生了,不止一件

社會日日鮮
2025-12-26 11:09:21
2025-12-27 15:44:51
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1191文章數(shù) 222關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

"和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

頭條要聞

"和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
時尚
旅游
家居
軍事航空

藝術(shù)要聞

馬巖松讓建筑“消失”?衢州新地標亮相,全球最大!

從0度穿到20度,這件衣服才是今年冬天的“頂流”!

旅游要聞

貴州舉辦2025滿意旅游“痛客行”頒獎儀式

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進入關(guān)懷版