国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

生成不遺忘,「超長(zhǎng)時(shí)序」世界模型!北大EgoLCD長(zhǎng)短時(shí)記憶加持

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】視頻生成模型總是「記性不好」?生成幾秒鐘后物體就變形、背景就穿幫?北大、中大等機(jī)構(gòu)聯(lián)合發(fā)布EgoLCD,借鑒人類「長(zhǎng)短時(shí)記憶」機(jī)制,首創(chuàng)稀疏KV緩存+LoRA動(dòng)態(tài)適應(yīng)架構(gòu),徹底解決長(zhǎng)視頻「內(nèi)容漂移」難題,在EgoVid-5M基準(zhǔn)上刷新SOTA!讓AI像人一樣擁有連貫的第一人稱視角記憶。

隨著Sora、Genie等模型的爆發(fā),視頻生成正從「圖生動(dòng)」邁向「世界模擬器」的宏大目標(biāo)。

然而,在通往「無(wú)限時(shí)長(zhǎng)」視頻生成的路上,橫亙著一只攔路虎——「內(nèi)容漂移」(Content Drift)。

你是否發(fā)現(xiàn),現(xiàn)有的視頻生成模型在生成長(zhǎng)視頻時(shí),往往也是「金魚記憶」:前一秒還是藍(lán)色瓷磚,后一秒變成了白色墻壁;原本手里的杯子,拿著拿著就變成了奇怪的形狀;

對(duì)于第一人稱(Egocentric)視角這種晃動(dòng)劇烈、交互復(fù)雜的場(chǎng)景,模型更是極其容易「迷失」。

生成長(zhǎng)視頻不難,難的是「不忘初心」。

近日,來(lái)自北京大學(xué)、中山大學(xué)、浙江大學(xué)、中科院和清華大學(xué)的研究團(tuán)隊(duì),提出了一種全新的長(zhǎng)上下文擴(kuò)散模型EgoLCD,不僅引入了「類腦的長(zhǎng)短時(shí)記憶」設(shè)計(jì),還提出了一套全新的結(jié)構(gòu)化敘事Promp方案,成功讓AI在生成長(zhǎng)視頻時(shí)「記住」場(chǎng)景布局和物體特征。


論文地址:https://arxiv.org/abs/2512.04515

項(xiàng)目主頁(yè):https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基準(zhǔn)測(cè)試中,EgoLCD在時(shí)間一致性生成質(zhì)量上全面碾壓OpenSora、SVD等主流模型,向構(gòu)建具身智能世界模型邁出了關(guān)鍵一步!


核心痛點(diǎn)

AI為什么會(huì)「失憶」?

在長(zhǎng)視頻生成中,傳統(tǒng)的自回歸(AR)模型非常容易出現(xiàn)生成式遺忘。

這就像讓一個(gè)人蒙眼畫畫,畫著畫著就偏離了最初的構(gòu)圖。對(duì)于第一人稱視頻(如Ego4D數(shù)據(jù)集)來(lái)說(shuō),劇烈的相機(jī)抖動(dòng)和復(fù)雜的手物交互,讓這種「漂移」更加致命。

傳統(tǒng)的Transformer雖然有注意力機(jī)制,但面對(duì)長(zhǎng)序列,計(jì)算量呈二次方爆炸根本存不下那么多歷史信息;而簡(jiǎn)單的滑動(dòng)窗口又會(huì)丟掉早期的關(guān)鍵信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 將長(zhǎng)視頻生成重新定義為一個(gè)「高效且穩(wěn)定的內(nèi)存管理問(wèn)題」。


長(zhǎng)短時(shí)記憶系統(tǒng) (Long-Short Memory)

EgoLCD 設(shè)計(jì)了一種類似人類大腦的雙重記憶機(jī)制:

長(zhǎng)期記憶(Long-Term Sparse KV Cache):不再傻傻地緩存所有Token,而是利用稀疏注意力機(jī)制,只存儲(chǔ)和檢索最關(guān)鍵的「語(yǔ)義錨點(diǎn)」(比如房間的布局、關(guān)鍵物體的特征)。這不僅大大降低了顯存占用,還鎖死了全局一致性。

短期記憶(Attention+LoRA):利用LoRA作為隱式記憶單元,增強(qiáng)短窗口注意力的適應(yīng)性,快速捕捉當(dāng)前視角的劇烈變化(如手的快速移動(dòng))。

一句話總結(jié):長(zhǎng)期記憶負(fù)責(zé)「穩(wěn)」,短期記憶負(fù)責(zé)「快」。

記憶調(diào)節(jié)損失 (Memory Regulation Loss)

為了防止模型在訓(xùn)練時(shí)「偷懶」,團(tuán)隊(duì)設(shè)計(jì)了一種特殊的損失函數(shù)。它強(qiáng)制模型生成的每一幀,都要與從長(zhǎng)期記憶庫(kù)中檢索到的「歷史片段」保持語(yǔ)義對(duì)齊。

這就像給AI戴上了一個(gè)「緊箍咒」,一旦它生成的畫面開始「胡編亂造」(漂移),Loss就會(huì)懲罰它,迫使它回歸原本的設(shè)定。

結(jié)構(gòu)化敘事提示 (Structured Narrative Prompting, SNP)

EgoLCD拋棄了簡(jiǎn)單的文本提示,采用了一種分段式的、包含時(shí)間邏輯的結(jié)構(gòu)化劇本。

訓(xùn)練時(shí):使用GPT-4o生成極其詳盡的幀級(jí)描述,訓(xùn)練模型將視覺(jué)細(xì)節(jié)與文字嚴(yán)格對(duì)應(yīng)。

推理時(shí):SNP充當(dāng)「外部顯性記憶」,通過(guò)檢索前序片段的Prompt,引導(dǎo)當(dāng)前片段的生成,確保故事線和視覺(jué)風(fēng)格的連貫。

性能炸裂



為了公正地評(píng)測(cè)「不遺忘」的能力,研究團(tuán)隊(duì)甚至專門開發(fā)了一套新指標(biāo)——NRDP (Normalized Referenced Drifting Penalty),專門用來(lái)懲罰那些「虎頭蛇尾」、越往后質(zhì)量越差的模型。

實(shí)驗(yàn)結(jié)果顯示:

一致性碾壓:在NRDP-Subject(主體一致性)和NRDP-Background(背景一致性)上,EgoLCD取得了壓倒性優(yōu)勢(shì),漂移率極低。

超越基線:相比SVD、DynamiCrafter和OpenSora等頂流模型,EgoLCD在EgoVid-5M基準(zhǔn)上的CD-FVD(時(shí)序連貫性)和動(dòng)作一致性指標(biāo)均為最佳。

極長(zhǎng)生成:展示了長(zhǎng)達(dá)60秒的連貫視頻生成(如一名演講者從黃昏講到深夜),人物衣著、背景樓宇細(xì)節(jié)始終如一,沒(méi)有發(fā)生形變!

通往具身智能的「黑客帝國(guó)」

EgoLCD不僅僅是一個(gè)視頻生成模型,它更像是一個(gè)「第一人稱世界模擬器」。

通過(guò)生成長(zhǎng)時(shí)程、高一致性的第一人稱視頻,EgoLCD能夠?yàn)榫呱碇悄埽C(jī)器人)提供海量的訓(xùn)練數(shù)據(jù),模擬復(fù)雜的物理交互和長(zhǎng)序列任務(wù)(如做飯、修理)。

正如Sora讓人們看到了世界模型的雛形,EgoLCD則讓「通過(guò)視頻教會(huì)機(jī)器人理解世界」的夢(mèng)想,變得前所未有的清晰。

參考資料:

https://arxiv.org/abs/2512.04515

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
閆學(xué)晶事件再升級(jí)!官媒發(fā)文銳評(píng),言辭犀利,句句直戳她心窩!

閆學(xué)晶事件再升級(jí)!官媒發(fā)文銳評(píng),言辭犀利,句句直戳她心窩!

奇思妙想草葉君
2026-01-08 22:47:02
三星掌門人北京逛街,穿“老頭馬甲”秒售罄!有錢男人為啥愛(ài)馬甲

三星掌門人北京逛街,穿“老頭馬甲”秒售罄!有錢男人為啥愛(ài)馬甲

商務(wù)范
2026-01-07 17:57:48
宣布了!再見(jiàn)NBA!超級(jí)天賦大中鋒

宣布了!再見(jiàn)NBA!超級(jí)天賦大中鋒

籃球?qū)崙?zhàn)寶典
2026-01-09 22:15:57
破案!陳盈駿最后一傳出現(xiàn)離譜失誤的真正原因找到,名記說(shuō)出實(shí)情

破案!陳盈駿最后一傳出現(xiàn)離譜失誤的真正原因找到,名記說(shuō)出實(shí)情

后仰大風(fēng)車
2026-01-10 07:10:08
中國(guó)銀行四川省分行原行長(zhǎng)葛春堯被“雙開”:違反國(guó)家規(guī)定發(fā)放貸款,數(shù)額巨大

中國(guó)銀行四川省分行原行長(zhǎng)葛春堯被“雙開”:違反國(guó)家規(guī)定發(fā)放貸款,數(shù)額巨大

界面新聞
2026-01-09 18:06:55
美國(guó)稱在國(guó)際水域扣押一艘無(wú)國(guó)籍油輪

美國(guó)稱在國(guó)際水域扣押一艘無(wú)國(guó)籍油輪

澎湃新聞
2026-01-07 23:01:05
2000萬(wàn)歐元值不值?國(guó)米繼續(xù)購(gòu)買二前鋒,那不勒斯也想搶下他

2000萬(wàn)歐元值不值?國(guó)米繼續(xù)購(gòu)買二前鋒,那不勒斯也想搶下他

里芃芃體育
2026-01-10 05:00:06
60年,鄧寶珊從甘肅寄給毛澤東一包粉末,毛澤東捧著粉末紅了眼眶

60年,鄧寶珊從甘肅寄給毛澤東一包粉末,毛澤東捧著粉末紅了眼眶

歷史龍?jiān)w
2026-01-09 08:20:08
斬首馬杜羅的“支奴干”直升機(jī)中國(guó)也有,為什么至今沒(méi)仿制成功?

斬首馬杜羅的“支奴干”直升機(jī)中國(guó)也有,為什么至今沒(méi)仿制成功?

軍武次位面
2026-01-08 18:51:19
連爆大冷,連克世界第2凱倫與第3羅伯遜,冠軍組決出4席中國(guó)1席

連爆大冷,連克世界第2凱倫與第3羅伯遜,冠軍組決出4席中國(guó)1席

求球不落諦
2026-01-10 05:51:20
真慘,從暴漲197%熔斷,到暴跌37%收盤,一股民進(jìn)去就虧40萬(wàn)!

真慘,從暴漲197%熔斷,到暴跌37%收盤,一股民進(jìn)去就虧40萬(wàn)!

財(cái)經(jīng)智多星
2026-01-09 11:45:06
新的殯葬制度來(lái)了!墳頭將取締,網(wǎng)友:以后祭祖,對(duì)著莊稼地磕頭

新的殯葬制度來(lái)了!墳頭將取締,網(wǎng)友:以后祭祖,對(duì)著莊稼地磕頭

火山詩(shī)話
2026-01-09 06:00:10
票房從30億跌到9847萬(wàn),我感慨:這一張金字招牌算是砸了

票房從30億跌到9847萬(wàn),我感慨:這一張金字招牌算是砸了

韓馳
2026-01-03 17:11:42
一打強(qiáng)隊(duì)就腳軟!北京王牌鋒線成背景板,球迷:就這還想打NBA?

一打強(qiáng)隊(duì)就腳軟!北京王牌鋒線成背景板,球迷:就這還想打NBA?

后仰大風(fēng)車
2026-01-10 09:30:26
冬不食寒,少吃蝦、豆腐!多吃3樣,把陽(yáng)氣藏進(jìn)身體里,安穩(wěn)過(guò)冬

冬不食寒,少吃蝦、豆腐!多吃3樣,把陽(yáng)氣藏進(jìn)身體里,安穩(wěn)過(guò)冬

江江食研社
2026-01-09 14:30:03
身份證尾號(hào)“Ⅹ”不讀“叉”,也不讀“埃克斯”,正確讀法是啥?

身份證尾號(hào)“Ⅹ”不讀“叉”,也不讀“埃克斯”,正確讀法是啥?

潘軮旅行浪子
2026-01-08 17:27:25
馬筱梅直播間的驚天逆襲:一場(chǎng)直播三千萬(wàn)銷量背后,孩子那聲“媽”值多少錢?

馬筱梅直播間的驚天逆襲:一場(chǎng)直播三千萬(wàn)銷量背后,孩子那聲“媽”值多少錢?

科學(xué)發(fā)掘
2026-01-10 06:19:42
“金屬牛市”恐怕今年就會(huì)戛然而止,金銀銅被重點(diǎn)列出!

“金屬牛市”恐怕今年就會(huì)戛然而止,金銀銅被重點(diǎn)列出!

中國(guó)能源網(wǎng)
2026-01-09 09:54:12
52票贊成47票反對(duì)!美國(guó)投票結(jié)果公布;美國(guó)或?qū)⑹ヂ?lián)大投票權(quán)

52票贊成47票反對(duì)!美國(guó)投票結(jié)果公布;美國(guó)或?qū)⑹ヂ?lián)大投票權(quán)

南宗歷史
2026-01-09 10:24:03
用了幾十年的聚酯纖維,是怎么在互聯(lián)網(wǎng)塌房的?

用了幾十年的聚酯纖維,是怎么在互聯(lián)網(wǎng)塌房的?

差評(píng)XPIN
2025-12-08 00:06:03
2026-01-10 10:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14298文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國(guó)

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國(guó)

體育要聞

楊瀚森:上場(chǎng)時(shí)間要去爭(zhēng)取 而不是要求

娛樂(lè)要聞

火速認(rèn)錯(cuò)!孫怡駕駛法拉利跑車違規(guī)

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

房產(chǎn)
健康
時(shí)尚
游戲
本地

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

這些新療法,讓化療不再那么痛苦

2026春夏八大流行趨勢(shì)

盤點(diǎn)穿越火線槍王榮耀最喜歡用的武器,看看都有哪些武器上榜?

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版