国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

打破確定性魔咒!北航團隊提出VBF++:用“不確定性建模”刷新多模態(tài)視頻推薦 SOTA

0
分享至


作者 | 劉瑞

審校 | 蔡芳芳

論文題目

: VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation

作者單位

: 北京航空航天大學(xué) & 北京郵電大學(xué)

參考代碼

: https://github.com/muhhpu/VBF

痛點:確定性融合的

“不確定性”危機

多模態(tài)視頻推薦系統(tǒng)在捕捉用戶興趣時,需要高效整合視頻的視覺、聽覺和文本特征。然而,現(xiàn)有的主流方法(如基于注意力機制或圖神經(jīng)網(wǎng)絡(luò)的確定性融合方法 [2-3])面臨著一個根本性的挑戰(zhàn):它們傾向于為給定的輸入計算一個單一的、最優(yōu)的權(quán)重向量,將多模態(tài)融合視為尋找“全局唯一最優(yōu)解”的優(yōu)化問題 。

這種“點估計”的策略,在面對真實世界短視頻生態(tài)中的三大“不確定性”時 [5-6],顯得尤為脆弱 :

  • 認知不確定性 (Epistemic Uncertainty): 面對噪聲干擾、模態(tài)缺失或語義模糊的短視頻內(nèi)容時,單一的融合方案往往不夠魯棒,忽略了可能存在的多個合理的融合策略空間 。

  • 上下文無關(guān)的簡單先驗: 現(xiàn)有的變分方法雖然引入了概率建模,但通常假設(shè)視頻內(nèi)容服從相同的簡單分布(如標(biāo)準(zhǔn)高斯分布 )[4],忽略了不同語義類別(如動作片對視覺的依賴 vs. 音樂片對聽覺的依賴)對模態(tài)依賴的結(jié)構(gòu)化差異 。

  • 目標(biāo)錯位 (Objective Misalignment): 傳統(tǒng)變分自編碼器(VAE)優(yōu)化的證據(jù)下界(ELBO)目標(biāo)主要關(guān)注特征重構(gòu)質(zhì)量,而推薦系統(tǒng)追求的是排序準(zhǔn)確性(Ranking)。重構(gòu)得好不等于推薦得準(zhǔn)。

范式革新:VBF++ 將融合從

“點估計”升級為“分布建!

近日,北京航空航天大學(xué)和北京郵電大學(xué)聯(lián)合提出了一種全新的概率化框架—VBF++(Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement)[1]。

VBF++ 的核心思想是將多模態(tài)融合過程重新表述為一個變分推理問題,成功將融合范式從傳統(tǒng)的“點估計”轉(zhuǎn)變?yōu)楦唪敯粜缘摹胺植冀!狈妒健?/p>

該框架認為:每個視頻 Vi 關(guān)聯(lián)一個潛在的隨機融合策略變量 Zi,通過捕捉 Zi 的隨機性,模型能夠量化融合權(quán)重的可信度,保留多種可能的融合解釋。

VBF++ 的整體框架(圖 1)由三大關(guān)鍵組件構(gòu)成,完美解決了上述挑戰(zhàn):

  • 上下文感知的結(jié)構(gòu)化先驗 (Context-Aware Prior);

  • 推薦引導(dǎo)的對抗性優(yōu)化 (Recommendation-Guided Adversarial Refinement, RAR);

  • 基于元學(xué)習(xí)的域適應(yīng) (Meta-Learner)。


圖 1 VBF++ 的分層概率模型框架。包含上下文感知先驗、變分后驗、動態(tài)融合網(wǎng)絡(luò)及對抗優(yōu)化模塊。

VBF++ 三大核心創(chuàng)新點深度解析

結(jié)構(gòu)化先驗:讓模型“見微知著”

為了解決簡單高斯先驗的局限性,VBF++ 設(shè)計了一個可學(xué)習(xí)的混合先驗機制。

它不是簡單地假設(shè)所有視頻都一樣,而是根據(jù)視頻的語義類別(如動作片、音樂片、紀錄片等),動態(tài)調(diào)整融合策略的先驗分布。模型將視頻劃分為

個語義簇,并為每個簇學(xué)習(xí)特定的先驗分布中心 。


圖 2 訓(xùn)練前后融合策略的 t-SNE 可視化。訓(xùn)練后策略自動聚類成有意義的語義群組。

效果驗證:訓(xùn)練后的策略在潛在空間中自動聚類成明顯的語義群組(見圖 2),且這種聚類與視頻內(nèi)容高度一致(見圖 3):

  • 動作類視頻自動賦予視覺模態(tài)更高權(quán)重(平均 0.68)。

  • 音樂類視頻聲學(xué)模態(tài)權(quán)重顯著增加(平均 0.71)。

  • 紀錄片中文本描述的權(quán)重占主導(dǎo)(平均 0.59)。


圖 3 學(xué)習(xí)融合策略與后驗不確定性分析。(a) 模態(tài)權(quán)重分布具有語義適應(yīng)性。(b) 后驗不確定性分析表明,內(nèi)容模糊的視頻具有更高的不確定性。

RAR:用對抗學(xué)習(xí)對齊推薦目標(biāo)

這是 VBF++ 解決“目標(biāo)錯位”的核心利器。

傳統(tǒng)的 ELBO 損失側(cè)重重構(gòu),VBF++ 引入了 RAR (Recommendation-Guided Adversarial Refinement) 范式:


  • 經(jīng)驗回放緩沖區(qū) :首先,模型收集那些推薦損失 較低的、高質(zhì)量的融合策略 。

  • 對抗訓(xùn)練:隨后,引入一個判別器 ,通過對抗性訓(xùn)練強制編碼器(生成器)生成的融合策略分布 逼近這個高質(zhì)量策略的集合 。


簡而言之,RAR 機制顯式地將變分學(xué)習(xí)導(dǎo)向了推薦排序目標(biāo),確保了模型在保持多樣性的同時,生成的策略是真正“好用”的。

元學(xué)習(xí):應(yīng)對冷啟動與快速適應(yīng)

為了適應(yīng)快速變化的短視頻環(huán)境和跨域推薦,VBF++ 集成了元學(xué)習(xí)器(Meta-Learner)。該模塊利用 MAML 思想,通過梯度更新快速調(diào)整模型參數(shù)θ,實現(xiàn)對新內(nèi)容和新領(lǐng)域的快速適應(yīng),有效解決了新內(nèi)容的冷啟動問題。

實驗結(jié)果:刷新 SOTA,

兼顧多樣性與準(zhǔn)確性

實驗與結(jié)果

VBF++ 在 MovieLens-10M、TikTok 和 Kuaishou 三個真實世界數(shù)據(jù)集上進行了全面評估,如表 1。


表 1 VBF++ 與現(xiàn)有 SOTA 方法在三個數(shù)據(jù)集上的性能對比

  • 全面 SOTA:VBF++ 在所有數(shù)據(jù)集和指標(biāo)上均超越了包括 LightGCN、MMGCN、LATTICE 等 14 種現(xiàn)有的基線方法。

  • 稀疏數(shù)據(jù)表現(xiàn):在數(shù)據(jù)稀疏的 TikTok 數(shù)據(jù)集上,相比最先進的 MVideoRec,Precision@10 提升了 4.7% - 8.3%,證明了概率化融合在處理不確定性和噪聲方面的有效性。

  • 跨域適應(yīng)性:在跨域推薦設(shè)置下,VBF++ 相比基線取得了18.0% - 25.2%的顯著提升,驗證了元學(xué)習(xí)與不確定性建模結(jié)合后的強大泛化能力。

策略空間可視化:確定性 vs. 概率性

VBF++ 最大的優(yōu)勢在于保持推薦準(zhǔn)確性的同時,量化了融合策略的可信度。圖 4 展示了傳統(tǒng)注意力機制與 VBF++ 在對同一視頻進行 100 次推理時,其融合策略在潛在空間中的分布差異:


圖 4 傳統(tǒng)注意力機制(左)與 VBF++(右)在同一輸入下的融合策略分布對比。顏色梯度表示策略質(zhì)量。

  • 傳統(tǒng)注意力(左):結(jié)果幾乎坍縮在空間中的同一個點,模型缺乏彈性,無法對融合權(quán)重的可信度進行建模。


  • VBF++(右):策略分布呈現(xiàn)出一個結(jié)構(gòu)化的橢圓置信區(qū)域,圍繞在高質(zhì)量策略中心附近(綠色 / 黃色點)。這證明模型成功學(xué)習(xí)到了一個后驗分布 ,在保留必要探索空間的同時,確保了準(zhǔn)確性。


總結(jié)與展望

VBF++ 成功地為多模態(tài)視頻推薦系統(tǒng)引入了不確定性建模,實現(xiàn)了從確定性點估計到變分貝葉斯融合的范式轉(zhuǎn)變。通過三大創(chuàng)新模塊——上下文感知先驗、推薦引導(dǎo)的對抗優(yōu)化和元學(xué)習(xí),VBF++ 不僅刷新了 SOTA 性能,更生成了具有可解釋性和語義意義的融合策略。這項工作為處理多模態(tài)數(shù)據(jù)中的不確定性和噪聲提供了堅實的理論基礎(chǔ)和有效的解決方案。

參考文獻

Cao, Z., Liu, R., & Chen, Y. (2025). VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation. Beihang University & BUPT.

Wei, Y., Wang, X., Nie, L., He, X., Hong, R., & Chua, T. S. (2019). MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video. Proceedings of the 27th ACM International Conference on Multimedia (MM '19), 1437–1445.

Zhang, C., et al. (2021). Mining Latent Structures for Multimedia Recommendation. Proceedings of the 29th ACM International Conference on Multimedia (MM '21).

Liang, D., Krishnan, R. G., Hoffman, M. D., & Jebara, T. (2018). Variational Autoencoders for Collaborative Filtering. Proceedings of the 2018 World Wide Web Conference (WWW '18), 689–698.

Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. International Conference on Learning Representations (ICLR).

Higgins, I., et al. (2017). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework. International Conference on Learning Representations (ICLR).

會議預(yù)告

12 月 19~20 日,AICon 2025 年度收官站在北京舉辦,F(xiàn)已開啟 9 折優(yōu)惠。

兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場,不容錯過。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
龍珠:一口氣看完角色原型,中國元素真的很多!

龍珠:一口氣看完角色原型,中國元素真的很多!

動漫心世界
2026-01-19 14:13:39
警惕!美媒:衛(wèi)星圖像揭露日本“出云”級艦艇“航母化”改造最新進展

警惕!美媒:衛(wèi)星圖像揭露日本“出云”級艦艇“航母化”改造最新進展

環(huán)球網(wǎng)資訊
2026-01-18 19:14:49
特朗普寫信給挪威首相:不給我諾獎,就別怪我不和平了

特朗普寫信給挪威首相:不給我諾獎,就別怪我不和平了

觀察者網(wǎng)
2026-01-19 17:42:09
不要在心里養(yǎng)一條毒蛇

不要在心里養(yǎng)一條毒蛇

洞見
2026-01-18 20:38:04
超模卡門:77歲被騙光積蓄,83歲仍有性生活,91歲雙腿依舊迷人

超?ㄩT:77歲被騙光積蓄,83歲仍有性生活,91歲雙腿依舊迷人

豐譚筆錄
2025-12-11 11:41:19
《瘋狂動物城2》票房超120億,奪得全球亞軍,《哪吒2》無可撼動

《瘋狂動物城2》票房超120億,奪得全球亞軍,《哪吒2》無可撼動

影視高原說
2026-01-19 19:22:02
77年來首次,歷史性的一幕發(fā)生,德國總理下定決心,必須要去中國

77年來首次,歷史性的一幕發(fā)生,德國總理下定決心,必須要去中國

近史博覽
2026-01-19 14:36:36
0-3出局?各國球迷熱議U23亞洲半決賽,看好越南進決賽,坐等打臉

0-3出局?各國球迷熱議U23亞洲半決賽,看好越南進決賽,坐等打臉

大秦壁虎白話體育
2026-01-20 09:13:37
皇馬要賣了!巴西天王 “已同意” 加盟藍軍,1.5 億歐創(chuàng)隊史紀錄

皇馬要賣了!巴西天王 “已同意” 加盟藍軍,1.5 億歐創(chuàng)隊史紀錄

奶蓋熊本熊
2026-01-20 04:50:06
1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

滄海旅行家
2026-01-17 14:05:11
葉文斌,找到了!

葉文斌,找到了!

中國新聞周刊
2026-01-19 15:47:29
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
當(dāng)年藥廠抓了譚秦東,但這次西貝不可能抓羅永浩了?

當(dāng)年藥廠抓了譚秦東,但這次西貝不可能抓羅永浩了?

芳華青年
2026-01-19 20:55:13
丹麥放話不再接受中國投資,不到3天,特朗普反手一記悶棍

丹麥放話不再接受中國投資,不到3天,特朗普反手一記悶棍

阿天愛旅行
2026-01-20 11:07:40
戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

小娛樂悠悠
2026-01-20 10:30:06
動物交配六親不認,若雄性遇上自己母親呢?馬不欺母是不是真的?

動物交配六親不認,若雄性遇上自己母親呢?馬不欺母是不是真的?

答案在這兒
2025-12-05 01:58:07
扎心了!原來只要失業(yè),所有人都一樣!網(wǎng)友分享越看越心涼 太難了

扎心了!原來只要失業(yè),所有人都一樣!網(wǎng)友分享越看越心涼 太難了

有趣的火烈鳥
2025-12-31 20:39:06
梁小龍生前深愛的兩個女人,一個毀容他不走,一個平淡他守到底

梁小龍生前深愛的兩個女人,一個毀容他不走,一個平淡他守到底

趣味八卦
2026-01-20 10:56:45
春節(jié)檔看《鏢人》,直接統(tǒng)一全家審美

春節(jié)檔看《鏢人》,直接統(tǒng)一全家審美

閑人電影
2026-01-19 20:00:59
亞洲最大的飛機墳場,藏于中國一小縣城里,停放數(shù)量僅次于美國?

亞洲最大的飛機墳場,藏于中國一小縣城里,停放數(shù)量僅次于美國?

顧史
2026-01-19 20:21:12
2026-01-20 12:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1257文章數(shù) 109關(guān)注度
往期回顧 全部

科技要聞

去年預(yù)虧60億后再投百億 兩大車企緊抱華為

頭條要聞

貝克漢姆長子發(fā)長文公開指責(zé)父母:試圖破壞我的婚姻

頭條要聞

貝克漢姆長子發(fā)長文公開指責(zé)父母:試圖破壞我的婚姻

體育要聞

新的時代!東契奇生涯首奪全明星票王 此前10年詹姆斯7次奪魁

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

2026年,7個趨勢正在爆發(fā)

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

教育
游戲
數(shù)碼
公開課
軍事航空

教育要聞

揭曉!華中科技大學(xué)2025屆畢業(yè)生,都去哪兒了?

索尼爆了!《馬拉松》預(yù)購首日直接Steam熱銷前五!

數(shù)碼要聞

1399元小米兒童手表發(fā)布:5MP + 8MP高清翻轉(zhuǎn)雙攝,藍紫雙色可選

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

古美關(guān)系高度緊張 古巴啟動"戰(zhàn)爭狀態(tài)"

無障礙瀏覽 進入關(guān)懷版