国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大團(tuán)隊(duì)提出新范式,遞歸似然比梯度優(yōu)化器賦能擴(kuò)散模型后訓(xùn)練

0
分享至



在 AI 視覺生成領(lǐng)域,擴(kuò)散模型(DM)憑借其強(qiáng)大的高保真數(shù)據(jù)生成能力,已成為圖像合成、視頻生成等多模態(tài)任務(wù)的核心框架。然而,預(yù)訓(xùn)練后的擴(kuò)散模型如何高效適配下游應(yīng)用需求,一直是行業(yè)面臨的關(guān)鍵挑戰(zhàn)。近日,北京大學(xué)彭一杰教授團(tuán)隊(duì)在國際頂會(huì) ICLR 2026 上發(fā)表重磅研究,提出遞歸似然比(RLR)優(yōu)化器,為擴(kuò)散模型后訓(xùn)練提供了兼顧效率與性能的半階微調(diào)新方案。該研究第一作者為彭教授指導(dǎo)的博士生任韜,相關(guān)成果已被 ICLR 2026 接收為 oral。



  • 論文鏈接:https://openreview.net/forum?id=AZ6lqcvHLX
  • 開源代碼:https://github.com/RTkenny/RLR-Optimizer



生成效果

現(xiàn)有方法瓶頸凸顯,擴(kuò)散模型后訓(xùn)練亟待突破

擴(kuò)散模型通過遞歸去噪過程生成數(shù)據(jù),其強(qiáng)大的表達(dá)能力依賴于海量數(shù)據(jù)預(yù)訓(xùn)練。但在實(shí)際應(yīng)用中,需要通過后訓(xùn)練對(duì)模型進(jìn)行精準(zhǔn)對(duì)齊,以滿足特定場(chǎng)景的質(zhì)量要求或人類偏好。當(dāng)前主流的后訓(xùn)練方法主要分為兩類:基于強(qiáng)化學(xué)習(xí)(RL)的方法和基于截?cái)喾聪騻鞑ィ˙P)的方法,但兩者均存在顯著缺陷。

截?cái)?BP 方法為降低內(nèi)存開銷,會(huì)終止部分梯度計(jì)算,導(dǎo)致梯度估計(jì)存在結(jié)構(gòu)性偏差,嚴(yán)重時(shí)會(huì)引發(fā)模型崩潰,生成內(nèi)容退化為純?cè)肼暎欢?RL 方法雖能降低內(nèi)存需求,但梯度估計(jì)方差極高,樣本效率低下,訓(xùn)練收斂緩慢。例如,使用全 BP 訓(xùn)練 Stable Diffusion 1.4 僅需 50 個(gè)時(shí)間步就需約 1TB GPU 內(nèi)存,完全不具備實(shí)用價(jià)值;而截?cái)?BP 和 RL 方法又難以兼顧訓(xùn)練穩(wěn)定性與生成質(zhì)量。



截?cái)?BP 導(dǎo)致訓(xùn)練崩潰,獎(jiǎng)勵(lì)曲線在后期快速下降

RLR 優(yōu)化器,實(shí)現(xiàn)無偏低方差梯度估計(jì)

為突破上述困境,彭一杰教授團(tuán)隊(duì)提出遞歸似然比(RLR)優(yōu)化器,創(chuàng)新性地設(shè)計(jì)了半階梯度估計(jì)范式(Half-Order Estimator)。該方法通過利用擴(kuò)散模型固有的噪聲特性,重構(gòu)遞歸擴(kuò)散鏈中的計(jì)算圖,實(shí)現(xiàn)了無偏且低方差的梯度估計(jì),同時(shí)有效平衡了計(jì)算成本與優(yōu)化效果。

RLR 優(yōu)化器的核心設(shè)計(jì)包含三大模塊:

1. 一階估計(jì)模塊:在第一個(gè)時(shí)間步直接對(duì)獎(jiǎng)勵(lì)模型進(jìn)行反向傳播,充分利用模型結(jié)構(gòu)信息,避免黑箱處理帶來的精度損失;

2. 半階優(yōu)化模塊:引入長(zhǎng)度為 h 的局部子鏈,隨機(jī)選擇起始位置,精準(zhǔn)捕捉多尺度視覺信息,同時(shí)最小化方差;

3. 零階估計(jì)模塊:對(duì)剩余時(shí)間步采用參數(shù)擾動(dòng)策略,確保梯度估計(jì)的無偏性,且無需緩存中間潛變量,大幅降低計(jì)算開銷。



算法框架

半階估計(jì)量的核心可控參數(shù)為局部子鏈長(zhǎng)度 h,而h 的取值直接決定了內(nèi)存開銷與梯度方差的此消彼長(zhǎng)關(guān)系,這也是 RLR 優(yōu)化器實(shí)現(xiàn) memory-variance tradeoff 的核心調(diào)控旋鈕。研究團(tuán)隊(duì)將 h 的求解轉(zhuǎn)化為帶內(nèi)存預(yù)算約束的方差最小化優(yōu)化問題,從理論上定量解決了擴(kuò)散模型微調(diào)的內(nèi)存 - 方差的權(quán)衡,為 h 的選擇提供了明確的數(shù)學(xué)依據(jù)。



給定內(nèi)存約束下的方差最小化問題

研究團(tuán)隊(duì)基于該方差最小化問題推導(dǎo)出半階估計(jì)量子鏈長(zhǎng)度 h 的最優(yōu)解析解 h*,并經(jīng)消融實(shí)驗(yàn)驗(yàn)證了工程最優(yōu)取值:理論上 h * 取內(nèi)存約束下最大可行 h 與方差最小化理論最優(yōu) h 的較小值。在 30~40GB 主流 GPU 內(nèi)存預(yù)算(8 張 V100 GPU)下,h=2 為工程黃金取值,該取值可讓半階子鏈捕捉擴(kuò)散鏈關(guān)鍵尺度信息、將整體方差降至飽和區(qū)間,若將 h 增至 3 或 4,單步訓(xùn)練時(shí)間從 1.61 分鐘飆升至 5.65 分鐘、9.23 分鐘,獎(jiǎng)勵(lì)分?jǐn)?shù)卻僅微幅提升,性價(jià)比較低。這一設(shè)計(jì)實(shí)現(xiàn)了內(nèi)存與梯度方差的定量最優(yōu)權(quán)衡,讓 RLR 在有限硬件下兼顧無偏性、低方差與高計(jì)算效率。



無偏性證明

團(tuán)隊(duì)通過嚴(yán)格的理論分析,證明了 RLR 估計(jì)器的無偏性,并給出了方差邊界和收斂速率保證。與現(xiàn)有方法相比,RLR 既解決了截?cái)?BP 的偏差問題,又克服了 RL 方法的高方差缺陷,在計(jì)算效率與優(yōu)化性能之間實(shí)現(xiàn)了最優(yōu)平衡。



收斂性證明

實(shí)驗(yàn)結(jié)果驚艷,圖像視頻生成任務(wù)全面超越 SOTA

為驗(yàn)證 RLR 優(yōu)化器的有效性,團(tuán)隊(duì)在文本到圖像(Text2Image)和文本到視頻(Text2Video)兩大核心任務(wù)上開展了大規(guī)模實(shí)驗(yàn),與 DDPO、AlignProp、VADER 等基于 RL 和截?cái)?BP 的主流方法進(jìn)行了全面對(duì)比。

在 Text2Image 任務(wù)中,基于 Stable Diffusion 1.4 和 2.1 的實(shí)驗(yàn)結(jié)果顯示,RLR 在 PickScore、HPSv2、AES 等多個(gè)人類偏好獎(jiǎng)勵(lì)模型上均取得最高獎(jiǎng)勵(lì)分?jǐn)?shù)。其中,在 HPD v2 數(shù)據(jù)集上,RLR 將 Stable Diffusion 1.4 的 ImageReward 分?jǐn)?shù)從 32.90 提升至 76.55,較 DDPO 提升約 47%,較 AlignProp 提升約 14%。



圖像任務(wù)的測(cè)評(píng)表現(xiàn)

在 Text2Video 任務(wù)的 VBench 基準(zhǔn)測(cè)試中,RLR 在主體一致性、運(yùn)動(dòng)流暢度、動(dòng)態(tài)程度等 6 個(gè)核心指標(biāo)上表現(xiàn)突出,加權(quán)平均分?jǐn)?shù)達(dá)到 84.63,超越了 VideoCrafter、Pika、Gen-2 等開源及 API-based 模型,其中動(dòng)態(tài)程度指標(biāo)達(dá)到 70.69,顯著領(lǐng)先于其他方法的最高值 66.94。



視頻任務(wù)上的測(cè)評(píng)表現(xiàn)

此外,團(tuán)隊(duì)還為 RLR 優(yōu)化器量身設(shè)計(jì)了擴(kuò)散思維鏈提示詞技術(shù),通過將原始提示詞分解為粗、中、細(xì)多尺度提示詞,讓半階子鏈精準(zhǔn)針對(duì)生成缺陷的尺度進(jìn)行梯度更新,進(jìn)一步挖掘 RLR 的性能潛力,在手部生成等細(xì)粒度任務(wù)中實(shí)現(xiàn)了顯著的性能提升。



適配 RLR 優(yōu)化器的擴(kuò)散思維鏈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列專打伊朗“鎮(zhèn)壓機(jī)器”,為巴列維王儲(chǔ)勢(shì)力鋪路

以色列專打伊朗“鎮(zhèn)壓機(jī)器”,為巴列維王儲(chǔ)勢(shì)力鋪路

老馬拉車莫少裝
2026-03-01 21:19:35
1996年,中德兩國對(duì)秦始皇陵做核磁掃描,發(fā)現(xiàn)從未曾被披露的秘密

1996年,中德兩國對(duì)秦始皇陵做核磁掃描,發(fā)現(xiàn)從未曾被披露的秘密

嘆為觀止易
2026-03-09 20:44:19
伊最高領(lǐng)袖外交政策顧問:伊朗已做好 與美以長(zhǎng)期作戰(zhàn)準(zhǔn)備

伊最高領(lǐng)袖外交政策顧問:伊朗已做好 與美以長(zhǎng)期作戰(zhàn)準(zhǔn)備

每日經(jīng)濟(jì)新聞
2026-03-10 08:21:11
水滸中,絕不可交的3個(gè)小人,現(xiàn)實(shí)中就有,遇見了最好敬而遠(yuǎn)之

水滸中,絕不可交的3個(gè)小人,現(xiàn)實(shí)中就有,遇見了最好敬而遠(yuǎn)之

銘記歷史呀
2026-03-09 14:20:57
其實(shí)很多家庭的破產(chǎn)是一個(gè)必然的結(jié)果!網(wǎng)友:君以此興必以此亡

其實(shí)很多家庭的破產(chǎn)是一個(gè)必然的結(jié)果!網(wǎng)友:君以此興必以此亡

另子維愛讀史
2026-03-05 22:56:42
國際油價(jià)突破每桶100美元,“中國比其他國家更能抗壓”

國際油價(jià)突破每桶100美元,“中國比其他國家更能抗壓”

觀察者網(wǎng)
2026-03-09 20:30:06
加盟火箭二隊(duì)后首秀便表現(xiàn)驚艷,土耳其中鋒能否重返NBA賽場(chǎng)?

加盟火箭二隊(duì)后首秀便表現(xiàn)驚艷,土耳其中鋒能否重返NBA賽場(chǎng)?

稻谷與小麥
2026-03-10 09:17:55
美媒:當(dāng)初俄羅斯不該拒絕中國合作請(qǐng)求,如今中國壟斷全球市場(chǎng)

美媒:當(dāng)初俄羅斯不該拒絕中國合作請(qǐng)求,如今中國壟斷全球市場(chǎng)

殘夢(mèng)重生來
2026-01-12 17:43:41
美3小時(shí)連發(fā)6道撤離令!伊朗急電北京,中方回應(yīng)斬釘截鐵

美3小時(shí)連發(fā)6道撤離令!伊朗急電北京,中方回應(yīng)斬釘截鐵

萬物知識(shí)圈
2026-03-06 07:10:34
張學(xué)良最后的兒子走了:替美國造了一輩子火箭,卻幫他爹還了愿

張學(xué)良最后的兒子走了:替美國造了一輩子火箭,卻幫他爹還了愿

寒士之言本尊
2026-01-14 17:24:33
德國人日常三餐曝光!6個(gè)習(xí)慣讓人不去醫(yī)院,國人看完沉默了?

德國人日常三餐曝光!6個(gè)習(xí)慣讓人不去醫(yī)院,國人看完沉默了?

路醫(yī)生健康科普
2026-03-04 12:30:03
伊朗稱已俘虜數(shù)名美軍士兵,美方急了:滿口謊言

伊朗稱已俘虜數(shù)名美軍士兵,美方急了:滿口謊言

觀察者網(wǎng)
2026-03-08 15:05:35
央視官宣孫悟空扮演者執(zhí)導(dǎo)翻拍新版

央視官宣孫悟空扮演者執(zhí)導(dǎo)翻拍新版

歪歌社團(tuán)
2026-03-08 04:07:48
月入過萬?AI寫作48小時(shí)生成500萬字長(zhǎng)篇小說

月入過萬?AI寫作48小時(shí)生成500萬字長(zhǎng)篇小說

3DM游戲
2026-03-09 18:35:07
特朗普一邊說“很快”結(jié)束,一邊威脅打擊“猛烈20倍”

特朗普一邊說“很快”結(jié)束,一邊威脅打擊“猛烈20倍”

新華社
2026-03-10 11:14:06
好萊塢那些驚艷全球,卻“消失”的6位高顏值女星,各有各的原因

好萊塢那些驚艷全球,卻“消失”的6位高顏值女星,各有各的原因

電影爛番茄
2026-03-07 23:55:58
讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

玲兒愛唱歌
2026-03-10 02:17:13
中國女足1-4決賽對(duì)手敲定,晉級(jí)四強(qiáng)+直通世界杯

中國女足1-4決賽對(duì)手敲定,晉級(jí)四強(qiáng)+直通世界杯

徐觳解說
2026-03-10 10:25:35
志愿軍入朝之前,確定了4位帶隊(duì)將領(lǐng),后來為何一個(gè)都沒去成?

志愿軍入朝之前,確定了4位帶隊(duì)將領(lǐng),后來為何一個(gè)都沒去成?

史韻流轉(zhuǎn)
2026-03-10 10:12:14
全國人大代表孫東偉:建議將花生作為油料的主力品種

全國人大代表孫東偉:建議將花生作為油料的主力品種

經(jīng)濟(jì)觀察報(bào)
2026-03-09 17:05:04
2026-03-10 12:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12455文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡 賣“飼料”先掙錢了?

頭條要聞

業(yè)主舉報(bào)違建次日接"鄰居"電話:連我媽在哪打拳都知道

頭條要聞

業(yè)主舉報(bào)違建次日接"鄰居"電話:連我媽在哪打拳都知道

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財(cái)經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

數(shù)碼
親子
教育
旅游
時(shí)尚

數(shù)碼要聞

小米推1199元米家洗衣機(jī)滾筒10kg新品:純平一體設(shè)計(jì),1.25洗凈比

親子要聞

這就是傳說中的黑市嗎?

教育要聞

2026保研機(jī)構(gòu)排名與保研機(jī)構(gòu)對(duì)比:真實(shí)服務(wù)揭秘及保研機(jī)構(gòu)推薦

旅游要聞

AI譜曲留住500年鄉(xiāng)愁 四川瀘縣新溪古街會(huì)“唱歌”了

愛馬仕的暮色時(shí)分有多美?

無障礙瀏覽 進(jìn)入關(guān)懷版