国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科聯(lián)合快手可靈提出高效強化學習后訓練擴散模型新范式

0
分享至



在使用強化學習(RL)微調擴散模型(如 Stable Diffusion, Flux)以對齊人類偏好時,我們常面臨一個棘手的 “兩難困境”:追求高獎勵會導致圖像質量崩壞(即 Reward Hacking),而為了防止崩壞引入的 KL 正則化又會嚴重阻礙模型的探索和收斂。

最近,來自于香港科技大學,快手可靈 AI,港中文以及愛丁堡大學的研究團隊提出了一種全新的框架 GARDO。它通過門控自適應正則化和多樣性感知優(yōu)化,成功在防止 Reward Hacking 的同時,實現(xiàn)了高效的樣本探索和多樣性生成。研究工作已經(jīng)全面開源。

論文第一作者何浩然是香港科技大學博士生,研究方向包括強化學習和多模態(tài)基礎模型等,研究目標是開發(fā)下一代可擴展強化學習后訓練算法。通訊作者為香港科技大學電子及計算機工程系、計算機科學與工程系助理教授潘玲。



  • 論文標題:GARDO: Reinforcing Diffusion Models without Reward Hacking
  • 項目主頁:https://tinnerhrhe.github.io/gardo_project
  • 論文鏈接:https://arxiv.org/pdf/2512.24138

背景與動機:RL 后訓練中的陷阱

強化學習(RL)在視覺領域的后訓練中展現(xiàn)出了不錯的效果,逐漸成為當前研究的熱點。最近半年,如 flow-grpo,dancegrpo 以及 DiffusionNFT 等工作受到了大家廣泛關注。

然而,在視覺任務中,定義一個完美的 “獎勵函數(shù)(Reward Function)” 極其困難。我們通常使用的是一個代理獎勵(Proxy Reward),例如 ImageReward、Aesthetic Score 或者 OCR 識別率。

這就導致了一個典型的問題:Reward Hacking。當模型過度優(yōu)化這個代理獎勵時,它會找到獎勵模型的漏洞(Out-of-Distribution, OOD 區(qū)域)。結果就是,代理分數(shù)(Proxy Score)極高,但生成的圖像充滿了噪點、偽影,甚至完全失去了真實感。



Reward Hacking 定義

下面展示文生圖出現(xiàn) hacking 的例子:



為了解決這個問題,傳統(tǒng)方法(如 DPOK, Flow-GRPO)通常引入 KL 散度正則化,強迫微調后的策略 π_θ 不要偏離原始參考策略 π_ref 太遠。但研究團隊發(fā)現(xiàn),這種 “一刀切” 的 KL 正則化帶來了新的問題:

  1. 樣本效率低:RL 目標函數(shù)會被 KL 懲罰項的 π_ref 拖后腿,學習速度變慢。
  2. 阻礙探索:π_ref 本身通常是次優(yōu)的,強制 π_θ 貼近它會阻止模型探索那些參考模型 π_ref 未發(fā)現(xiàn)的高獎勵區(qū)域。

核心問題來了,能否在不犧牲樣本效率和探索能力的前提下,防止 Reward Hacking?

GARDO:門控、自適應與多樣性

為了打破上述困境,作者提出了GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization) 框架



GARDO 方法概覽圖

KL-regularized RL 的最優(yōu)解可以寫成:







基于上述觀察,GARDO 的框架基于三個核心洞察:

洞察一:正則化不需要 “雨露均沾”

方法:門控 KL 機制 (Gated KL Mechanism)

根據(jù)定義 1,只有當模型 π_θ 生成的樣本落在代理獎勵不可靠的區(qū)域(即 OOD 區(qū)域)時,才真正需要 KL 正則化。對于那些既高質量又在分布內的樣本,施加懲罰只會阻礙學習。

GARDO 引入了不確定性估計(通過獎勵模型集成 ranking 差異來衡量)。





  • 做法:只對那些具有高不確定性 (Reward Model 拿不準,可能是 Hacking)的樣本施加 KL 懲罰。
  • 效果:實驗發(fā)現(xiàn),僅對約 10% 的高不確定性樣本進行懲罰,就足以有效防止 Reward Hacking,讓其余 90% 的樣本自由探索。從而實現(xiàn)在不犧牲樣本效率的情況下,有效抑制 hacking 現(xiàn)象的出現(xiàn)。

洞察二:靜態(tài)的 π_ref 會限制 RL 優(yōu)化的上限

方法:自適應正則化目標 (Adaptive Regularization Target)

如果 π_ref 一直不變,隨著 π_θ 的變強,KL 懲罰會主導整個 learning Loss,導致優(yōu)化停滯。

  • 做法:定期更新 Reference Model π_ref(將其重置為當前的策略)。
  • 效果:這就像給模型設立了動態(tài)更新的 “錨點”,既保證了訓練的穩(wěn)定性,又允許模型持續(xù)進化,探索更廣闊的空間。

洞察三:RL 容易 mode collapse,需要鼓勵多樣性生成

方法:多樣性感知優(yōu)勢重塑 (Diversity-Aware Advantage Shaping)

RL 訓練容易導致 Mode Collapse(模式坍塌),即模型發(fā)現(xiàn)一種高分畫法后就只會畫這一種。這不僅降低了生成質量,也加劇了 Reward Hacking。

  • 做法:利用 DINOv3 提取特征,計算樣本在特征空間中的稀疏度作為 “多樣性分數(shù)”。將此分數(shù)以乘法形式作用于優(yōu)勢函數(shù)(Advantage)。



  • 注意:只獎勵那些既有正向優(yōu)勢(高質量)又具有高多樣性的樣本,防止模型為了多樣性而生成亂七八糟的東西。

研究團隊在高斯混合分布(預訓練分布)上訓練了一個包含三層 MLP 的擴散模型,目標是捕捉獎勵景觀中所示的多模態(tài)高獎勵聚類。使用較大 KL 系數(shù) β 的傳統(tǒng)強化學習方法約束過強,無法提升獎勵。與之相對,過小的 β 則會導致嚴重的模式坍縮。團隊提出的多樣性感知優(yōu)化方法單獨使用時,已成功捕捉到多模態(tài)聚類,包括參考策略 π_ref 中概率密度最低的中心聚類。而團隊提出的完整的 GARDO 框架則能同時實現(xiàn)獎勵最大化并發(fā)現(xiàn)所有高獎勵聚類。



實驗結果:全方位的提升

作者在 SD3.5-Medium 和 Flux.1-dev 等多個基底模型上,針對不同的獎勵任務(GenEval, OCR, Aesthetic 等)和不同的 RL 算法(flow-grpo,DiffusioNFT 等)進行了廣泛實驗。

定量評估

相比于 Flow-GRPO 等基線方法,GARDO 展現(xiàn)了顯著的優(yōu)勢:

  1. 拒絕 Hacking:在 OCR 等易被 Hack 的任務中,GARDO 在保持高識別率的同時,圖像質量指標(如 Aesthetic, PickScore)沒有下降,甚至有所提升。
  2. 樣本效率:學習曲線顯示,GARDO 能夠以更少的步數(shù)達到更高的獎勵水平。
  3. 泛化性:在未見過的測試指標上(Unseen Metrics),GARDO 表現(xiàn)出極強的魯棒性。



GARDO 和 baseline 在不同 metric 上的表現(xiàn)。訓練優(yōu)化代理任務黃色高亮。



涌現(xiàn)能力

最令人印象深刻的是 GARDO 激發(fā)了模型的涌現(xiàn)能力(Emergent Behavior)。

在極具挑戰(zhàn)性的 “數(shù)數(shù)任務”(生成特定數(shù)量的物體)中,基底模型和傳統(tǒng) RL 方法很難生成超過 9 個物體。

而 GARDO 成功學會了生成 10 個甚至 11 個物體。



總結

GARDO 針對擴散模型 RL 后訓練中的痛點,提出以下解決方案:

  • 拒絕盲目正則化 →→ 門控 KL(只懲罰不可靠的)
  • 拒絕靜態(tài)錨點 →→ 自適應更新(不斷提升上限)
  • 拒絕模式坍塌 →→ 多樣性感知(鼓勵百花齊放)

這項工作證明了:在視覺生成的強化學習中,精準的控制比強力的約束更重要。對于希望利用 RL 進一步釋放擴散模型潛力的研究者和開發(fā)者來說,GARDO 提供了一個極具價值的通用框架。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
oppo、vivo 怎么突然就不挨罵了?因為它們先“下桌”了

oppo、vivo 怎么突然就不挨罵了?因為它們先“下桌”了

小兔子發(fā)現(xiàn)大事情
2026-01-26 00:01:16
“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關系

“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關系

有書
2026-01-09 21:30:59
深圳這晚,黃宗澤風衣拖地,阿那如穿深V,全敗給一73歲“老頭”

深圳這晚,黃宗澤風衣拖地,阿那如穿深V,全敗給一73歲“老頭”

大鐵貓娛樂
2026-01-23 13:05:03
日本AV女演員生存實錄:日工作14小時,她們最后都嫁給了誰?

日本AV女演員生存實錄:日工作14小時,她們最后都嫁給了誰?

蔚藍的珊瑚海
2025-12-30 23:01:24
我國的“斤”用了3000年,為何與國際接軌后,恰好相當于500克?

我國的“斤”用了3000年,為何與國際接軌后,恰好相當于500克?

鶴羽說個事
2026-01-24 14:02:31
整天開會有啥必要?

整天開會有啥必要?

北京老付
2026-01-20 10:59:33
上海過江隧道突發(fā)事故 超高車闖入損設備 連夜封控搶修 官方連發(fā)通報

上海過江隧道突發(fā)事故 超高車闖入損設備 連夜封控搶修 官方連發(fā)通報

古裝影視解說阿兇
2026-01-26 11:07:04
維多利亞現(xiàn)身前隊友50歲派對,兒子曾公開抨擊家族不和

維多利亞現(xiàn)身前隊友50歲派對,兒子曾公開抨擊家族不和

少年仍需努力
2026-01-26 09:04:11
1月26日下午,國足楊希王鈺棟李瑋鋒傳來新消息

1月26日下午,國足楊希王鈺棟李瑋鋒傳來新消息

老淸醫(yī)學科普
2026-01-26 13:36:12
中到大雪馬上到安徽

中到大雪馬上到安徽

黃河新聞網(wǎng)呂梁頻道
2026-01-26 14:12:24
錢再多也沒用,林子祥葉倩文如今現(xiàn)狀,給“老少戀”夫妻提了個醒

錢再多也沒用,林子祥葉倩文如今現(xiàn)狀,給“老少戀”夫妻提了個醒

查爾菲的筆記
2026-01-24 20:06:02
當場發(fā)現(xiàn)!乘客付了61.58元,司機端顯示乘客支付49.49元!

當場發(fā)現(xiàn)!乘客付了61.58元,司機端顯示乘客支付49.49元!

網(wǎng)約車焦點
2026-01-25 10:05:15
英國在等訪華,中方突然發(fā)邀請,事前無風聲,一國專機三天后抵京

英國在等訪華,中方突然發(fā)邀請,事前無風聲,一國專機三天后抵京

愛看劇的阿峰
2026-01-25 15:15:33
原來有這么多工作需要保密!網(wǎng)友:犧牲12年的爸爸竟然回來了!

原來有這么多工作需要保密!網(wǎng)友:犧牲12年的爸爸竟然回來了!

另子維愛讀史
2026-01-16 18:29:22
連續(xù)兩場DNP 53分火箭舊將被泰倫盧廢了 在快船難有出頭之日

連續(xù)兩場DNP 53分火箭舊將被泰倫盧廢了 在快船難有出頭之日

林子說事
2026-01-26 13:23:37
張雨綺蕾絲透視裝太絕!這身材這氣場,男人看了都心跳加速?

張雨綺蕾絲透視裝太絕!這身材這氣場,男人看了都心跳加速?

娛樂領航家
2026-01-25 22:30:03
報告解讀丨今年北京將在3000個小區(qū)設置智能回收機

報告解讀丨今年北京將在3000個小區(qū)設置智能回收機

新京報
2026-01-25 20:00:07
朱珠和爸似雙胞胎,梨渦神同步,高顏值基因太強大!

朱珠和爸似雙胞胎,梨渦神同步,高顏值基因太強大!

科學發(fā)掘
2026-01-25 02:38:37
平心而論,王欣瑜和阿尼西莫娃這場以柔克剛的比賽,能突破嗎?

平心而論,王欣瑜和阿尼西莫娃這場以柔克剛的比賽,能突破嗎?

田先生籃球
2026-01-26 12:24:17
37分大勝!哈登19+6+8,賽后泰倫盧擁抱鮑爾默,小卡直接走入通道

37分大勝!哈登19+6+8,賽后泰倫盧擁抱鮑爾默,小卡直接走入通道

擔酒
2026-01-26 12:25:07
2026-01-26 15:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12192文章數(shù) 142549關注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

伊朗最高領袖哈梅內伊轉入地堡 日常事務交由兒子接管

頭條要聞

伊朗最高領袖哈梅內伊轉入地堡 日常事務交由兒子接管

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被實名舉報代孕、插足婚姻

財經(jīng)要聞

從美式斬殺線看中國社會的制度韌性構建

汽車要聞

賓利第四臺Batur敞篷版發(fā)布 解鎖四項定制創(chuàng)新

態(tài)度原創(chuàng)

健康
教育
時尚
房產(chǎn)
數(shù)碼

耳石脫落為何讓人天旋地轉+惡心?

教育要聞

“把這種視頻發(fā)網(wǎng)上,真是好媽”,女兒的尊嚴被扒的一絲不剩

伊姐周日熱推:電視劇《太平年》;電視劇《暗戀者的救贖》......

房產(chǎn)要聞

6大碾壓級優(yōu)勢!2025?谧顝姇縼砹!

數(shù)碼要聞

榮耀平板PC級WPS大改進:支持小窗使用、窗口大小調節(jié)等特性

無障礙瀏覽 進入關懷版