国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DPO「只看總分不看細(xì)節(jié)」?TI-DPO用Token重要性重塑大模型對(duì)齊

0
分享至



在當(dāng)今的大模型后訓(xùn)練(Post-training)階段,DPO(直接偏好優(yōu)化) 憑借其無需訓(xùn)練獨(dú)立 Reward Model 的優(yōu)雅設(shè)計(jì)和高效性,成功取代 PPO 成為業(yè)界的 「版本之子」,被廣泛應(yīng)用于 Llama-3、Mistral 等頂流開源模型的對(duì)齊中。

然而,隨著對(duì)模型能力要求的日益嚴(yán)苛,DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學(xué)會(huì)「去偽存真」,精準(zhǔn)識(shí)別出那些真正決定勝負(fù)的 Critical Tokens?

針對(duì)這一問題,來自中國科學(xué)院自動(dòng)化研究所、字節(jié)跳動(dòng)、微軟亞洲研究院和北京科技大學(xué)的研究者們?cè)诒贿x為 ICLR 2026 Oral 的新工作中聯(lián)合提出了一種全新的 TI-DPO 框架。



  • 論文:《Token-Importance Guided Direct Preference Optimization》
  • 論文地址:https://arxiv.org/abs/2505.19653
  • 開源地址:https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個(gè)核心難題,這使得模型難以實(shí)現(xiàn)真正精細(xì)化的語義控制:

  • 痛點(diǎn)一:序列級(jí)的「二元對(duì)立」陷阱。傳統(tǒng)方法依然停留在序列級(jí)別(Sequence-level)的粗粒度優(yōu)化上,簡(jiǎn)單粗暴地將數(shù)據(jù)劃分為好與壞。這種二元監(jiān)督信號(hào)極度匱乏,因?yàn)樗谏w高質(zhì)量回復(fù)中可能混雜著瑕疵 Token 的事實(shí),導(dǎo)致了模型在連續(xù)語義空間中微調(diào)效果差,甚至引發(fā)采樣分布偏移(Distribution Shift)。
  • 痛點(diǎn)二:被偏差綁架的「?jìng)巍怪匾?/strong>。即使試圖下沉到 Token 級(jí)別,現(xiàn)有的重要性評(píng)估手段也存在問題。許多方法依賴概率預(yù)測(cè)或簡(jiǎn)單加權(quán),這導(dǎo)致它們直接繼承了模型架構(gòu)的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關(guān)注首尾 Token 而忽略中間的核心語義。

TI-DPO 的核心機(jī)制

TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權(quán)」。 通過引入混合加權(quán)機(jī)制和三元組損失,TI-DPO 能夠精準(zhǔn)識(shí)別并放大「關(guān)鍵 Token」的信號(hào),同時(shí)抑制噪聲,從而實(shí)現(xiàn)比傳統(tǒng) DPO 更準(zhǔn)、更穩(wěn)的對(duì)齊效果。它主要包含兩大核心機(jī)制:

1. 混合加權(quán)機(jī)制 (Hybrid Weighting)

為了找出誰才是決定回復(fù)質(zhì)量的「勝負(fù)手」,TI-DPO 設(shè)計(jì)了一套數(shù)據(jù)驅(qū)動(dòng)與先驗(yàn)結(jié)構(gòu)相結(jié)合的權(quán)重計(jì)算法:

  • 梯度歸因:計(jì)算 Loss 對(duì)每個(gè) Token Embedding 的梯度范數(shù)。簡(jiǎn)單來說,誰對(duì)最終輸出貢獻(xiàn)大,誰的權(quán)重就高。
  • 高斯先驗(yàn):針對(duì) LLM 常見的「U 型注意力偏差」(過度關(guān)注開頭結(jié)尾),引入高斯分布強(qiáng)制模型關(guān)注中間的語義核心。

最終的 Token 權(quán)重 ,是這兩者的凸組合:



新的 Token 級(jí) DPO 加權(quán)損失函數(shù)如下:



2. 三元組損失 (Triplet Loss)

TI-DPO 不再滿足于非黑即白的二元對(duì)比,而是引入了度量學(xué)習(xí)中的神器Triplet Loss。它在訓(xùn)練過程中構(gòu)建了三個(gè)角色:







TI-DPO 損失函數(shù):TI-DPO 的最終優(yōu)化目標(biāo)便是兩者的加權(quán)和:



實(shí)驗(yàn)結(jié)果

為了驗(yàn)證 TI-DPO 的實(shí)際戰(zhàn)力,研究團(tuán)隊(duì)在 Llama-3 (8B/3B) 和 Mistral-7B 等多個(gè)主流基座模型上進(jìn)行了測(cè)試,對(duì)比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對(duì)齊算法。

1. 綜合能力評(píng)估

如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達(dá)到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



2. 細(xì)分領(lǐng)域表現(xiàn)優(yōu)秀

在 IFEval(指令遵循)、TruthfulQA(真實(shí)性)和 HumanEval(代碼生成) 這三大最考驗(yàn)細(xì)節(jié)把握的任務(wù)上,TI-DPO 的表現(xiàn)大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融實(shí)驗(yàn):核心組件缺一不可

Table 2 的消融實(shí)驗(yàn)結(jié)果表明,TI-DPO 的所有核心組件(包括混合加權(quán)機(jī)制、高斯先驗(yàn)和三元組損失)對(duì)于模型性能都至關(guān)重要,移除任意模塊均會(huì)導(dǎo)致在通用能力、數(shù)學(xué)推理及代碼生成等各項(xiàng)指標(biāo)上的顯著下降。



4. 案例展示:一眼看懂「關(guān)鍵 Token」

為了驗(yàn)證 TI-DPO 是否真的學(xué)會(huì)了「抓重點(diǎn)」,作者展示了一個(gè)醫(yī)療咨詢案例(「頭痛該怎么辦?」)的權(quán)重可視化熱力圖。

  • 在 Preferred 回復(fù)中(左):模型給「seek medical attention」和「promptly」分配了極高的權(quán)重(紅色深色區(qū)域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回復(fù)中(右):模型精準(zhǔn)「抓包」了「painkillers casually」這種潛在的高風(fēng)險(xiǎn)建議,并賦予高權(quán)重加以懲罰。
  • Intermediate Response是模型當(dāng)前的自我水平:「建議多休息,如果惡化再看醫(yī)生」。TI-DPO 引導(dǎo)模型在生成過程中,不斷向 Preferred 的價(jià)值觀靠攏,同時(shí)規(guī)避 Non-preferred 的陷阱,從而完成從粗放向精細(xì)的進(jìn)化。



這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價(jià)值觀。

總結(jié)與貢獻(xiàn)

TI-DPO 的提出,為大模型對(duì)齊從粗放的序列級(jí)優(yōu)化向更精細(xì)的 Token 級(jí)控制轉(zhuǎn)變提供了一個(gè)有力的嘗試。它不再滿足于籠統(tǒng)地判斷回答的「好壞」,而是試圖厘清每一個(gè) Token 在價(jià)值對(duì)齊中的真實(shí)貢獻(xiàn)。

實(shí)驗(yàn)結(jié)果表明,TI-DPO 在指令遵循、真實(shí)性與代碼生成等任務(wù)上,相比 GRPO 等基線取得了穩(wěn)定的性能提升,驗(yàn)證了提升數(shù)據(jù)利用的「顆粒度」是增強(qiáng)模型能力的有效路徑。

TI-DPO 以其在去噪和細(xì)節(jié)控制上的特性,為后續(xù)的 RLHF 研究提供了一個(gè)值得關(guān)注的新方向。我們期待看到更多圍繞「細(xì)粒度價(jià)值對(duì)齊」的探索,推動(dòng)大模型向著更精準(zhǔn)、更可控的方向進(jìn)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國際油價(jià)飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

國際油價(jià)飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-20 06:46:08
戛納最野開幕片:一對(duì)夫妻的24小時(shí),女兒全程目擊

戛納最野開幕片:一對(duì)夫妻的24小時(shí),女兒全程目擊

影視情報(bào)室
2026-04-18 19:35:20
“愛奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

“愛奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

第一財(cái)經(jīng)資訊
2026-04-20 17:24:18
余承東:我們成本扛不住了,希望大家早點(diǎn)購買

余承東:我們成本扛不住了,希望大家早點(diǎn)購買

映射生活的身影
2026-04-20 21:53:17
澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
7歲男孩高燒直沖40℃,渾身“黑化”面臨截肢,只因父母一個(gè)疏忽……武漢醫(yī)生提醒:這種病早期和感冒很像

7歲男孩高燒直沖40℃,渾身“黑化”面臨截肢,只因父母一個(gè)疏忽……武漢醫(yī)生提醒:這種病早期和感冒很像

環(huán)球網(wǎng)資訊
2026-04-20 19:07:08
MVP選票結(jié)果流出!!他居然才1票?。。?!

MVP選票結(jié)果流出??!他居然才1票啊?。。?/a>

柚子說球
2026-04-20 22:29:11
反打7-0!威爾遜七連鞭逆轉(zhuǎn)斯坦穆迪,世界第二闖進(jìn)世錦賽16強(qiáng)!

反打7-0!威爾遜七連鞭逆轉(zhuǎn)斯坦穆迪,世界第二闖進(jìn)世錦賽16強(qiáng)!

世界體壇觀察家
2026-04-21 04:54:52
睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機(jī)這4處

睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機(jī)這4處

洞見小能手
2026-04-20 16:03:26
將對(duì)決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

將對(duì)決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

風(fēng)過鄉(xiāng)
2026-04-20 19:41:28
“按按鈕就行”:官媒的“大國工匠”是如何失誤的?

“按按鈕就行”:官媒的“大國工匠”是如何失誤的?

虔青
2026-04-20 13:25:48
揭開“白左圣母”的真面目

揭開“白左圣母”的真面目

名人茍或
2026-04-20 07:08:34
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

桑啟紅原
2026-04-20 20:19:05
伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時(shí),中方表態(tài)

伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時(shí),中方表態(tài)

離離言幾許
2026-04-20 22:15:30
日本一觀光直升機(jī)墜入火山口,2名中國臺(tái)灣游客與1名日本機(jī)長失蹤已3月,日媒稱生還可能性極低,擬動(dòng)用無人機(jī)重機(jī)具進(jìn)入火口作業(yè)

日本一觀光直升機(jī)墜入火山口,2名中國臺(tái)灣游客與1名日本機(jī)長失蹤已3月,日媒稱生還可能性極低,擬動(dòng)用無人機(jī)重機(jī)具進(jìn)入火口作業(yè)

大風(fēng)新聞
2026-04-20 15:11:31
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

項(xiàng)鵬飛
2026-04-20 20:13:15
澳華人美女網(wǎng)紅走光照瘋傳!靠成人平臺(tái)吸粉百萬,怒買數(shù)十套房,實(shí)現(xiàn)“經(jīng)濟(jì)自由”!

澳華人美女網(wǎng)紅走光照瘋傳!靠成人平臺(tái)吸粉百萬,怒買數(shù)十套房,實(shí)現(xiàn)“經(jīng)濟(jì)自由”!

澳洲紅領(lǐng)巾
2026-04-20 13:44:46
中央層面整治形式主義為基層減負(fù)專項(xiàng)工作機(jī)制辦公室 中央紀(jì)委辦公廳公開通報(bào)4起整治形式主義為基層減負(fù)典型問題

中央層面整治形式主義為基層減負(fù)專項(xiàng)工作機(jī)制辦公室 中央紀(jì)委辦公廳公開通報(bào)4起整治形式主義為基層減負(fù)典型問題

新華社
2026-04-20 17:44:02
出手扣下兩批軍火,又一個(gè)歐洲國家,加入制裁以色列的行列中

出手扣下兩批軍火,又一個(gè)歐洲國家,加入制裁以色列的行列中

空天力量
2026-04-20 17:09:18
《我在故宮修文物》導(dǎo)演去世,享年43歲

《我在故宮修文物》導(dǎo)演去世,享年43歲

界面新聞
2026-04-20 12:37:14
2026-04-21 06:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
時(shí)尚
手機(jī)
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實(shí)用又不過時(shí)

手機(jī)要聞

華為Pura X Max發(fā)布:搭載麒麟9030 Pro芯片,起售價(jià)10999元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個(gè)洞

無障礙瀏覽 進(jìn)入關(guān)懷版