国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DPO「只看總分不看細(xì)節(jié)」?TI-DPO用Token重要性重塑大模型對齊

0
分享至



在當(dāng)今的大模型后訓(xùn)練(Post-training)階段,DPO(直接偏好優(yōu)化) 憑借其無需訓(xùn)練獨(dú)立 Reward Model 的優(yōu)雅設(shè)計和高效性,成功取代 PPO 成為業(yè)界的 「版本之子」,被廣泛應(yīng)用于 Llama-3、Mistral 等頂流開源模型的對齊中。

然而,隨著對模型能力要求的日益嚴(yán)苛,DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學(xué)會「去偽存真」,精準(zhǔn)識別出那些真正決定勝負(fù)的 Critical Tokens?

針對這一問題,來自中國科學(xué)院自動化研究所、字節(jié)跳動、微軟亞洲研究院和北京科技大學(xué)的研究者們在被選為 ICLR 2026 Oral 的新工作中聯(lián)合提出了一種全新的 TI-DPO 框架。



  • 論文:《Token-Importance Guided Direct Preference Optimization》
  • 論文地址:https://arxiv.org/abs/2505.19653
  • 開源地址:https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個核心難題,這使得模型難以實現(xiàn)真正精細(xì)化的語義控制:

  • 痛點(diǎn)一:序列級的「二元對立」陷阱。傳統(tǒng)方法依然停留在序列級別(Sequence-level)的粗粒度優(yōu)化上,簡單粗暴地將數(shù)據(jù)劃分為好與壞。這種二元監(jiān)督信號極度匱乏,因為它掩蓋高質(zhì)量回復(fù)中可能混雜著瑕疵 Token 的事實,導(dǎo)致了模型在連續(xù)語義空間中微調(diào)效果差,甚至引發(fā)采樣分布偏移(Distribution Shift)。
  • 痛點(diǎn)二:被偏差綁架的「偽」重要性。即使試圖下沉到 Token 級別,現(xiàn)有的重要性評估手段也存在問題。許多方法依賴概率預(yù)測或簡單加權(quán),這導(dǎo)致它們直接繼承了模型架構(gòu)的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關(guān)注首尾 Token 而忽略中間的核心語義。

TI-DPO 的核心機(jī)制

TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權(quán)」。 通過引入混合加權(quán)機(jī)制和三元組損失,TI-DPO 能夠精準(zhǔn)識別并放大「關(guān)鍵 Token」的信號,同時抑制噪聲,從而實現(xiàn)比傳統(tǒng) DPO 更準(zhǔn)、更穩(wěn)的對齊效果。它主要包含兩大核心機(jī)制:

1. 混合加權(quán)機(jī)制 (Hybrid Weighting)

為了找出誰才是決定回復(fù)質(zhì)量的「勝負(fù)手」,TI-DPO 設(shè)計了一套數(shù)據(jù)驅(qū)動與先驗結(jié)構(gòu)相結(jié)合的權(quán)重計算法:

  • 梯度歸因:計算 Loss 對每個 Token Embedding 的梯度范數(shù)。簡單來說,誰對最終輸出貢獻(xiàn)大,誰的權(quán)重就高。
  • 高斯先驗:針對 LLM 常見的「U 型注意力偏差」(過度關(guān)注開頭結(jié)尾),引入高斯分布強(qiáng)制模型關(guān)注中間的語義核心。

最終的 Token 權(quán)重 ,是這兩者的凸組合:



新的 Token 級 DPO 加權(quán)損失函數(shù)如下:



2. 三元組損失 (Triplet Loss)

TI-DPO 不再滿足于非黑即白的二元對比,而是引入了度量學(xué)習(xí)中的神器Triplet Loss。它在訓(xùn)練過程中構(gòu)建了三個角色:







TI-DPO 損失函數(shù):TI-DPO 的最終優(yōu)化目標(biāo)便是兩者的加權(quán)和:



實驗結(jié)果

為了驗證 TI-DPO 的實際戰(zhàn)力,研究團(tuán)隊在 Llama-3 (8B/3B) 和 Mistral-7B 等多個主流基座模型上進(jìn)行了測試,對比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對齊算法。

1. 綜合能力評估

如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達(dá)到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



2. 細(xì)分領(lǐng)域表現(xiàn)優(yōu)秀

在 IFEval(指令遵循)、TruthfulQA(真實性)和 HumanEval(代碼生成) 這三大最考驗細(xì)節(jié)把握的任務(wù)上,TI-DPO 的表現(xiàn)大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融實驗:核心組件缺一不可

Table 2 的消融實驗結(jié)果表明,TI-DPO 的所有核心組件(包括混合加權(quán)機(jī)制、高斯先驗和三元組損失)對于模型性能都至關(guān)重要,移除任意模塊均會導(dǎo)致在通用能力、數(shù)學(xué)推理及代碼生成等各項指標(biāo)上的顯著下降。



4. 案例展示:一眼看懂「關(guān)鍵 Token」

為了驗證 TI-DPO 是否真的學(xué)會了「抓重點(diǎn)」,作者展示了一個醫(yī)療咨詢案例(「頭痛該怎么辦?」)的權(quán)重可視化熱力圖。

  • 在 Preferred 回復(fù)中(左):模型給「seek medical attention」和「promptly」分配了極高的權(quán)重(紅色深色區(qū)域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回復(fù)中(右):模型精準(zhǔn)「抓包」了「painkillers casually」這種潛在的高風(fēng)險建議,并賦予高權(quán)重加以懲罰。
  • Intermediate Response是模型當(dāng)前的自我水平:「建議多休息,如果惡化再看醫(yī)生」。TI-DPO 引導(dǎo)模型在生成過程中,不斷向 Preferred 的價值觀靠攏,同時規(guī)避 Non-preferred 的陷阱,從而完成從粗放向精細(xì)的進(jìn)化。



這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價值觀。

總結(jié)與貢獻(xiàn)

TI-DPO 的提出,為大模型對齊從粗放的序列級優(yōu)化向更精細(xì)的 Token 級控制轉(zhuǎn)變提供了一個有力的嘗試。它不再滿足于籠統(tǒng)地判斷回答的「好壞」,而是試圖厘清每一個 Token 在價值對齊中的真實貢獻(xiàn)。

實驗結(jié)果表明,TI-DPO 在指令遵循、真實性與代碼生成等任務(wù)上,相比 GRPO 等基線取得了穩(wěn)定的性能提升,驗證了提升數(shù)據(jù)利用的「顆粒度」是增強(qiáng)模型能力的有效路徑。

TI-DPO 以其在去噪和細(xì)節(jié)控制上的特性,為后續(xù)的 RLHF 研究提供了一個值得關(guān)注的新方向。我們期待看到更多圍繞「細(xì)粒度價值對齊」的探索,推動大模型向著更精準(zhǔn)、更可控的方向進(jìn)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
20年老保姆透露:有錢人家,都有這4個好習(xí)慣,大家一定要養(yǎng)成

20年老保姆透露:有錢人家,都有這4個好習(xí)慣,大家一定要養(yǎng)成

室內(nèi)設(shè)計師有料兒
2026-02-10 20:32:46
女排季后賽第二輪四場比賽賽果 賽況 技術(shù)統(tǒng)計

女排季后賽第二輪四場比賽賽果 賽況 技術(shù)統(tǒng)計

行舟問茶
2026-03-01 00:20:15
健身博主胡洪盛去世,年僅22歲讀大四,減重90斤逆襲,死因引熱議

健身博主胡洪盛去世,年僅22歲讀大四,減重90斤逆襲,死因引熱議

古希臘掌管松餅的神
2026-02-26 11:49:06
以總理:美以軍事行動目標(biāo)是推翻伊朗政權(quán)

以總理:美以軍事行動目標(biāo)是推翻伊朗政權(quán)

界面新聞
2026-02-28 16:24:46
中國不當(dāng)冤大頭了!中科院停付國際期刊發(fā)表費(fèi),老外專家也急了

中國不當(dāng)冤大頭了!中科院停付國際期刊發(fā)表費(fèi),老外專家也急了

青青子衿
2026-02-27 20:32:03
3-1!意甲小球會踢瘋了!距衛(wèi)冕冠軍2分,沖擊歐冠資格

3-1!意甲小球會踢瘋了!距衛(wèi)冕冠軍2分,沖擊歐冠資格

體育世界
2026-03-01 00:29:23
阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

聽風(fēng)聽你
2024-12-25 22:41:20
感謝美國:五毛一度的中國電,換個姿勢就能賣11元

感謝美國:五毛一度的中國電,換個姿勢就能賣11元

星海情報局
2026-02-28 18:00:35
騎士加時絕殺活塞,哈登與米德爾頓末節(jié)表現(xiàn)突出

騎士加時絕殺活塞,哈登與米德爾頓末節(jié)表現(xiàn)突出

鏗鏘格斗
2026-02-28 12:31:14
Shams:獨(dú)行俠正式簽約雙向合同后衛(wèi)內(nèi)姆哈德,并裁掉瓊斯

Shams:獨(dú)行俠正式簽約雙向合同后衛(wèi)內(nèi)姆哈德,并裁掉瓊斯

懂球帝
2026-02-28 23:53:31
6球15助攻,迪馬爾科成為意甲近21年直接參與進(jìn)球最多的后衛(wèi)

6球15助攻,迪馬爾科成為意甲近21年直接參與進(jìn)球最多的后衛(wèi)

懂球帝
2026-03-01 05:00:15
北京每天5700噸糞便,根本沒運(yùn)出五環(huán),它們?nèi)チ四模?>
    </a>
        <h3>
      <a href=南權(quán)先生
2026-02-28 15:37:14
大量瑞幸新年禮盒流入閑魚,內(nèi)含便攜咖啡機(jī),全新最低46塊

大量瑞幸新年禮盒流入閑魚,內(nèi)含便攜咖啡機(jī),全新最低46塊

閑搞機(jī)
2026-02-27 11:02:52
華為突然官宣!3月1日開始,這些旗艦機(jī)型5折開賣

華為突然官宣!3月1日開始,這些旗艦機(jī)型5折開賣

小8說科技
2026-02-28 18:45:48
美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

悅心知足
2026-02-21 23:03:46
向太自曝患腦下垂體瘤,肚子全部是空氣,辟谷60天都瘦不下來!

向太自曝患腦下垂體瘤,肚子全部是空氣,辟谷60天都瘦不下來!

心靈得以滋養(yǎng)
2026-02-13 08:46:28
《除惡》收官,4人零差評,一人翻紅,唯有她差評一片被罵慘

《除惡》收官,4人零差評,一人翻紅,唯有她差評一片被罵慘

往史過眼云煙
2026-02-28 20:04:22
有啥事讓你最為震驚 網(wǎng)友說知道2016年南海事件前期的人員狀態(tài)嘛

有啥事讓你最為震驚 網(wǎng)友說知道2016年南海事件前期的人員狀態(tài)嘛

侃神評故事
2026-02-28 07:15:03
出大事了,特朗普話音剛落,伊朗首都發(fā)生爆炸,朝鮮也“認(rèn)慫”

出大事了,特朗普話音剛落,伊朗首都發(fā)生爆炸,朝鮮也“認(rèn)慫”

策略述
2026-02-28 16:23:21
對攻大戰(zhàn)被打爆!林詩棟2-4不敵苦主,遭遇交手4連敗無緣衛(wèi)冕

對攻大戰(zhàn)被打爆!林詩棟2-4不敵苦主,遭遇交手4連敗無緣衛(wèi)冕

釘釘陌上花開
2026-02-28 14:15:44
2026-03-01 05:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

以官員稱哈梅內(nèi)伊身亡 遺體在其官邸廢墟中被找到

頭條要聞

以官員稱哈梅內(nèi)伊身亡 遺體在其官邸廢墟中被找到

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
藝術(shù)
健康
公開課

手機(jī)要聞

澎湃OS再次公布進(jìn)展通報:10個問題,僅修復(fù)一則!

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

藝術(shù)要聞

驚艷!這位天使般的女子與油畫讓人心動不已!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版