国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大清華聯(lián)合多校提出TrustJudge,讓LLM評估更值得信賴

0
分享至



本文共同第一作者王一棟(北京大學(xué))和宋昀澤(新加坡國立大學(xué))主要從事大語言模型評估與對齊研究。通訊作者王存翔(清華大學(xué))和葉蔚、張世琨(北京大學(xué))分別在自然語言處理、軟件工程和知識推理等方向有長期積累。團(tuán)隊成員來自北大、清華、南大、NUS、CMU、西湖大學(xué)、東南大學(xué)、東京科學(xué)大學(xué)等多所高校,長期關(guān)注 LLM 可信評估問題。

讓 GPT-4 給兩篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 應(yīng)該比 B 好吧?但換成成對比較,同一個模型卻說「B 更好」。更離譜的情況也有——A > B > C > A 的「石頭剪刀布」循環(huán),連傳遞性都守不住。這事還真不少見。

北京大學(xué)、清華大學(xué)等八所高校的研究團(tuán)隊在ICLR 2026上提出了TrustJudge,一個基于概率的評估框架。核心想法不復(fù)雜:與其讓模型吐一個離散分?jǐn)?shù)了事,不如把它內(nèi)部的完整概率分布也用上。不用額外訓(xùn)練,評估不一致性就降了一大截,準(zhǔn)確率還跟著漲了。



  • 論文標(biāo)題:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
  • 作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang?, Wei Ye?, Shikun Zhang?
  • 單位:北京大學(xué)、清華大學(xué)、新加坡國立大學(xué)、南京大學(xué)、卡內(nèi)基梅隆大學(xué)、西湖大學(xué)、東南大學(xué)、東京科學(xué)大學(xué)
  • 論文鏈接:https://arxiv.org/abs/2509.21117
  • 開源代碼:https://github.com/TrustJudge/TrustJudge

01|問題有多嚴(yán)重?

用大模型給其他模型當(dāng)裁判,已經(jīng)是評估界的標(biāo)配——MT-Bench 用單項評分,AlpacaEval 用成對比較,RLHF/GRPO 做偏好標(biāo)注。但這個裁判的兩種考法給出的結(jié)論,經(jīng)常打架。

TrustJudge 的作者做了系統(tǒng)測量,把問題量化成了兩類:

評分-比較不一致(Score-Comparison Inconsistency)

打分時 A 比 B 高,拉到一起比較時又說 B 好。用 Llama-3.1-70B 測試,不一致率 23.32%——差不多每四次評估就矛盾一次。

成對傳遞性不一致(Pairwise Transitivity Inconsistency)

成對比較出現(xiàn)循環(huán)偏好(A > B > C > A)或者等價矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是15.22%





圖 1:左圖是 Llama-3 系列在 1,200 條指令上的評分熵分布,右圖是成對比較中兩種傳遞性錯誤的占比。

02|問題出在哪?

數(shù)據(jù)擺出來了,接下來的問題是:這兩類不一致的根源是什么?作者從信息論的角度做了歸因。

離散評分丟信息

5 分制打分,本質(zhì)上是把模型心里的連續(xù)判斷硬塞進(jìn)幾個整數(shù)格子里。比方說兩條回復(fù)質(zhì)量分別是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差別。但拉到一起做比較,模型是感知得到這 0.4 差距的——矛盾就這么來了。

作者還在理論上證了一條:存在兩個不同的概率分布,離散評分下完全相同,但信息熵不同。換句話說,離散化在結(jié)構(gòu)上就一定會丟東西。

模糊平局帶來傳遞性問題

做成對比較時,模型對質(zhì)量相近的回復(fù)經(jīng)常給「平局」。但平局和平局不一樣——有的是模型真覺得半斤八兩,有的純粹是拿不準(zhǔn)。這些「含糊的平局」在不同組合里不一致地冒出來,A = B、B = C、但 A ≠ C 的情況就出現(xiàn)了。

03|TrustJudge 怎么做的?

思路說白了就一句話:別只取模型吐出的那個離散答案,把背后的概率分布也用起來。框架分兩塊:

分布敏感評分(Distribution-Sensitive Scoring)

傳統(tǒng)做法是讓模型輸出一個分?jǐn)?shù)然后直接采納。TrustJudge 不這樣干:

  • 把評分尺度從 5 分拉到 100 分,先把粒度給夠。
  • 對所有候選分?jǐn)?shù)的 logits 做 softmax,得到一個完整的概率分布。
  • 算加權(quán)期望作為最終分?jǐn)?shù):



效果就是:原來 5 分制下都是 4 分的兩條回復(fù),現(xiàn)在一個 3.82、一個 4.17,差異保住了。

跟 G-Eval 的區(qū)別在于,TrustJudge 用 softmax 歸一化確保概率和嚴(yán)格為 1,不會被非評分 token 干擾。

似然感知聚合(Likelihood-Aware Aggregation)

成對比較這邊,TrustJudge 給了兩種策略來打破平局:

策略一:基于困惑度(PPL-Based)

遇到平局時,分別算 A 在前和 B 在前兩種排列的困惑度,選困惑度低的那個方向的結(jié)果——模型讀起來更通順的排列,判斷往往更靠譜:



策略二:雙向概率聚合

把兩個方向的偏好概率加起來,取置信度最高的:



由于是兩個方向聚合,位置偏差(position bias)也在這個過程中被抵消了。

04|理論上也站得住

上面的方法直覺上說得通,但有沒有更嚴(yán)格的保證?作者給出了形式化的理論證明:



一句話概括:信息保留得更多了,判斷的不確定性降下去了。

05|實驗結(jié)果

實驗數(shù)據(jù)來自 MT-Bench(80 題)和 ArenaHard(500 題),裁判模型覆蓋 Llama-3 系列(3B / 8B / 70B)和 GPT-4o。

主實驗



表 1:所有模型上兩類不一致性都明顯下降,精確匹配率同步上升。其中 Llama-3.2-3B 的傳遞性不一致從 54.69% 直接降到 17.76%,落差接近 37 個點。





圖 2:不同容忍度 δ 下的不一致性對比。TrustJudge(方塊 / 三角)在各個設(shè)置下都低于 Baseline(虛線)。

消融實驗

為了搞清楚每個組件的貢獻(xiàn),作者做了逐項消融(這里額外加入了 GPT-3.5-Turbo 作為參考):



表 2:逐個拆開看,softmax 歸一化和 100 分制對評分不一致各有貢獻(xiàn);似然聚合和 PPL 方法對傳遞性不一致效果都很明顯,似然聚合整體略優(yōu)。

06|換個模型還管用嗎?

上面的主實驗只用了 Llama-3 和 GPT-4o。一個自然的問題是:換成別的架構(gòu)還有效嗎?

管用。作者把實驗擴(kuò)展到Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT四個家族、共 12 個變體。





圖 3:四個模型家族上的不一致性對比。左圖為評分-比較不一致,右圖為傳遞性不一致,TrustJudge 在所有架構(gòu)上都有改善。

幾個值得注意的點:

  • 分布敏感評分的效果跟模型架構(gòu)無關(guān),都能降不一致性。
  • 加上似然感知聚合后,8B 模型的傳遞性甚至比未使用 TrustJudge 的 70B 模型更好。
  • 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

07|推理模型反而更不靠譜

一個意外發(fā)現(xiàn):專門練過推理能力的模型,做評估時反而更容易自相矛盾。



DeepSeek-R1 蒸餾版的評分-比較不一致率58.75%,是同參數(shù)量 Llama 的將近兩倍??雌饋碓跀?shù)學(xué)數(shù)據(jù)上做強化訓(xùn)練這件事,是以評估能力為代價的。

不過 TrustJudge 在這么高的不一致基線上依然有效:CR 降了將近 10 個點,傳遞性不一致從 63.98% 壓到了 18.50%。

08|拿來做 Reward 也好使

除了評估,TrustJudge 還有一個實際用途:給強化學(xué)習(xí)提供獎勵信號。

作者把它接到GRPO(Group Relative Policy Optimization)上訓(xùn)練 Qwen2.5-7B-Instruct,訓(xùn)練數(shù)據(jù)覆蓋摘要、數(shù)學(xué)推理、指令遵循等,一共 8,600 條。



表 3:用 Baseline 獎勵訓(xùn)練的模型在兩種協(xié)議下都沒超過原始模型(反而略降);用 TrustJudge 獎勵訓(xùn)練的模型兩邊都漲了。



圖 4:訓(xùn)練過程中的獎勵變化。TrustJudge 的獎勵信號全程高于 Baseline。



圖 5:驗證集上各任務(wù)的獎勵曲線,實線是 TrustJudge,虛線是 Baseline。改善不是靠單個任務(wù)拉的,是全面的。

道理也好理解:評估越一致,獎勵信號噪聲越小,模型學(xué)得越準(zhǔn)。

09|光提高打分精度夠不夠?

看完前面的實驗,可能會有人問:TrustJudge 里面既提高了評分粒度(5 分 → 100 分),又加了概率歸一化。那要是我只做前者,不做后者,行不行?



圖 6:5 分、10 分、100 分三檔粒度下的不一致性變化。粒度越高不一致越低,但在同一粒度下 TrustJudge(虛線)始終低于 Baseline(實線)。

結(jié)論是:提高粒度有幫助,但光靠粒度不夠。TrustJudge 贏在粒度提升 + 概率歸一化兩件事疊加到一起。

10|小結(jié)

TrustJudge 做的事情可以用兩句話講清楚:

  • 離散評分丟信息→ 改用分布敏感評分,把概率分布的信息保住。
  • 模糊平局壞傳遞性→ 改用似然感知聚合,讓模糊判定變得清晰。

實際效果上,它不用訓(xùn)練,開箱即用;跨 Llama、GPT、Qwen、Gemma 四個架構(gòu)都有效;除了做評估,接上 GRPO 當(dāng)獎勵信號也能用;而且有理論證明兜底。說到底,如果我們要讓大模型來當(dāng)裁判,總得先確認(rèn)這個裁判自己別前后矛盾才行。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
貴人搶著送財!下月初,這3個生肖人氣王,橫財砸頭不富都難

貴人搶著送財!下月初,這3個生肖人氣王,橫財砸頭不富都難

毅談生肖
2026-03-31 12:39:37
江蘇女排0-3不敵上海,賽后評分:三人表現(xiàn)不及格含全運會冠軍

江蘇女排0-3不敵上海,賽后評分:三人表現(xiàn)不及格含全運會冠軍

郭夷包工頭
2026-03-31 22:43:08
董潔終于找到最美形象了,亮白色連衣裙搭配修身西服秒變貴婦!

董潔終于找到最美形象了,亮白色連衣裙搭配修身西服秒變貴婦!

說不盡的人心
2026-03-25 10:44:48
伊朗一對“情侶”躲進(jìn)谷倉中擁吻,被發(fā)現(xiàn)時,已經(jīng)吻了2800年

伊朗一對“情侶”躲進(jìn)谷倉中擁吻,被發(fā)現(xiàn)時,已經(jīng)吻了2800年

北海史記
2026-03-26 13:31:29
頸動脈彩超報告,沒有這6個描述,就不必?fù)?dān)心腦梗!一定要知道!

頸動脈彩超報告,沒有這6個描述,就不必?fù)?dān)心腦梗!一定要知道!

健康科普365
2026-03-31 19:40:03
有高人預(yù)測:不出10年,社會將出現(xiàn)“6大”改變,早看早做準(zhǔn)備!

有高人預(yù)測:不出10年,社會將出現(xiàn)“6大”改變,早看早做準(zhǔn)備!

水大叔
2026-03-30 20:41:42
睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

溫情郵局
2026-03-31 09:34:25
盤點:戰(zhàn)爭滿30日,伊朗被斬首高官全名單!下一個會是誰?

盤點:戰(zhàn)爭滿30日,伊朗被斬首高官全名單!下一個會是誰?

大江看潮
2026-03-30 10:03:00
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
幾種毒蔬菜流通市面,建議:買菜切記避開這3樣!

幾種毒蔬菜流通市面,建議:買菜切記避開這3樣!

健康科普365
2026-01-28 11:00:45
調(diào)查發(fā)現(xiàn):每天都喝酒的人,大多到了50歲后,身體或有4種變化

調(diào)查發(fā)現(xiàn):每天都喝酒的人,大多到了50歲后,身體或有4種變化

醫(yī)學(xué)原創(chuàng)故事會
2026-03-31 23:46:06
離譜到家!廣東男子逛媽祖廟竟偷走媽祖9190元的金耳環(huán),男子:拿走給家里供奉的媽祖戴

離譜到家!廣東男子逛媽祖廟竟偷走媽祖9190元的金耳環(huán),男子:拿走給家里供奉的媽祖戴

觀威海
2026-03-31 19:51:08
印度信用崩盤?三哥買貨竟被要求全款先付,這下真成國際笑話了!

印度信用崩盤?三哥買貨竟被要求全款先付,這下真成國際笑話了!

眼界看視野
2026-03-12 13:59:14
全球首艘能裝一萬多輛汽車的運輸船今天試航

全球首艘能裝一萬多輛汽車的運輸船今天試航

財聯(lián)社
2026-03-31 17:52:19
4月起全國統(tǒng)一執(zhí)行醫(yī)保新規(guī):1965-1985年出生,退休待遇一清二楚

4月起全國統(tǒng)一執(zhí)行醫(yī)保新規(guī):1965-1985年出生,退休待遇一清二楚

小談食刻美食
2026-03-31 08:29:57
俄羅斯10萬噸石油抵達(dá)古巴,特朗普:沒有任何意見!遭美國封鎖,古巴3個月未接收油輪,多次大停電,民眾燒木炭煮飯

俄羅斯10萬噸石油抵達(dá)古巴,特朗普:沒有任何意見!遭美國封鎖,古巴3個月未接收油輪,多次大停電,民眾燒木炭煮飯

每日經(jīng)濟(jì)新聞
2026-04-01 00:46:06
范冰冰曼谷慈善夜紫藤花裙亮相,東方雅致與奢華感完美融合

范冰冰曼谷慈善夜紫藤花裙亮相,東方雅致與奢華感完美融合

述家娛記
2026-03-30 11:13:45
張愛玲:人生最大的悲哀不是選錯伴侶,也不是沒掙到錢,而是人到中年才發(fā)現(xiàn),從未真正為自己活過

張愛玲:人生最大的悲哀不是選錯伴侶,也不是沒掙到錢,而是人到中年才發(fā)現(xiàn),從未真正為自己活過

四行書
2026-03-27 12:33:32
何超盈6歲女兒舉辦藝術(shù)展,何超盈亮相一臉自豪,辛奇隆再度缺席

何超盈6歲女兒舉辦藝術(shù)展,何超盈亮相一臉自豪,辛奇隆再度缺席

八斗小先生
2026-03-31 10:36:34
快訊!印度再次對華企業(yè)實施禁止令!

快訊!印度再次對華企業(yè)實施禁止令!

達(dá)文西看世界
2026-03-31 17:57:07
2026-04-01 03:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12648文章數(shù) 142600關(guān)注度
往期回顧 全部

教育要聞

北京唯一!海淀45所學(xué)校入選首批試點,名單出爐!

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報偷稅

財經(jīng)要聞

油價暴漲 我們的生活成本會飆升多少?

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

健康
游戲
房產(chǎn)
藝術(shù)
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

上一秒還在嘲笑瓦學(xué)弟,下一秒就去“抗癌”了

房產(chǎn)要聞

重磅!海南城市更新擬出新政!

藝術(shù)要聞

震撼!他筆下的美女,色彩美得讓人無法自拔!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版