国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026 | 大模型當(dāng)裁判也「翻車(chē)」?北大清華聯(lián)合多校提出TrustJudge

0
分享至

來(lái)源:市場(chǎng)資訊


本文共同第一作者王一棟(北京大學(xué))和宋昀澤(新加坡國(guó)立大學(xué))主要從事大語(yǔ)言模型評(píng)估與對(duì)齊研究。通訊作者王存翔(清華大學(xué))和葉蔚、張世琨(北京大學(xué))分別在自然語(yǔ)言處理、軟件工程和知識(shí)推理等方向有長(zhǎng)期積累。團(tuán)隊(duì)成員來(lái)自北大、清華、南大、NUS、CMU、西湖大學(xué)、東南大學(xué)、東京科學(xué)大學(xué)等多所高校,長(zhǎng)期關(guān)注 LLM 可信評(píng)估問(wèn)題。

讓 GPT-4 給兩篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 應(yīng)該比 B 好吧?但換成成對(duì)比較,同一個(gè)模型卻說(shuō)「B 更好」。更離譜的情況也有——A > B > C > A 的「石頭剪刀布」循環(huán),連傳遞性都守不住。這事還真不少見(jiàn)。

北京大學(xué)、清華大學(xué)等八所高校的研究團(tuán)隊(duì)在 ICLR 2026 上提出了 TrustJudge,一個(gè)基于概率的評(píng)估框架。核心想法不復(fù)雜:與其讓模型吐一個(gè)離散分?jǐn)?shù)了事,不如把它內(nèi)部的完整概率分布也用上。不用額外訓(xùn)練,評(píng)估不一致性就降了一大截,準(zhǔn)確率還跟著漲了。


  • 論文標(biāo)題:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

  • 作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang?, Wei Ye?, Shikun Zhang?

  • 單位:北京大學(xué)、清華大學(xué)、新加坡國(guó)立大學(xué)、南京大學(xué)、卡內(nèi)基梅隆大學(xué)、西湖大學(xué)、東南大學(xué)、東京科學(xué)大學(xué)

  • 論文鏈接:https://arxiv.org/abs/2509.21117

  • 開(kāi)源代碼:https://github.com/TrustJudge/TrustJudge

01|問(wèn)題有多嚴(yán)重?

用大模型給其他模型當(dāng)裁判,已經(jīng)是評(píng)估界的標(biāo)配——MT-Bench 用單項(xiàng)評(píng)分,AlpacaEval 用成對(duì)比較,RLHF/GRPO 做偏好標(biāo)注。但這個(gè)裁判的兩種考法給出的結(jié)論,經(jīng)常打架。

TrustJudge 的作者做了系統(tǒng)測(cè)量,把問(wèn)題量化成了兩類(lèi):

評(píng)分-比較不一致(Score-Comparison Inconsistency)

打分時(shí) A 比 B 高,拉到一起比較時(shí)又說(shuō) B 好。用 Llama-3.1-70B 測(cè)試,不一致率 23.32%——差不多每四次評(píng)估就矛盾一次。

成對(duì)傳遞性不一致(Pairwise Transitivity Inconsistency)

成對(duì)比較出現(xiàn)循環(huán)偏好(A > B > C > A)或者等價(jià)矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是 15.22%。



02|問(wèn)題出在哪?

數(shù)據(jù)擺出來(lái)了,接下來(lái)的問(wèn)題是:這兩類(lèi)不一致的根源是什么?作者從信息論的角度做了歸因。

離散評(píng)分丟信息

5 分制打分,本質(zhì)上是把模型心里的連續(xù)判斷硬塞進(jìn)幾個(gè)整數(shù)格子里。比方說(shuō)兩條回復(fù)質(zhì)量分別是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差別。但拉到一起做比較,模型是感知得到這 0.4 差距的——矛盾就這么來(lái)了。

作者還在理論上證了一條:存在兩個(gè)不同的概率分布,離散評(píng)分下完全相同,但信息熵不同。換句話(huà)說(shuō),離散化在結(jié)構(gòu)上就一定會(huì)丟東西。

模糊平局帶來(lái)傳遞性問(wèn)題

做成對(duì)比較時(shí),模型對(duì)質(zhì)量相近的回復(fù)經(jīng)常給「平局」。但平局和平局不一樣——有的是模型真覺(jué)得半斤八兩,有的純粹是拿不準(zhǔn)。這些「含糊的平局」在不同組合里不一致地冒出來(lái),A = B、B = C、但 A ≠ C 的情況就出現(xiàn)了。

03|TrustJudge 怎么做的?

思路說(shuō)白了就一句話(huà):別只取模型吐出的那個(gè)離散答案,把背后的概率分布也用起來(lái)??蚣芊謨蓧K:

分布敏感評(píng)分(Distribution-Sensitive Scoring)

傳統(tǒng)做法是讓模型輸出一個(gè)分?jǐn)?shù)然后直接采納。TrustJudge 不這樣干:

  • 把評(píng)分尺度從 5 分拉到 100 分,先把粒度給夠。

  • 對(duì)所有候選分?jǐn)?shù)的 logits 做 softmax,得到一個(gè)完整的概率分布。

  • 算加權(quán)期望作為最終分?jǐn)?shù):


效果就是:原來(lái) 5 分制下都是 4 分的兩條回復(fù),現(xiàn)在一個(gè) 3.82、一個(gè) 4.17,差異保住了。

跟 G-Eval 的區(qū)別在于,TrustJudge 用 softmax 歸一化確保概率和嚴(yán)格為 1,不會(huì)被非評(píng)分 token 干擾。

似然感知聚合(Likelihood-Aware Aggregation)

成對(duì)比較這邊,TrustJudge 給了兩種策略來(lái)打破平局:

策略一:基于困惑度(PPL-Based)

遇到平局時(shí),分別算 A 在前和 B 在前兩種排列的困惑度,選困惑度低的那個(gè)方向的結(jié)果——模型讀起來(lái)更通順的排列,判斷往往更靠譜:


策略二:雙向概率聚合

把兩個(gè)方向的偏好概率加起來(lái),取置信度最高的:


由于是兩個(gè)方向聚合,位置偏差(position bias)也在這個(gè)過(guò)程中被抵消了。

04|理論上也站得住

上面的方法直覺(jué)上說(shuō)得通,但有沒(méi)有更嚴(yán)格的保證?作者給出了形式化的理論證明:

定理 1(信息保持):存在兩個(gè)不同的概率分布


,離散評(píng)分無(wú)法區(qū)分


),但分布敏感評(píng)分可以(


)。

命題 1(不確定性降低):當(dāng)裁判模型高度模糊時(shí),基于困惑度得到的置信分布 的熵嚴(yán)格低于原始判斷的最大熵:


一句話(huà)概括:信息保留得更多了,判斷的不確定性降下去了。

05|實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)來(lái)自 MT-Bench(80 題)和 ArenaHard(500 題),裁判模型覆蓋 Llama-3 系列(3B / 8B / 70B)和 GPT-4o。

主實(shí)驗(yàn)


表 1:所有模型上兩類(lèi)不一致性都明顯下降,精確匹配率同步上升。其中 Llama-3.2-3B 的傳遞性不一致從 54.69% 直接降到 17.76%,落差接近 37 個(gè)點(diǎn)。



消融實(shí)驗(yàn)

為了搞清楚每個(gè)組件的貢獻(xiàn),作者做了逐項(xiàng)消融(這里額外加入了 GPT-3.5-Turbo 作為參考):


表 2:逐個(gè)拆開(kāi)看,softmax 歸一化和 100 分制對(duì)評(píng)分不一致各有貢獻(xiàn);似然聚合和 PPL 方法對(duì)傳遞性不一致效果都很明顯,似然聚合整體略?xún)?yōu)。

06|換個(gè)模型還管用嗎?

上面的主實(shí)驗(yàn)只用了 Llama-3 和 GPT-4o。一個(gè)自然的問(wèn)題是:換成別的架構(gòu)還有效嗎?

管用。作者把實(shí)驗(yàn)擴(kuò)展到 Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT 四個(gè)家族、共 12 個(gè)變體。



圖 3:四個(gè)模型家族上的不一致性對(duì)比。左圖為評(píng)分-比較不一致,右圖為傳遞性不一致,TrustJudge 在所有架構(gòu)上都有改善。

幾個(gè)值得注意的點(diǎn):

  • 分布敏感評(píng)分的效果跟模型架構(gòu)無(wú)關(guān),都能降不一致性。

  • 加上似然感知聚合后,8B 模型的傳遞性甚至比未使用 TrustJudge 的 70B 模型更好。

  • 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

07|推理模型反而更不靠譜

一個(gè)意外發(fā)現(xiàn):專(zhuān)門(mén)練過(guò)推理能力的模型,做評(píng)估時(shí)反而更容易自相矛盾。


DeepSeek-R1 蒸餾版的評(píng)分-比較不一致率 58.75%,是同參數(shù)量 Llama 的將近兩倍??雌饋?lái)在數(shù)學(xué)數(shù)據(jù)上做強(qiáng)化訓(xùn)練這件事,是以評(píng)估能力為代價(jià)的。

不過(guò) TrustJudge 在這么高的不一致基線(xiàn)上依然有效:CR 降了將近 10 個(gè)點(diǎn),傳遞性不一致從 63.98% 壓到了 18.50%。

08|拿來(lái)做 Reward 也好使

除了評(píng)估,TrustJudge 還有一個(gè)實(shí)際用途:給強(qiáng)化學(xué)習(xí)提供獎(jiǎng)勵(lì)信號(hào)。

作者把它接到 GRPO(Group Relative Policy Optimization)上訓(xùn)練 Qwen2.5-7B-Instruct,訓(xùn)練數(shù)據(jù)覆蓋摘要、數(shù)學(xué)推理、指令遵循等,一共 8,600 條。


表 3:用 Baseline 獎(jiǎng)勵(lì)訓(xùn)練的模型在兩種協(xié)議下都沒(méi)超過(guò)原始模型(反而略降);用 TrustJudge 獎(jiǎng)勵(lì)訓(xùn)練的模型兩邊都漲了。



道理也好理解:評(píng)估越一致,獎(jiǎng)勵(lì)信號(hào)噪聲越小,模型學(xué)得越準(zhǔn)。

09|光提高打分精度夠不夠?

看完前面的實(shí)驗(yàn),可能會(huì)有人問(wèn):TrustJudge 里面既提高了評(píng)分粒度(5 分 → 100 分),又加了概率歸一化。那要是我只做前者,不做后者,行不行?


圖 6:5 分、10 分、100 分三檔粒度下的不一致性變化。粒度越高不一致越低,但在同一粒度下 TrustJudge(虛線(xiàn))始終低于 Baseline(實(shí)線(xiàn))。

結(jié)論是:提高粒度有幫助,但光靠粒度不夠。TrustJudge 贏在粒度提升 + 概率歸一化兩件事疊加到一起。

10|小結(jié)

TrustJudge 做的事情可以用兩句話(huà)講清楚:

  • 離散評(píng)分丟信息 → 改用分布敏感評(píng)分,把概率分布的信息保住。

  • 模糊平局壞傳遞性 → 改用似然感知聚合,讓模糊判定變得清晰。

實(shí)際效果上,它不用訓(xùn)練,開(kāi)箱即用;跨 Llama、GPT、Qwen、Gemma 四個(gè)架構(gòu)都有效;除了做評(píng)估,接上 GRPO 當(dāng)獎(jiǎng)勵(lì)信號(hào)也能用;而且有理論證明兜底。說(shuō)到底,如果我們要讓大模型來(lái)當(dāng)裁判,總得先確認(rèn)這個(gè)裁判自己別前后矛盾才行。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
22.99萬(wàn)!別克官宣:新車(chē)正式上市,GL8這次真的放下身段了

22.99萬(wàn)!別克官宣:新車(chē)正式上市,GL8這次真的放下身段了

沙雕小琳琳
2026-04-03 09:36:04
70~80歲除不搬重物不爬高外,九個(gè)細(xì)節(jié)要注意,最后一個(gè)常被忽略

70~80歲除不搬重物不爬高外,九個(gè)細(xì)節(jié)要注意,最后一個(gè)常被忽略

暖風(fēng)吹過(guò)竹林
2026-03-26 10:47:30
雍正臨終前才告訴乾隆:當(dāng)初不殺年羹堯,你的龍椅根本坐不穩(wěn)!

雍正臨終前才告訴乾?。寒?dāng)初不殺年羹堯,你的龍椅根本坐不穩(wěn)!

千秋文化
2026-03-08 20:01:13
2012年一伙歹徒劫機(jī),快得手時(shí),有女乘客大吼一聲,結(jié)局意想不到

2012年一伙歹徒劫機(jī),快得手時(shí),有女乘客大吼一聲,結(jié)局意想不到

阿胡
2025-04-07 16:04:09
健身后欲望很大是怎么回事?

健身后欲望很大是怎么回事?

性學(xué)研究僧
2026-04-02 20:11:16
財(cái)政部原副部長(zhǎng)遲海濱,因病逝世

財(cái)政部原副部長(zhǎng)遲海濱,因病逝世

南方都市報(bào)
2026-04-02 19:01:14
“嘴替”月嫂拯救我,娃一睡著婆婆就把娃弄醒月嫂說(shuō)手癢就去挖墳

“嘴替”月嫂拯救我,娃一睡著婆婆就把娃弄醒月嫂說(shuō)手癢就去挖墳

另子維愛(ài)讀史
2026-04-02 18:28:37
曾借錢(qián)資助張雪8萬(wàn)元?jiǎng)?chuàng)業(yè) 師父喊話(huà):沒(méi)騎過(guò)好車(chē) 能送我一臺(tái)820嗎

曾借錢(qián)資助張雪8萬(wàn)元?jiǎng)?chuàng)業(yè) 師父喊話(huà):沒(méi)騎過(guò)好車(chē) 能送我一臺(tái)820嗎

風(fēng)過(guò)鄉(xiāng)
2026-04-03 06:33:24
35歲知名星二代,被曝生活拮據(jù)落魄,和父親斷來(lái)往,和母親也決裂

35歲知名星二代,被曝生活拮據(jù)落魄,和父親斷來(lái)往,和母親也決裂

西樓知趣雜談
2026-04-02 07:52:04
伊朗就只剩下嘴巴硬了,其余都軟得不要不要的

伊朗就只剩下嘴巴硬了,其余都軟得不要不要的

廖保平
2026-04-03 09:12:29
油價(jià)大降1.73元/升,汽油降至6.7元后全漲起來(lái),下次調(diào)價(jià)變漲中

油價(jià)大降1.73元/升,汽油降至6.7元后全漲起來(lái),下次調(diào)價(jià)變漲中

豬友巴巴
2026-04-02 16:35:03
第89波!伊朗發(fā)射100枚重型導(dǎo)彈,造成美以重大傷亡,特朗普失聲

第89波!伊朗發(fā)射100枚重型導(dǎo)彈,造成美以重大傷亡,特朗普失聲

李健政觀(guān)察
2026-04-02 16:54:40
挪威記者犀利質(zhì)問(wèn)北約前秘書(shū)長(zhǎng):中國(guó)究竟怎么威脅北約了?

挪威記者犀利質(zhì)問(wèn)北約前秘書(shū)長(zhǎng):中國(guó)究竟怎么威脅北約了?

靚仔情感
2026-04-02 10:47:18
德黑蘭的清晨,有點(diǎn)不太對(duì)勁

德黑蘭的清晨,有點(diǎn)不太對(duì)勁

陸棄
2026-04-02 08:20:03
張雪爭(zhēng)奪戰(zhàn)打響:湖南搶哭了,浙江搶笑了,重慶不搶贏了!

張雪爭(zhēng)奪戰(zhàn)打響:湖南搶哭了,浙江搶笑了,重慶不搶贏了!

影像溫度
2026-04-02 20:35:08
嚴(yán)查電動(dòng)車(chē)接送小孩!接娃怎么辦?國(guó)家級(jí)文件:把方便留給群眾!

嚴(yán)查電動(dòng)車(chē)接送小孩!接娃怎么辦?國(guó)家級(jí)文件:把方便留給群眾!

墜入二次元的海洋
2026-04-03 08:28:55
CBA男籃動(dòng)態(tài)更新!帶來(lái)廣東男籃大外援、遼寧男籃小外援以及李凱爾的最新消息

CBA男籃動(dòng)態(tài)更新!帶來(lái)廣東男籃大外援、遼寧男籃小外援以及李凱爾的最新消息

凱豐侃球
2026-04-03 09:38:34
香煙要被洗白了?中科院顛覆性研究,尼古丁或能降低40%死亡率?

香煙要被洗白了?中科院顛覆性研究,尼古丁或能降低40%死亡率?

溫讀史
2026-04-02 11:11:30
張水華第四個(gè)代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊(cè)!

張水華第四個(gè)代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊(cè)!

馬拉松跑步健身
2026-04-02 22:10:07
事業(yè)單位4月落實(shí)工資普調(diào)新政,待遇提升直追公務(wù)員!

事業(yè)單位4月落實(shí)工資普調(diào)新政,待遇提升直追公務(wù)員!

慧眼看世界哈哈
2026-04-01 20:45:08
2026-04-03 10:04:50
新浪財(cái)經(jīng) incentive-icons
新浪財(cái)經(jīng)
新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái)
2742462文章數(shù) 6373關(guān)注度
往期回顧 全部

教育要聞

同心聚星火 家校育花開(kāi) ——聊城市茌平區(qū)“家育星火”家庭教育觀(guān)摩暨宣講啟動(dòng)儀式圓滿(mǎn)舉行

頭條要聞

專(zhuān)家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

頭條要聞

專(zhuān)家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

體育要聞

邵佳一的改革,從讓每個(gè)人踢舒服開(kāi)始

娛樂(lè)要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財(cái)經(jīng)要聞

全球石油危機(jī)或?qū)⒙?/h3>

科技要聞

SpaceX沖刺2萬(wàn)億美元估值,馬斯克野心太大

汽車(chē)要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車(chē)QQ3 EV

態(tài)度原創(chuàng)

本地
親子
教育
游戲
旅游

本地新聞

從學(xué)徒到世界冠軍,為什么說(shuō)張雪的底氣在重慶?

親子要聞

洗頭的舒適區(qū),讓爸爸想出更多帶娃創(chuàng)意

教育要聞

五年級(jí)奧數(shù),家長(zhǎng)一臉懵,突破口在哪里

《紅色沙漠》BOSS戰(zhàn)引玩家眾怒:設(shè)計(jì)的糟糕且無(wú)趣!

旅游要聞

放春假了,來(lái)北京研學(xué)旅游唄——北京推出10條“漫步北京-春假清明研學(xué)主題游線(xiàn)路”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版