網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic最新CJE技術(shù)：讓AI評(píng)判AI不再瞎猜，終結(jié)LLM評(píng)估亂象

2025-12-30 23:25:04　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

大型語(yǔ)言模型（LLM）的評(píng)估就像給學(xué)生考試打分一樣，是決定AI系統(tǒng)好壞的關(guān)鍵環(huán)節(jié)?，F(xiàn)在大多數(shù)公司都在用一種看似聰明實(shí)則問(wèn)題重重的方法：讓一個(gè)便宜的AI來(lái)給另一個(gè)AI打分，然后根據(jù)這個(gè)分?jǐn)?shù)來(lái)判斷模型的優(yōu)劣。這就好比讓一個(gè)從未學(xué)過(guò)數(shù)學(xué)的人來(lái)批改數(shù)學(xué)試卷，雖然省錢(qián)省時(shí)，但結(jié)果往往南轅北轍。

這篇由CIMO Labs的Eddie Landesberg于2024年12月發(fā)表的研究論文《因果法官評(píng)估：大型語(yǔ)言模型系統(tǒng)的校準(zhǔn)替代指標(biāo)》，揭露了這個(gè)行業(yè)潛規(guī)則背后的三大致命缺陷，并提出了一套名為CJE（因果法官評(píng)估）的解決方案。論文編號(hào)為arXiv:2512.11150v1，對(duì)于想要深入了解LLM評(píng)估技術(shù)的讀者來(lái)說(shuō)是一份不可多得的參考資料。

當(dāng)前的LLM評(píng)估就像一場(chǎng)大型的"指鹿為馬"游戲。公司們普遍采用這樣的做法：收集大量AI生成的回答，用便宜的AI法官給每個(gè)回答打分，然后只在一小部分樣本上花錢(qián)請(qǐng)人類專家驗(yàn)證。這種做法看起來(lái)經(jīng)濟(jì)實(shí)惠，實(shí)際上卻存在三個(gè)要命的問(wèn)題。

首先是偏好倒置問(wèn)題。AI法官的打分標(biāo)準(zhǔn)和人類專家的判斷標(biāo)準(zhǔn)經(jīng)常背道而馳。一個(gè)AI可能會(huì)給那些看起來(lái)"面面俱到"但實(shí)際空洞無(wú)物的回答打高分，而對(duì)真正有用但表達(dá)簡(jiǎn)潔的回答打低分。這就好比一個(gè)從未吃過(guò)中餐的外國(guó)人用西餐標(biāo)準(zhǔn)來(lái)評(píng)判中餐的好壞，結(jié)果可想而知。研究發(fā)現(xiàn)，未經(jīng)校準(zhǔn)的評(píng)分系統(tǒng)甚至?xí)耆嵉鼓Ｐ偷膬?yōu)劣排序。

第二個(gè)問(wèn)題是置信區(qū)間失效。研究人員發(fā)現(xiàn)，基于未校準(zhǔn)分?jǐn)?shù)計(jì)算出的95%置信區(qū)間，實(shí)際覆蓋率竟然接近0%。這意味著研究人員以為自己的結(jié)論有95%的把握是對(duì)的，實(shí)際上幾乎完全錯(cuò)誤。這就像一個(gè)溫度計(jì)壞了卻不知道，依然拿它來(lái)判斷天氣冷熱，結(jié)果可能穿著羽絨服去海灘。

第三個(gè)問(wèn)題更加隱蔽但同樣致命：離線策略評(píng)估的災(zāi)難性失敗。即使研究人員通過(guò)各種技巧將有效樣本量提升到90%以上，重要性加權(quán)估計(jì)器仍然失靈。這個(gè)現(xiàn)象讓研究團(tuán)隊(duì)大為困惑，最終他們發(fā)現(xiàn)了根本原因：?jiǎn)栴}不在于權(quán)重是否穩(wěn)定，而在于訓(xùn)練數(shù)據(jù)和目標(biāo)模型之間的覆蓋度差異。簡(jiǎn)單來(lái)說(shuō)，就是用來(lái)訓(xùn)練評(píng)判標(biāo)準(zhǔn)的數(shù)據(jù)和真正需要評(píng)估的數(shù)據(jù)差距太大，就像用古典音樂(lè)的評(píng)判標(biāo)準(zhǔn)來(lái)評(píng)價(jià)搖滾樂(lè)。

為了解決這些根本性問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了CJE框架，這套系統(tǒng)就像給胡亂打分的AI法官配了一副精準(zhǔn)的眼鏡。CJE包含三個(gè)核心組件，每個(gè)都針對(duì)一個(gè)特定問(wèn)題提供解決方案。

AutoCal-R是第一個(gè)組件，專門(mén)解決偏好倒置問(wèn)題。這個(gè)系統(tǒng)通過(guò)均值保持的等張回歸來(lái)校準(zhǔn)獎(jiǎng)勵(lì)分?jǐn)?shù)，說(shuō)得簡(jiǎn)單點(diǎn)，就是讓AI法官重新學(xué)習(xí)什么叫好什么叫壞。系統(tǒng)會(huì)自動(dòng)在單調(diào)模式和兩階段模式之間選擇。單調(diào)模式假設(shè)分?jǐn)?shù)越高質(zhì)量越好，適合大多數(shù)情況。但有時(shí)AI法官的打分邏輯比較復(fù)雜，比如可能同時(shí)考慮回答質(zhì)量和回答長(zhǎng)度，這時(shí)兩階段模式就會(huì)先學(xué)習(xí)一個(gè)更復(fù)雜的評(píng)分函數(shù)，然后再轉(zhuǎn)換成單調(diào)的最終分?jǐn)?shù)。

研究發(fā)現(xiàn)，回答長(zhǎng)度是一個(gè)特別重要的混淆因素。LLM法官往往認(rèn)為越長(zhǎng)的回答越好，但人類專家可能更喜歡簡(jiǎn)潔有力的回答。AutoCal-R的兩階段模式可以先剔除長(zhǎng)度因素的干擾，然后再進(jìn)行最終評(píng)判，就像先排除外貌因素再評(píng)判一個(gè)人的能力。

SIMCal-W是第二個(gè)組件，專門(mén)穩(wěn)定重要性權(quán)重。在傳統(tǒng)的離線評(píng)估中，不同樣本的重要性權(quán)重可能相差懸殊，有些樣本的權(quán)重可能是其他樣本的幾萬(wàn)甚至幾十萬(wàn)倍。這種極端不平衡會(huì)導(dǎo)致評(píng)估結(jié)果被少數(shù)幾個(gè)異常樣本主導(dǎo)。SIMCal-W通過(guò)堆疊單調(diào)候選者來(lái)解決這個(gè)問(wèn)題，就像用多個(gè)穩(wěn)定的支撐點(diǎn)來(lái)替代一個(gè)搖搖欲墜的獨(dú)木橋。

具體來(lái)說(shuō)，SIMCal-W會(huì)在每個(gè)交叉驗(yàn)證折疊中擬合遞增和遞減的等張映射，然后通過(guò)方差感知的堆疊來(lái)選擇最優(yōu)組合。這種方法在研究的實(shí)驗(yàn)中將有效樣本量從不足1%提升到了80%以上，大幅改善了評(píng)估的穩(wěn)定性。

第三個(gè)組件OUA推理解決了置信區(qū)間失效問(wèn)題。傳統(tǒng)方法忽略了校準(zhǔn)函數(shù)本身的不確定性，就像忽略了溫度計(jì)的精度誤差。OUA通過(guò)刪除一折交叉驗(yàn)證的方式來(lái)估計(jì)校準(zhǔn)不確定性，然后將這部分不確定性傳播到最終的置信區(qū)間中。在實(shí)驗(yàn)中，OUA將置信區(qū)間的覆蓋率從接近0%提升到了85-96%，幾乎達(dá)到了理論期望值。

研究團(tuán)隊(duì)還提出了一個(gè)重要的診斷工具：覆蓋限制效率（CLE）診斷。這個(gè)工具解釋了為什么即使權(quán)重穩(wěn)定，基于重要性加權(quán)的估計(jì)器仍然失敗。CLE診斷發(fā)現(xiàn)，問(wèn)題的關(guān)鍵在于日志記錄器（用來(lái)收集訓(xùn)練數(shù)據(jù)的系統(tǒng)）很少訪問(wèn)目標(biāo)策略集中的區(qū)域。換句話說(shuō)，用來(lái)訓(xùn)練的數(shù)據(jù)和需要評(píng)估的數(shù)據(jù)之間存在根本性的分布差異。

為了驗(yàn)證CJE的有效性，研究團(tuán)隊(duì)在一個(gè)大規(guī)模基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)。他們使用了4961個(gè)來(lái)自Chatbot Arena的提示詞，測(cè)試了五種不同的LLM策略，包括基礎(chǔ)模型、克隆模型、高級(jí)模型、改進(jìn)提示的模型，以及一個(gè)故意設(shè)計(jì)得很糟糕的"無(wú)用"模型。實(shí)驗(yàn)使用GPT-5作為金標(biāo)準(zhǔn)，用GPT-4.1-nano作為便宜的法官，成本差異約為16倍。

實(shí)驗(yàn)結(jié)果令人印象深刻。在完整樣本量下，CJE達(dá)到了99%的成對(duì)排名準(zhǔn)確率，在各種配置下平均達(dá)到94%，與oracle質(zhì)量相匹配。更重要的是，CJE只需要5%的oracle標(biāo)簽（約250個(gè)標(biāo)簽），就能以14倍更低的成本（針對(duì)5個(gè)策略的排名）實(shí)現(xiàn)這樣的性能。這意味著以前需要花費(fèi)數(shù)萬(wàn)美元的評(píng)估工作，現(xiàn)在只需要幾千美元就能完成，而且結(jié)果更加可靠。

研究還揭示了一些意外發(fā)現(xiàn)。首先，傳統(tǒng)的雙重穩(wěn)健方法（DR）并沒(méi)有像預(yù)期那樣顯著優(yōu)于直接方法。在低覆蓋度情況下，DR的IPS組件增加的是噪聲而不是信息，因此直接方法實(shí)際上略微優(yōu)于DR方法。這個(gè)發(fā)現(xiàn)顛覆了許多研究人員的預(yù)期。

其次，即使經(jīng)過(guò)SIMCal-W穩(wěn)定化處理，將有效樣本量從不足1%提升到80%以上，校準(zhǔn)后的IPS仍然表現(xiàn)不佳，成對(duì)準(zhǔn)確率只有47%，幾乎與隨機(jī)猜測(cè)無(wú)異。CLE診斷完美解釋了這個(gè)現(xiàn)象：高有效樣本量是必要條件但不充分，當(dāng)日志記錄器很少訪問(wèn)目標(biāo)典型區(qū)域時(shí)，任何基于日志的方法都會(huì)失敗。

第三，研究發(fā)現(xiàn)SNIPS（自正則化重要性采樣）方法即使在獎(jiǎng)勵(lì)校準(zhǔn)后仍然會(huì)顛倒排名，成對(duì)準(zhǔn)確率只有38%，Kendall tau系數(shù)為負(fù)數(shù)。這進(jìn)一步證明了權(quán)重不穩(wěn)定性的危害有多嚴(yán)重。

CJE框架的理論基礎(chǔ)建立在"通過(guò)投影設(shè)計(jì)"的原則之上。這個(gè)原則的核心思想是，當(dāng)合理的先驗(yàn)知識(shí)定義了一個(gè)受限的統(tǒng)計(jì)模型時(shí)，受限模型中的效率界限至多等于基線模型中的界限。通過(guò)交叉擬合，CJE的估計(jì)器達(dá)到了代理信息界限。

具體來(lái)說(shuō)，CJE使用了三種投影：獎(jiǎng)勵(lì)校準(zhǔn)投影到單調(diào)錐面，權(quán)重校準(zhǔn)投影到單位均值單調(diào)錐面，IF空間堆疊投影到候選影響函數(shù)列的單純形。每種投影都編碼了合理的先驗(yàn)知識(shí)，而且理論上保證不會(huì)損失效率。

研究團(tuán)隊(duì)還開(kāi)發(fā)了一套完整的診斷體系來(lái)指導(dǎo)實(shí)踐應(yīng)用。TTC（目標(biāo)典型性覆蓋）診斷測(cè)量日志記錄器在目標(biāo)典型區(qū)域的覆蓋度，當(dāng)TTC低于70%時(shí)，建議避免使用僅基于日志的IPS方法。Bhattacharyya親和度測(cè)量代理空間中的整體對(duì)齊度，當(dāng)親和度低于85%時(shí)，表示存在嚴(yán)重的形狀不匹配。

政策級(jí)均值傳輸測(cè)試檢驗(yàn)校準(zhǔn)函數(shù)是否能夠在不同策略間傳輸。對(duì)于每個(gè)目標(biāo)策略，系統(tǒng)測(cè)試殘差均值是否為零。如果某個(gè)策略未通過(guò)此測(cè)試，說(shuō)明該策略的代理估計(jì)存在系統(tǒng)性偏差，需要重新校準(zhǔn)或回退到僅使用oracle的評(píng)估。

在Arena基準(zhǔn)測(cè)試中，基礎(chǔ)訓(xùn)練的校準(zhǔn)成功傳輸?shù)搅丝寺?、高?jí)和改進(jìn)提示策略，但在故意設(shè)計(jì)的"無(wú)用"策略上失敗了，均值殘差為-0.31，表明代理系統(tǒng)性地高估了對(duì)抗性回答的質(zhì)量。這個(gè)發(fā)現(xiàn)驗(yàn)證了傳輸測(cè)試的有效性。

CJE的實(shí)際應(yīng)用價(jià)值體現(xiàn)在多個(gè)方面。首先，它解決了LLM評(píng)估中的根本性統(tǒng)計(jì)問(wèn)題，為行業(yè)提供了科學(xué)可靠的評(píng)估框架。其次，通過(guò)大幅降低成本，CJE使得大規(guī)模、頻繁的模型評(píng)估成為可能，這對(duì)快速迭代的AI開(kāi)發(fā)至關(guān)重要。

更重要的是，CJE為L(zhǎng)LM開(kāi)發(fā)提供了正確的優(yōu)化信號(hào)。在未校準(zhǔn)的評(píng)估系統(tǒng)中，模型可能會(huì)學(xué)習(xí)迎合法官的偏見(jiàn)而不是真正提升性能。CJE確保優(yōu)化目標(biāo)與評(píng)估目標(biāo)保持一致，從而促進(jìn)模型的真正改進(jìn)。

研究團(tuán)隊(duì)還提供了詳細(xì)的實(shí)施指導(dǎo)。對(duì)于大多數(shù)應(yīng)用場(chǎng)景，他們建議默認(rèn)使用直接方法加上兩階段校準(zhǔn)。如果TTC低于0.7，應(yīng)避免使用基于日志的OPE方法。務(wù)必使用OUA推理來(lái)獲得有效的置信區(qū)間。當(dāng)OUA比例超過(guò)50%時(shí)，建議收集更多oracle標(biāo)簽；當(dāng)OUA比例低于20%時(shí)，建議收集更多評(píng)估提示。

此外，協(xié)變量（特別是回答長(zhǎng)度）在校準(zhǔn)中起著重要作用。將回答長(zhǎng)度作為校準(zhǔn)協(xié)變量而非重新加權(quán)協(xié)變量可以改善所有方法的排名表現(xiàn)。研究還發(fā)現(xiàn)了預(yù)算分配的平方根定律，可以幫助實(shí)踐者在有限預(yù)算下優(yōu)化標(biāo)簽和評(píng)估的比例。

CJE的影響超越了技術(shù)層面。它為L(zhǎng)LM評(píng)估建立了新的標(biāo)準(zhǔn)，要求評(píng)估方法不僅要準(zhǔn)確，還要提供可靠的不確定性量化。這種要求促使整個(gè)行業(yè)更加重視評(píng)估的科學(xué)性和嚴(yán)謹(jǐn)性。

當(dāng)然，CJE也有一些局限性。它假設(shè)操作oracle與利益相關(guān)者價(jià)值觀保持一致，但oracle選擇本身是一個(gè)治理問(wèn)題。重要性加權(quán)方法需要日志策略和目標(biāo)策略之間的支撐重疊，當(dāng)重疊度較差時(shí)，原始比率會(huì)出現(xiàn)重尾現(xiàn)象。法官假設(shè)要求均值充分性和單調(diào)性，如果這些假設(shè)受到挑戰(zhàn)，系統(tǒng)性能可能下降。

盡管存在這些局限，CJE仍然代表了LLM評(píng)估領(lǐng)域的重要進(jìn)步。它不僅解決了當(dāng)前方法的根本缺陷，還為未來(lái)的研究指明了方向。隨著LLM越來(lái)越普及，可靠的評(píng)估方法變得越來(lái)越重要。CJE為這個(gè)關(guān)鍵問(wèn)題提供了科學(xué)、經(jīng)濟(jì)、可擴(kuò)展的解決方案。

說(shuō)到底，CJE就像給混亂的AI評(píng)估世界帶來(lái)了一套嚴(yán)格的測(cè)量標(biāo)準(zhǔn)。它讓我們能夠真正知道哪個(gè)AI更好，而不是僅僅依賴可能有偏見(jiàn)的猜測(cè)。對(duì)于普通用戶來(lái)說(shuō)，這意味著未來(lái)我們使用的AI產(chǎn)品將經(jīng)過(guò)更加嚴(yán)格和科學(xué)的測(cè)試，質(zhì)量更有保障。對(duì)于AI開(kāi)發(fā)者來(lái)說(shuō)，CJE提供了正確的指導(dǎo)信號(hào)，幫助他們開(kāi)發(fā)出真正有用的AI系統(tǒng)，而不是僅僅善于"考試"的AI。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。它體現(xiàn)了科學(xué)方法在AI發(fā)展中的重要性，強(qiáng)調(diào)了嚴(yán)謹(jǐn)評(píng)估對(duì)于AI安全和有效性的關(guān)鍵作用。隨著AI技術(shù)繼續(xù)快速發(fā)展，像CJE這樣的評(píng)估框架將成為確保AI系統(tǒng)可靠性和安全性的重要工具。對(duì)于關(guān)心AI發(fā)展方向的每個(gè)人來(lái)說(shuō)，這都是一個(gè)值得關(guān)注的重要進(jìn)展。

Q&A

Q1：CJE技術(shù)是什么，它解決了什么問(wèn)題？

A：CJE（因果法官評(píng)估）是由CIMO Labs開(kāi)發(fā)的LLM評(píng)估框架，專門(mén)解決當(dāng)前AI評(píng)判AI系統(tǒng)的三大問(wèn)題：偏好倒置（AI法官的打分標(biāo)準(zhǔn)與人類專家相反）、置信區(qū)間失效（95%的置信區(qū)間實(shí)際覆蓋率接近0%）、以及離線策略評(píng)估的災(zāi)難性失敗。CJE通過(guò)校準(zhǔn)、權(quán)重穩(wěn)定和不確定性感知推理來(lái)解決這些問(wèn)題。

Q2：使用CJE技術(shù)能節(jié)省多少評(píng)估成本？

A：實(shí)驗(yàn)結(jié)果顯示，CJE只需要5%的人工專家標(biāo)簽就能達(dá)到與完全人工評(píng)估相同的準(zhǔn)確率，成本降低了14倍。具體來(lái)說(shuō)，以前需要數(shù)萬(wàn)美元的大規(guī)模模型評(píng)估工作，現(xiàn)在只需要幾千美元就能完成，而且結(jié)果更加可靠。

Q3：普通用戶如何從CJE技術(shù)中受益？

A：對(duì)普通用戶來(lái)說(shuō)，CJE意味著未來(lái)使用的AI產(chǎn)品將經(jīng)過(guò)更嚴(yán)格和科學(xué)的測(cè)試，質(zhì)量更有保障。不再會(huì)出現(xiàn)AI模型在評(píng)測(cè)中表現(xiàn)很好但實(shí)際使用體驗(yàn)很差的情況，因?yàn)镃JE確保了評(píng)估標(biāo)準(zhǔn)與真實(shí)用戶需求的一致性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.