當評分機器"誤判"時：為什么你的AI助手其實比考官打的分數(shù)更高

2026-04-23 21:25:22　來源: 科技行者

北京舉報

分享至

這項由法國巴黎薩克雷大學CentraleSupélec下屬MICS實驗室聯(lián)合Artefact Research Center、Diabolocom和Cohere共同開展的研究，于2026年4月以預印本形式發(fā)布，論文編號為arXiv:2604.09497，有興趣深入了解的讀者可通過該編號查詢完整論文。

每當我們想知道一個AI助手到底"聰不聰明"，最常見的做法就是讓它回答一批題目，然后把它的答案和標準答案做比較，得出一個分數(shù)。聽起來合理，對嗎？但研究團隊發(fā)現(xiàn)，這個看似公平的評分流程，其實暗藏一個巨大的漏洞——問題不在于AI不會答題，而在于評分機器不會改卷。

打個比方：一位學生參加數(shù)學考試，老師規(guī)定必須在答題框里寫"答案為X"，但這位學生寫了"\boxed{45}"（一種數(shù)學格式），答案完全正確，卻被閱卷機器判成零分。這不是學生的問題，而是閱卷規(guī)則太死板?，F(xiàn)有AI評測體系，正在大規(guī)模上演類似的悲劇。

這支研究團隊系統(tǒng)地檢測了這個問題的嚴重程度，覆蓋36個AI模型、15項測試任務，結(jié)果令人擔憂。更重要的是，他們提出了一個輕量級的解決方案——BERT-as-a-Judge（以下簡稱"BERT法官"），用一個經(jīng)過專門訓練的小型語言理解模型來替代僵硬的規(guī)則匹配，既能讀懂答案的真實含義，又無需動用昂貴的大型AI作為裁判。

一、僵硬的閱卷機器：現(xiàn)有評測方式的根本缺陷

要理解這個問題，先從AI評測的日常流程說起。當研究人員想測試某個AI模型的能力，通常會給它一道題，比如"2+2等于多少"，然后要求它按照規(guī)定格式回答，例如"Final answer: 4"。接著，評測系統(tǒng)用一個叫做"正則表達式"的規(guī)則提取答案部分，再和標準答案做比對。

正則表達式可以理解為一把尺子，它只認識特定的形狀。如果答案寫成"Final answer: 4"，尺子量出來是4，正確。但如果模型寫成"The answer is 4"或者"4（因為2+2=4）"，尺子就量不出來，直接記零分。更糟的是，有時候模型好不容易按格式寫了，但最后加了一句說明，變成了"Final answer: \boxed{4}"，尺子依然會因為多出來的符號而判錯。

研究團隊把這種評測方式比作用一把只能量直線的尺子去測量曲線——工具本身的局限，直接影響了對學生真實能力的判斷。

具體來看，研究團隊對三類主流測試任務展開了調(diào)查，包括選擇題（比如MMLU、ARC）、閱讀理解抽取題（比如SQuAD、HotpotQA），以及開放式數(shù)學題（比如GSM8K、MATH）。他們記錄了每個模型在每道題上因格式問題導致答案無法被解析的比例，稱之為"解析失敗率"。

結(jié)果顯示，格式錯誤的比例在不同模型、不同任務之間差距懸殊。以數(shù)學題為最難駕馭：Llama-3的70B版本（一個參數(shù)規(guī)模相當大的模型）在數(shù)學題上的格式失敗率超過60%，意思是超過一半的回答根本讀不到答案。Qwen-3的32B版本在同類任務上也有約20%的失敗率。相比之下，選擇題和閱讀理解題要好一些，多數(shù)中等偏大的模型能達到接近零失敗率。

更有趣的發(fā)現(xiàn)是，模型的"家族背景"對格式依從性影響極大。Qwen-3和Gemma-3這兩個系列的模型在閱讀理解抽取題上幾乎能做到完美格式；而同等規(guī)模的Llama-3模型卻有相當比例的格式錯誤。這說明，格式依從能力并不完全等同于解題能力，它更多反映了模型訓練時是否被專門打磨過"寫規(guī)定格式"這件事。

僅僅是解析失敗還不夠嚴重，研究團隊進一步發(fā)現(xiàn)，即便格式正確、答案被成功提取出來，后續(xù)的"字面匹配"依然會出錯。以Gemma-3系列在閱讀理解任務上的表現(xiàn)為例：這些模型的格式失敗率幾乎為零，但最終得分依然大幅低于真實水平，原因在于它們喜歡給出稍微詳細一點的答案，比如"Identity Structure Analysis (ISA)"，而標準答案只寫了"Identity Structure Analysis"，字面上不完全匹配，就被判錯了。這就是所謂的"格式依從不等于真實能力"——模型答對了，但評分系統(tǒng)不認賬。

對AI排行榜的影響同樣觸目驚心。以Qwen-3的32B版本為例，在選擇題任務上，由于規(guī)則評測的系統(tǒng)性偏差，它的實際排名比真實水平低了整整18位。反過來，Gemma-3的4B版本則虛假地"爬升"了6位。換句話說，現(xiàn)有的AI排行榜，很大程度上是在比誰更會寫規(guī)定格式，而不是誰真的更聰明。

二、三種評委，各有短板：現(xiàn)有方法的對比

面對僵硬的規(guī)則評測，研究人員其實早已注意到問題所在，并提出過一些改進方向?，F(xiàn)有的方案大致分兩大類，研究團隊將其與自己提出的BERT法官一起放在同一個擂臺上比較。

第一類是規(guī)則評測，也就是前面提到的正則表達式加字面匹配。它的優(yōu)點是速度快、成本低、完全確定性，缺點已經(jīng)說得很清楚——太死板，不懂語義。

第二類是"用大模型來評分"，也就是LLM-as-a-Judge（大語言模型當法官）。簡單來說，就是再找一個AI，把題目、候選答案、標準答案一起喂給它，讓它判斷候選答案對不對。這種方法能理解語義，不在乎格式，聽起來很聰明。但它有兩個明顯的短板：第一，計算成本極高——需要額外運行一個大型AI，本身就要消耗大量資算資源；第二，規(guī)模至關(guān)重要，研究團隊發(fā)現(xiàn)，當大模型法官的參數(shù)規(guī)模在10億以下時，它的判斷能力甚至不如規(guī)則匹配，在選擇題上只能達到約50%的準確率，相當于隨機猜測的水平。

BERT法官走了一條不同的路。它基于一類叫做"雙向編碼器"的輕量級語言理解模型，這類模型的核心特點是能同時從左到右、從右到左地理解一段文本，非常擅長判斷"兩段文字在意思上是否等價"。研究團隊選用了一個叫做EuroBERT 210M的基礎模型（參數(shù)規(guī)模約2.1億），在約100萬條合成標注的題目-候選答案-標準答案三元組上進行了微調(diào)訓練，讓它學會"讀題-讀答案-判斷對錯"這件事。

訓練完成后，BERT法官的推理速度非?？?，在一臺普通筆記本電腦（蘋果M1芯片）上，每道題的評判時間約為200毫秒，相比動用大型AI來評判的方案，計算成本降低了數(shù)個數(shù)量級。

三、訓練BERT法官：如何從零打造一位"懂行的閱卷人"

BERT法官的誕生過程，就像是培訓一位新閱卷老師——你得先給他準備足夠多的例題，讓他在實踐中學會什么叫"答對"、什么叫"答錯"。

首先是數(shù)據(jù)準備階段。研究團隊讓36個不同的AI模型在15個測試任務上各自作答，收集了海量的原始回答。然后，他們用一個名叫Nemotron-Super-v1.5的強大AI模型扮演"答案裁判"的角色，對每條回答貼上"正確"或"錯誤"的標簽。Nemotron-Super-v1.5是目前公認判斷能力較強的大型模型，被用作自動標注工具。

為了驗證這種自動標注的可靠性，研究團隊專門請來了11位人類評估員，對其中一部分數(shù)據(jù)進行獨立標注，最終得到3212條人工標注記錄。比對結(jié)果顯示，人類評估員與Nemotron-Super-v1.5的一致率高達97.5%，其中數(shù)學題類別的一致率更達到98.7%。這個數(shù)字說明，用大模型自動標注的方法非?？煽?，幾乎和人工標注一樣準確。

訓練數(shù)據(jù)的構(gòu)成經(jīng)過了精心設計。研究團隊從三類任務中各自抽取數(shù)據(jù)，確保不同類型的題目在訓練集中占比均衡，最終形成約100萬條標注樣本。涵蓋的訓練任務包括：選擇題方向的MMLU、ARC-Easy、ARC-Challenge；閱讀理解方向的SQuAD-v2、HotpotQA；以及數(shù)學方向的GSM8K和MATH。其余任務（如CoQA、DROP、AIME、ASDiv等）則完全保留作為測試集，用于評估模型的"跨領(lǐng)域泛化能力"。

訓練過程相對簡單直接：基礎模型EuroBERT 210M在8塊MI250x GPU上跑了一輪完整訓練，總計約20GPU小時，采用標準的二分類交叉熵損失函數(shù)，學習率設為0.00002，配合5%的預熱階段和線性衰減調(diào)度。整個訓練成本在工業(yè)界和學術(shù)界都屬于相對低廉的范疇。

訓練完的BERT法官接收一個三元組輸入：題目內(nèi)容、模型的候選回答、標準參考答案，輸出一個介于0到1之間的概率分數(shù)，代表候選答案"答對了"的可信度。在實際使用中，以0.5為分界線，高于0.5判為正確，低于0.5判為錯誤。

四、考場上的真實較量：BERT法官的表現(xiàn)到底有多好

研究團隊在一個涵蓋全部15個任務的大型測試集上，同時評估了三種方法的準確率：規(guī)則評測、大模型法官（Qwen-3 0.6B，參數(shù)規(guī)模約6億）、以及BERT法官。評測標準是：對于每道題的每個模型回答，三種方法給出的"對/錯"判斷，與Nemotron-Super-v1.5的標準判斷相比，準確率是多少。

結(jié)果非常清晰。在選擇題類別上，BERT法官幾乎做到了完美：在ARC-Easy上達到99.7%準確率，MMLU上98.5%，TruthfulQA上98.6%，GPQA上93.5%，全面領(lǐng)先規(guī)則評測的88%左右。在閱讀理解類別上，BERT法官同樣大幅領(lǐng)先，HotpotQA上達到90.9%（規(guī)則評測75.6%），SQuAD-v2上89.3%（規(guī)則評測72.3%），CoQA上88.1%（規(guī)則評測僅67%，差距超過21個百分點）。在數(shù)學類別上，GSM8K達到98.8%（規(guī)則評測94.4%），MATH達到93.7%（規(guī)則評測73.4%，差距超過20個百分點），AIME24達到90%，ASDiv達到95.3%。

與此同時，大模型法官在小規(guī)模（0.6B參數(shù)）下的表現(xiàn)極其糟糕。在ARC-Challenge上，它只能達到50.2%的準確率，幾乎等于隨機猜測，遠不如規(guī)則評測的89%。在SQuAD-v2上也只有62.5%，同樣低于規(guī)則評測的72.3%。這說明，用語言模型來評判答案對錯，對模型規(guī)模的要求非常高，規(guī)模不夠的話，不如不用。

為了弄清楚大模型法官究竟需要多大規(guī)模才能追上BERT法官，研究團隊額外做了一個延伸實驗，測試了Qwen-3和Gemma-3兩個系列從0.6B到32B不等的多種規(guī)模，同時還測試了兩種提示方式：一種是直接讓模型輸出"True"或"False"（簡短模式），另一種是允許模型先思考再輸出結(jié)論（思維鏈模式）。

結(jié)果以計算量（推理浮點運算次數(shù)FLOPs）為橫軸、準確率為縱軸畫出對比曲線后，可以看到：BERT法官用極少的計算量就達到了頂級大模型法官（如Qwen-3 32B開啟思維鏈）才能匹敵的準確率。換句話說，BERT法官在性價比上完勝——花小錢，辦大事。

五、走出訓練集的舒適區(qū)：BERT法官的泛化能力測試

一個好的"閱卷老師"不應該只會批改自己見過的題型。研究團隊專門設計了兩類泛化測試：跨任務泛化，以及跨模型泛化。

跨任務泛化方面，CoQA、DROP、TruthfulQA、AIME24、AIME25、ASDiv這六個任務完全沒有出現(xiàn)在訓練集中。測試結(jié)果顯示，BERT法官在這些從未見過的任務上依然保持了高水準：TruthfulQA達到98.6%，CoQA達到88.1%，ASDiv達到95.3%。這說明，BERT法官并非在死記硬背訓練集里的題目，而是真正學會了判斷"語義等價"這件事的通用規(guī)律。

跨模型泛化方面，研究團隊特別測試了四個完全不在訓練數(shù)據(jù)范圍內(nèi)的模型家族，包括Ministral-3、LFM-2、EuroLLM和Apertus。他們做了一個對比實驗：一組BERT法官使用包含所有模型輸出的完整訓練集（ID條件），另一組特意把這四個家族的輸出從訓練集中剔除，再重新訓練（OOD條件），然后比較兩種版本在這四個家族模型上的評判準確率差距。

結(jié)果顯示，兩種版本的差距極小。以EuroLLM 9B在數(shù)學任務上為例，完整訓練版準確率94.5%，剔除后版本94.1%，差距僅0.4個百分點。其他模型家族的差距同樣微乎其微，大多不超過1個百分點。這說明，BERT法官不依賴于見過特定模型的輸出才能正確評判，它具備真正的跨模型泛化能力，可以被放心地用于評估全新發(fā)布的模型，而無需重新訓練。

六、更聰明的用法：混合策略、去掉題目、換格式仍然有效

研究團隊還探索了幾種實際部署中可能遇到的變體情況，為實際使用者提供了豐富的工程參考。

第一個變體是"混合策略"。在很多實際場景中，規(guī)則評測和BERT法官不一定非得二選一。研究團隊測試了一種折中方案：優(yōu)先用規(guī)則提取答案，如果格式正確就用規(guī)則匹配，如果格式解析失敗，再調(diào)用BERT法官補救。結(jié)果顯示，這種混合策略確實優(yōu)于純規(guī)則方案，但略低于全程使用BERT法官的方案。不過，對于一個格式失敗率只有20%的模型來說，混合策略可以把BERT法官的調(diào)用量減少到原本的五分之一，顯著降低計算開銷。

第二個變體是"去掉題目"的版本。BERT法官的默認輸入包含三部分：題目、候選答案、標準答案。但有時候，用戶可能只想比較兩段文本是否等價，不想傳入完整題目（比如在多模態(tài)場景中題目含有圖片，而模型目前只處理文本）。研究團隊專門訓練了一個不含題目的版本，測試結(jié)果顯示，去掉題目后準確率有所下降，但幅度較為溫和。以選擇題為例，從97.7%降至97.3%；數(shù)學題幾乎沒有影響，保持93.9%不變；閱讀理解的影響稍大，從89.2%降至84.2%，這是可以理解的，因為閱讀理解的答案抽取往往依賴題目語境來判斷哪段話才是"正確答案"。

第三個變體是"格式遷移"。研究團隊的訓練數(shù)據(jù)使用的是"軟格式"——要求模型在答案末尾寫上"Final answer: X"，但可以在前面自由推理。為了測試BERT法官在不同格式下的魯棒性，研究團隊專門收集了一批"自由格式"的回答（完全不規(guī)定格式），并交叉測試了兩種訓練版本（格式訓練版 vs 自由格式訓練版）在兩種測試集（格式測試集 vs 自由格式測試集）上的表現(xiàn)。

結(jié)果發(fā)現(xiàn)，自由格式訓練版在跨格式場景下表現(xiàn)更穩(wěn)健，例如用自由格式訓練、測試格式化答案時，多個任務的準確率依然很高（選擇題94%、數(shù)學93.5%）。這與直覺一致：見過更多樣化格式的模型，泛化能力更強。同時，規(guī)則評測在自由格式場景下完全失效（根本無法解析答案），而BERT法官依然能保持合理的準確率，進一步體現(xiàn)了其優(yōu)勢。

第四個特性是"閾值不敏感"。BERT法官輸出的是一個0到1之間的連續(xù)概率值，研究團隊測試了將判斷閾值從0到1遍歷后，各任務準確率的變化曲線。結(jié)果顯示，在0.1到0.9的寬泛范圍內(nèi)，準確率幾乎沒有明顯波動，說明BERT法官對于"對的答案"和"錯的答案"的區(qū)分度極高，默認使用0.5作為閾值完全夠用，不需要針對具體任務做精細調(diào)參。

第七個發(fā)現(xiàn)，也是關(guān)于訓練效率的一個好消息：研究團隊發(fā)現(xiàn)，即便只用10萬條訓練樣本（而不是默認的100萬條），BERT法官在選擇題和數(shù)學題上的表現(xiàn)已經(jīng)相當出色，繼續(xù)增加訓練數(shù)據(jù)并不能帶來顯著提升。閱讀理解任務因為需要更多上下文理解，從更多數(shù)據(jù)中獲益稍多一些，但整體而言，BERT法官的訓練效率非常高——10萬條數(shù)據(jù)對應約2GPU小時的訓練時間，成本極低。

七、評測方式對"考場答案"的影響：不同答題策略的比較

為了確保整個評測體系盡可能公平，研究團隊還系統(tǒng)比較了三種不同的"答題方式"對模型測量性能的影響，這部分工作幫助研究團隊確定了整個實驗體系中最優(yōu)的答題格式。

第一種是"對數(shù)似然"評測，也叫候選選項排名法。這種方式不讓模型直接生成答案，而是把所有選項分別拼在題目后面，計算語言模型認為哪個選項的延續(xù)概率最高。這種方法天生不需要格式解析，但研究團隊發(fā)現(xiàn)它嚴重壓制了模型的真實能力——在MMLU上比生成式答題低了約22個百分點，在ARC-Challenge上低了近30個百分點。這說明，語言模型在"比較候選項概率"這件事上的表現(xiàn)，遠不如讓它直接思考作答。

第二種是"嚴格格式"，要求模型只能輸出"Final answer: X"，不允許任何額外說明。這種方式雖然方便規(guī)則解析，但對需要推理的任務損傷極大：在GSM8K（小學數(shù)學）上低了30.5個百分點，在DROP上低了11.8個百分點，根本原因是強制約束格式剝奪了模型進行思維鏈推理的空間。

第三種是"軟格式"，要求模型在回答末尾寫"Final answer: X"，但前面可以自由推理。這種方式兼顧了格式可解析性與推理能力，在大多數(shù)任務上表現(xiàn)最好，是研究團隊整個實驗體系的默認設置。還有一種"完全自由"的格式，在部分任務上表現(xiàn)與軟格式相當，但喪失了規(guī)則可解析性，依賴BERT法官進行評判。

由此可見，答題格式本身就是一個影響模型測量性能的重要變量，研究團隊的工作也提醒我們：在解讀AI排行榜時，不僅要看分數(shù)，還要看這個分數(shù)是在什么格式約束下測出來的。

說到底，這項研究揭示了一個被長期忽視的評測盲區(qū)：我們以為在公平評測AI的智力，實際上在很多時候是在評測AI寫規(guī)定格式的服從度。BERT法官的意義，正在于用一種低成本、高準確率的方式，把這兩件事重新區(qū)分開來——讓真正會解題的模型得到應有的分數(shù)，讓格式不那么規(guī)整但推理正確的答案不再被冤枉打零分。

對于普通用戶來說，這意味著你在看到某款AI模型的評測分數(shù)時，需要多問一句："這個分數(shù)是用什么方式評出來的？"一個在規(guī)則評測下排名靠前的模型，換用更合理的評測方式后，排名可能截然不同，反之亦然。

對于AI研究者來說，這套方法提供了一條低成本的可行路徑——花2GPU小時訓練一個輕量評判模型，就可以獲得比傳統(tǒng)規(guī)則評測高得多的準確性，同時比使用大型AI法官便宜數(shù)百倍。研究團隊已經(jīng)將訓練數(shù)據(jù)、代碼和模型權(quán)重全部開源，這意味著任何團隊都可以直接使用或在此基礎上繼續(xù)改進。

當然，這項研究也有其清晰的邊界：它主要針對有明確正確答案的任務，比如選擇題、抽取式閱讀理解和數(shù)學題。對于開放式寫作、創(chuàng)意生成、代碼質(zhì)量評估等任務，BERT法官目前還沒有覆蓋。研究團隊也明確指出，將這套框架擴展到多語言場景、多模態(tài)輸入以及開放式生成評測，是自然的下一步方向。

有興趣深入了解具體技術(shù)細節(jié)的讀者，可以通過arXiv編號2604.09497查閱完整論文。

Q&A

Q1：BERT-as-a-Judge和普通正則表達式評測相比，準確率提升有多大？

A：在不同任務上提升幅度差異明顯。在CoQA這類閱讀理解任務上，BERT-as-a-Judge準確率約88%，而正則表達式只有67%，提升超過21個百分點。在MATH數(shù)學任務上，BERT-as-a-Judge達到93.7%，正則評測只有73.4%，提升約20個百分點。在多數(shù)選擇題任務上，兩者差距相對較小，但BERT-as-a-Judge依然穩(wěn)定領(lǐng)先，例如在ARC-Challenge上從89%提升至99.4%。

Q2：BERT-as-a-Judge訓練需要多少數(shù)據(jù)和算力？

A：研究團隊的默認配置使用約100萬條合成標注樣本，在8塊MI250x GPU上訓練約20GPU小時。但他們發(fā)現(xiàn)，僅用10萬條數(shù)據(jù)、約2GPU小時的訓練，就能在選擇題和數(shù)學題上達到接近滿分的評判準確率，閱讀理解類任務從更多數(shù)據(jù)中獲益稍多。訓練完成后，推理速度極快，在普通筆記本電腦上每道題評判約200毫秒。

Q3：用大語言模型來評判答案對錯為什么效果不好？

A：大語言模型擔任評判角色時，對模型規(guī)模要求極高。參數(shù)規(guī)模在6億以下時，判斷準確率甚至不如傳統(tǒng)規(guī)則匹配——在選擇題任務上只有約50%準確率，相當于隨機猜測。即使將規(guī)模增大到32B并開啟思維鏈推理，其準確率才能追上BERT-as-a-Judge，但此時計算成本已經(jīng)比BERT-as-a-Judge高出數(shù)百倍。簡而言之，大模型評判要么便宜但不準，要么準確但極貴。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.