網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

無解之判：研究級數(shù)學(xué)的推論式評估

2026-02-12 00:42:18　來源: CreateAMind

上海舉報

分享至

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

https://arxiv.org/pdf/2602.06291v1

摘要

推理模型的最新進(jìn)展表明，生成研究級數(shù)學(xué)問題的合理嘗試已漸成可能，但驗證環(huán)節(jié)仍是瓶頸，耗費稀缺的專家時間。我們提出假設(shè)：一個有意義的解答應(yīng)包含充分的方法層面信息，當(dāng)將其作為范例應(yīng)用于相關(guān)問題時，應(yīng)能帶來優(yōu)于錯誤解答的后續(xù)解題表現(xiàn)?；诖耍覀兲岢觥盎谕普摰男в迷u估”（Consequence-Based Utility）——一種無需標(biāo)準(zhǔn)答案的評估方法，通過檢驗候選解答在解決相關(guān)且可驗證問題時作為上下文示例的價值，為其打分。

我們在一組原創(chuàng)研究級數(shù)學(xué)問題上評估該方法，每個問題配有一份專家撰寫解答和九份大語言模型生成解答。結(jié)果表明，該方法在排序質(zhì)量上持續(xù)優(yōu)于獎勵模型、生成式獎勵模型及大語言模型裁判。具體而言，對 GPT-OSS-120B 模型，其首選準(zhǔn)確率（Acc@1）從 67.2% 提升至 76.3%，AUC 從 71.4 提升至 79.6；在 GPT-OSS-20B 上亦取得類似提升（AUC 從 69.0 升至 79.2）。此外，相比大語言模型裁判，該方法展現(xiàn)出更大的求解器–評估器差距，即便面對求解器本身常失敗的問題，仍能保持更強的正誤區(qū)分能力。

引言

一個數(shù)學(xué)假設(shè)若要被接受為科學(xué)知識，必須經(jīng)過廣泛的審查與驗證。然而，近期許多利用大語言模型推動科學(xué)進(jìn)步的嘗試（Gottweis 等，2025）側(cè)重于假設(shè)生成（Zhou 等，2024；Radensky 等，2024）與實驗規(guī)劃（Goel 等，2025），對嚴(yán)格驗證環(huán)節(jié)的關(guān)注則相對較少。因此，該步驟目前主要依賴兩類途徑：一是人類專家（Georgiev 等，2025），但其成本高昂、難以規(guī)?；欢谴笳Z言模型裁判（包括智能體系統(tǒng)）（Lu 等，2024；Zhu 等，2025；Panigrahi 等，2026），但其可靠性常受質(zhì)疑（Son 等，2024b；2025a）且存在偏見（Ye 等，2024）。這些局限性促使我們亟需更優(yōu)的假設(shè)驗證方法。

需指出的是，基于推論的效用評估專為研究級問題設(shè)計——即當(dāng)前大語言模型尚無法解決的問題。因此，我們聚焦于真正超出當(dāng)下模型能力范圍的研究級問題，并構(gòu)建了 EXPERTMATH 數(shù)據(jù)集，包含 192 道專家編寫的問題及其作者解答，以及 425 道大語言模型生成的問題。其中半數(shù)專家編寫的問題對領(lǐng)先模型（如 GPT-5 與 Gemini-3-Pro）而言仍屬未解難題。在該數(shù)據(jù)集上，我們的方法優(yōu)于各類無需標(biāo)準(zhǔn)答案的基線方法，包括獎勵模型、生成式獎勵模型及大語言模型裁判。例如，作為大語言模型裁判時，GPT-OSS-120B 的 Acc@1 為 67.21，AUC 為 71.42；而在基于推論的效用評估下，這兩項指標(biāo)分別提升至 76.27 與 79.63。此外，相比大語言模型裁判，基于推論的效用評估展現(xiàn)出更大的求解器–評估器差距，即便面對模型本身常無法解答的問題，仍能更有效地區(qū)分正確與錯誤解答，這使其特別適用于研究級問題的評估。

最后，我們的誤差分析表明，性能提升源于基于推論的效用評估能更可靠地降低以下解答的排名：推理錯誤、未經(jīng)證實的壓縮步驟或未經(jīng)證實的解釋；同時，該方法對風(fēng)格化線索與類權(quán)威陳述的敏感性更低——而這些因素已知會誤導(dǎo)大語言模型裁判（Ye 等，2024；Moon 等，2025）。

預(yù)備知識與相關(guān)工作
2.1 數(shù)學(xué)領(lǐng)域中對無神諭驗證的需求大語言模型能夠在真正開放或先前未解的研究問題上為專業(yè)數(shù)學(xué)家提供有意義的協(xié)助。2025年末，公開記錄的人機協(xié)作成果包括：(i) 建立了Nesterov加速梯度法的點收斂性（Jang & Ryu, 2025）；(ii) 針對含擦除的非交互式相關(guān)性提取中的“多數(shù)最優(yōu)性”猜想，構(gòu)造出有限反例（Ivanisvili & Xie, 2025）；(iii) 確定了在Wasserstein有界污染下魯棒密度估計的精確極小極大最優(yōu)誤差率（Dobriban, 2025）。然而，盡管取得顯著進(jìn)展，這些報告亦強調(diào)：當(dāng)前模型仍是高方差的生成器，而非可靠的自主定理證明器。Jang & Ryu (2025) 指出，ChatGPT生成了“大量論證，其中約80%是錯誤的”；Dobriban (2025) 提到，GPT-5“略過了某些細(xì)節(jié)，而填補這些細(xì)節(jié)有時需要數(shù)日工作”；Schmitt (2025) 觀察到“某些模型聲稱了虛假的反例”。因此，進(jìn)展仍依賴教授級別的分診工作：專家必須拒絕幻覺式的證明嘗試、修補缺失步驟，并將想法轉(zhuǎn)化為可檢驗的論證，之后任何結(jié)果才可安全地被信任或分享。這些經(jīng)驗凸顯了無神諭驗證的需求：即能夠過濾與評分候選研究產(chǎn)出的可擴展驗證機制，且無需為每次嘗試都調(diào)用稀缺的領(lǐng)域?qū)＜疑裰I。

2.2 現(xiàn)有無神諭驗證器

參數(shù) φ 通過最大似然法學(xué)習(xí)（即標(biāo)準(zhǔn)的邏輯偏好損失）。為在推理階段擴展獎勵模型的規(guī)模，研究者提出了過程獎勵模型（Process Reward Models, PRMs）（Zhang 等，2025b）與生成式獎勵模型（Generative Reward Models, GenRMs）。在我們的設(shè)定中，默認(rèn)采用 GenRMs（Zhang 等，2024），原因在于近期研究表明，相較于結(jié)果層面的評分，PRMs 可能穩(wěn)定性較差（Guo 等，2025；Son 等，2025b），且當(dāng)前實踐日益傾向于采用生成式評估器（Blakeman 等，2025；Liu 等，2025b）。GenRM 會生成一個評估字符串（通常為包含顯式數(shù)值評分的簡短評語），

3 基于推論的效用評估

作為正確性信號的上下文可學(xué)習(xí)性。先前研究已利用上下文中的表現(xiàn)作為示例與演示價值的代理指標(biāo)（Chang & Jia, 2023；Nguyen & Wong, 2023；Xie 等, 2024）。相關(guān)地，上下文條件化亦可作為訓(xùn)練信號，例如通過從教師模型中蒸餾知識——該教師模型可觀察特權(quán)軌跡，而學(xué)生模型僅能觀察問題本身（Zhao 等, 2026）。盡管取得上述進(jìn)展，上下文估值目前主要應(yīng)用于數(shù)據(jù)清洗、檢索、歸因或訓(xùn)練任務(wù)，在作為無神諭驗證機制方面的應(yīng)用仍較為有限。本文工作與以往研究的區(qū)別在于：我們利用上下文可學(xué)習(xí)性，通過測量候選解答在鄰域問題上所產(chǎn)生的下游后果，來驗證其正確性。

實驗設(shè)置

4.1 研究級數(shù)學(xué)問題的收集
我們從70道由教員原創(chuàng)手工設(shè)計的問題出發(fā)，涵蓋三大廣泛領(lǐng)域，涉及關(guān)鍵詞包括但不限于：表示論與代數(shù)組合（如赫克代數(shù)、萬有考克斯特系統(tǒng)、卡日丹–盧斯蒂格多項式、波洛算法、布倫蒂猜想）、幾何學(xué)（代數(shù)與微分幾何）（如科爾阿爾–約翰遜三重簇、Q-法諾簇、里奇下界），以及同倫論與同倫方法（如同倫代數(shù)、p進(jìn)同倫論、沙法列維奇擴張）。表1通過與其他成熟數(shù)學(xué)評測基準(zhǔn)的對比，凸顯了我們數(shù)據(jù)集 EXPERTMATH 的挑戰(zhàn)性。其中，AIME 2025（MAA）是通往美國數(shù)學(xué)奧林匹克競賽（USAMO）的邀請賽；IMProofBench（Schmitt 等，2025）面向研究級數(shù)學(xué)證明寫作；FrontierMath（Glazer 等，2024）則明確設(shè)計為未發(fā)表的專家原創(chuàng)問題集合。在 EXPERTMATH 上的得分（7.14–47.14；均值25.5）表明其難度高于競賽類基準(zhǔn)如 AIME 25（80.3–95.7；均值91.0），且模型表現(xiàn)低于 IMProofBench（37.6–71.8；均值50.7）。我們的基準(zhǔn)絕對得分尺度最接近 FrontierMath（T1–3）（20.7–37.6；均值30.2）。最后，所收集問題中超過半數(shù)未被任何測試模型解決，對 GPT-5（Singh 等，2025）與 Gemini-3-Pro（Team 等，2025）等前沿模型而言仍屬開放問題。

4.2 鄰域問題、真實答案與候選解答

針對每個問題，我們額外收集一組鄰域問題。這些問題是作者創(chuàng)作的變體，在擾動原問題陳述的同時保留其核心數(shù)學(xué)思想。作者被要求設(shè)計這樣的變體：一旦理解原問題，這些變體應(yīng)變得直接可解（例如，通過復(fù)用相同的關(guān)鍵引理或歸約方法），并在可行時使其略易於原問題。實踐中，變體數(shù)量過多易導(dǎo)致冗余，因此我們將每個原問題的變體收集上限設(shè)為兩個。作者每完成一個問題包（包括主問題、鄰域問題及參考解答）可獲得約600美元報酬。據(jù)我們所知，EXPERTMATH 是目前該難度級別下唯一提供專家撰寫解答的基準(zhǔn)數(shù)據(jù)集。更多示例與細(xì)節(jié)見附錄 D。

每個原問題及其鄰域變體均配有作者撰寫的真實答案。專家撰寫的解答形式多樣，涵蓋詳盡的多頁闡述、簡潔的概要、基于直覺的論證，或足以重構(gòu)完整證明的外部結(jié)果指引。為便于自動化驗證，我們要求最終答案以緊湊、可驗證的形式呈現(xiàn)，即便伴隨的書面推導(dǎo)較為非形式化。

最后，我們通過在多樣化模型集合（GPT-OSS-120B、GPT-5、GPT-5 Pro、Gemini-3-Pro 與 Gemini DeepThink）上采樣，為每個原問題構(gòu)建大語言模型生成的候選解答池。我們?yōu)槊總€問題精選九個候選模型解答：四個正確，五個錯誤。每個候選解答均經(jīng)過兩步人工復(fù)核：(i) 驗證其最終答案與真實答案的一致性；(ii) 閱讀推導(dǎo)過程以確認(rèn)數(shù)學(xué)有效性。最終數(shù)據(jù)集包含 192 道原創(chuàng)研究級數(shù)學(xué)問題（70 道原問題及 122 道變體），每道問題均配有專家撰寫解答，以及經(jīng)人工驗證的 630 個大語言模型生成解答。圖 2 展示了一個示例三元組。

4.3 基線方法
針對每個目標(biāo)問題 Q Q 的固定候選解池，我們將基于推論的效用評估與三種標(biāo)準(zhǔn)無神諭選擇基線進(jìn)行對比：(i) 大語言模型裁判（LLM-Judges），(ii) 獎勵模型（RMs），(iii) 生成式獎勵模型（GenRMs）。我們使用四種模型（GPT-OSS-20B/120B [Agarwal et al., 2025] 和 Qwen3-30B-A3B/235B-A22B [Yang et al., 2025]）嘗試解決以 ( Q , C ) 為條件的鄰域問題。這些模型同樣用于大語言模型裁判。對于獎勵模型基線，我們采用 AceMath-RM-72B [Liu et al., 2025a] 和 Qwen2.5-Math-RM-72B [Yang et al., 2024] 兩種數(shù)學(xué)專用獎勵模型。對于生成式獎勵模型基線，我們使用 Qwen3-Nemotron-235B-A22B-GenRM [Blakeman et al., 2025] 和 Llama-3.3-Nemotron-Super-49B-GenRM [Wang et al., 2025]。兩種模型的標(biāo)準(zhǔn)模板均要求輸出兩個響應(yīng)并返回逐響應(yīng)及成對信號。在我們的實驗中，我們提供候選解作為第一個響應(yīng)，固定占位符字符串作為第二個響應(yīng)，并僅解析逐響應(yīng)的有用性評分。除確定性獎勵模型外（我們僅運行單次評分），生成式獎勵模型和大語言模型裁判均獨立重復(fù)64次。此舉旨在匹配其推理成本與基于推論的效用評估的一致性。在所有設(shè)置中，允許模型推理至多16k個token，并將溫度參數(shù)設(shè)為推薦值。由于已發(fā)布的獎勵模型通常具有較短的原生上下文窗口，我們應(yīng)用RoPE縮放（Chen et al., 2023）以支持更長推理。評估中使用的提示詳見附錄E。

4.4 評估指標(biāo)
每個基線方法為候選解輸出單一標(biāo)量評分。由于我們的數(shù)據(jù)集提供二元標(biāo)簽而非分級質(zhì)量，我們不評估評分校準(zhǔn)性。相反，我們測量評分對正確解與錯誤解的排序分離能力。我們報告五項更高-更優(yōu)指標(biāo)：Acc@1（排名首位是否為正確解）、Recall@5（前五名中恢復(fù)的正確解比例）、AUC（正確解與錯誤解之間的成對可分性，平局部分計分）、HumanWin（人類撰寫解評分高于平均錯誤解的概率）以及MeanWin（平均正確解評分高于平均錯誤解的概率）。當(dāng)同一原問題存在多個變體時，我們對變體取平均值。正式定義見表6。

主要結(jié)果

基于推論的效用評估（CBU）優(yōu)于所有基線方法。表2展示了所評估方法間的清晰層級關(guān)系。獎勵模型基線表現(xiàn)最差（例如，AceMath-72B-RM 僅達(dá)到 20.75 AUC），這在意料之中，因其計算預(yù)算顯著更低（僅為其他方法所用推理次數(shù)的 1/64）（Lee 等，2025a）。大語言模型裁判表現(xiàn)明顯更強，但當(dāng)使用相同主干模型時，基于推論的效用評估持續(xù)優(yōu)于大語言模型裁判評分。例如，采用 Qwen3-235B-A22B 時，CBU 達(dá)到 71.38 AUC，超過對應(yīng)的大語言模型裁判（69.48）與 Qwen3-235B-GenRM（67.85）。對于 GPT-OSS-120B，從大語言模型裁判評分切換至 CBU 后，所有指標(biāo)均獲提升，增益幅度從 Recall@5 的 +6.13（76.91 至 83.04）到 HumanWin 的 +34.29（48.57 至 82.86）不等。Qwen3-30B-A3B 與 GPT-OSS-20B 亦呈現(xiàn)類似提升。主要例外出現(xiàn)在 Qwen3-235B-A22B 的 Recall@5 指標(biāo)上，此時大語言模型裁判以 5.87 個百分點領(lǐng)先（80.02 對 74.15）。與圖7一致，這似乎源于過度自信的評分：雖提升了前五命中率，卻削弱了細(xì)粒度排序能力。值得注意的是，即便在 MeanWin 已較高的情況下，CBU 在 HumanWin 上仍取得尤為顯著的提升，表明其與專家評估具有更好對齊性。我們認(rèn)為這源于風(fēng)格錯配：人類撰寫的解答通常簡潔且依賴直覺，而大語言模型裁判可能過度加權(quán)表層線索，如冗長度與規(guī)范格式（Saito 等，2023；Ye 等，2024）；CBU 對此類呈現(xiàn)特征的敏感性較低。

基于推論的效用評估在評估模型無法解決的問題的候選解時表現(xiàn)更佳。求解-評估差距（Solve-to-Judge gap）（Sun 等，2025）表示模型判斷解的能力與其解決底層問題能力之間的差異。圖3繪制了正確解與錯誤解之間的平均分差與問題難度的關(guān)系，難度由 1 - avg@64 衡量（0 = 完全可解；1 = 幾乎不可解）。即使在最難的區(qū)間（1 - avg@64 ≈ 1），LLM-Judge 和 CBU 均表現(xiàn)出非零區(qū)分度，這與近期發(fā)現(xiàn)一致：模型能夠在自身無法解決的實例上區(qū)分正確與錯誤的解（Nie 等，2025）。然而，隨著難度增加，評估器的表現(xiàn)出現(xiàn)分化。評估器的可區(qū)分性急劇下降，而 CBU 保持穩(wěn)健，使其更適合研究級問題特有的高難度尾部。這種模式在一定程度上是預(yù)期的，因為 CBU 使用鄰域表現(xiàn)作為正確性的代理指標(biāo)，而在容易的實例上（求解器無論是否條件化都能成功，例如無需幫助即可解決，或從錯誤候選解中修復(fù)錯誤），這一指標(biāo)變得信息量較低。

更廣泛地說，這兩種方法反映了不同的評估模式。LLM-Judges 類似于代碼審查：它們檢查單個推理軌跡的合理性和一致性，當(dāng)錯誤解表面上看起來連貫且錯誤微妙時，這種評估變得不可靠。相比之下，CBU 類似于單元測試：它根據(jù)候選解的下游結(jié)果進(jìn)行評分，即條件化后是否能改善在鄰域問題上的表現(xiàn)，當(dāng)直接檢查變得困難時，這種信號仍然具有信息量。

基于推論的效用評估評分對正確性更具預(yù)測力。表3通過為每個主干模型擬合邏輯回歸分類器并報告準(zhǔn)確率，評估了各驗證器的標(biāo)量評分對二元正確性的預(yù)測能力。在全部四個主干模型上，基于基于推論的效用評估評分（U）訓(xùn)練的分類器均優(yōu)于基于大語言模型裁判評分（J）訓(xùn)練的分類器，增益幅度從6.02個百分點（Qwen3-235B-A22B）到18.25個百分點（Qwen3-30B-A3B）不等。這表明（U）提供了比（J）更具線性可分性的正確性信號。此外，同時使用兩種評分可進(jìn)一步提升準(zhǔn)確率（例如，GPT-OSS-20B：73.09 升至 73.90；Qwen3-235B-A22B：72.79 升至 79.65），說明基于推論的效用評估與大語言模型裁判捕獲了互補的信息。

附加分析

前文已證明基于推論的效用評估（Consequence-Based Utility）優(yōu)于標(biāo)準(zhǔn)無神諭驗證方法。本節(jié)探究該優(yōu)勢成因，并報告有助于解釋性能差距的實證觀察。

基于推論的效用評估降低對錯誤解答的過度自信，同時更好保留人類撰寫解答的正確性信號。圖5報告了針對每種解答類型，驗證器賦予高于平均分的評分概率 Pr[s(C) ? s? > 0]（其中 s(C) 為驗證器對候選解答的評分，s? 為同實例候選集的平均評分）。在所有模型中，大語言模型裁判比基于推論的效用評估更傾向于將人類撰寫正確解答評高于均值（例如 Qwen3-235B-A22B 顯示 0.90 vs. 0.52）。相反，對于人類撰寫正確解答，趨勢出現(xiàn)反轉(zhuǎn)：基于推論的效用評估比裁判更常賦予高于均值的評分（例如 GPT-OSS-120B：0.57 vs. 0.44；Qwen3-30B-A3B：0.57 vs. 0.46）。在錯誤解答上也存在另一差異：大語言模型裁判更易將錯誤答案評高于均值，且對 Qwen3-30B-A3B 和 Qwen3-235B-A22B 超過半數(shù)的錯誤解答均高于均值（均為 0.53）；而基于推論的效用評估基本避免此失效模式，僅 0.08–0.14 的錯誤解答評分高于均值。綜合來看，基于推論的效用評估與大語言模型裁判的性能差距可能源于兩點：基于推論的效用評估能更好識別人類撰寫正確解答，同時更可靠地懲罰錯誤解答。

基于推論的效用評估通過懲罰不可重構(gòu)的推理來改進(jìn)驗證。為理解 CBU 為何優(yōu)于大語言模型裁判，我們進(jìn)行了定性誤差分析：檢查了 112 個錯誤的問題-解答對，其中 GPT-OSS-120B 對這些解答賦予了低于均值的 CBU 評分，卻給出了高于均值的大語言模型裁判評分。我們利用 GPT-5-Pro 提供初始標(biāo)簽，隨后由一名數(shù)學(xué)博士生進(jìn)行確認(rèn)。我們標(biāo)注了四種可重疊的錯誤類型：(i) 錯誤推理（無效步驟、矛盾或錯誤計算），(ii) 未經(jīng)證實的壓縮（缺失阻礙局部重構(gòu)或遷移的中間步驟），(iii) 未經(jīng)證實的解釋（對問題陳述的多種合理解讀中未聲明的選擇），(iv) 外部引用（關(guān)鍵主張主要通過引用命名結(jié)果而未提供推導(dǎo)或條件）。

這些案例集中于兩種失效模式。未經(jīng)證實的壓縮出現(xiàn)在 80/112 例（71.4%），錯誤推理出現(xiàn)在 77/112 例（68.8%），表明許多錯誤解答對大語言模型裁判而言顯得有效，尤其是當(dāng)它們呈現(xiàn)精煉的高層論證卻省略了驗證關(guān)鍵步驟時。外部引用亦較為常見（35/112；31.3%），這與證據(jù)一致：大語言模型裁判易受類權(quán)威線索的影響（Jeong 等，2025；Moon 等，2025）。CBU 可能對這些解答降權(quán)的一個合理解釋是：錯誤或未充分指定的候選解答為解決鄰域變體提供了極少可遷移的信息，從而導(dǎo)致效用評分較低?？傮w而言，我們推測 CBU 的性能提升主要源于對那些外表可信但缺乏可重構(gòu)、可遷移推理的解答進(jìn)行了有效降權(quán)。

基于推論的效用評估實踐指南

7.1 需要生成多少次推理
根據(jù)設(shè)計，基于推論的效用評估（Consequence-Based Utility）需要多次推理，因為它通過下游表現(xiàn)來估計候選解的正確性。相比之下，大語言模型裁判（LLM-Judge）可以在單次推理中給出評分。為確保性能提升并非源于更大的推理預(yù)算，我們在全文中對LLM-Judge和CBU均使用64次推理。兩種方法平均消耗的token數(shù)量相當(dāng)（見表5），因此均無系統(tǒng)性預(yù)算優(yōu)勢。由此引出一個自然問題：是否必須使用64次推理才能可靠估計CBU？

7.2 如何構(gòu)建鄰域問題
在實驗中，我們使用教員撰寫的鄰域問題。然而在實踐中，獲取帶有已驗證答案的專家變體可能與收集真實答案本身同樣困難。因此，我們研究了獲取質(zhì)量相近的的實用替代方案。我們從 RealMath（Zhang 等，2025a）出發(fā)，該方法通過轉(zhuǎn)換數(shù)學(xué)論文中的定理自動生成研究生級別的問題。為確保問題具有足夠挑戰(zhàn)性，我們使用 GPT-OSS-120B 進(jìn)行 1024 次嘗試，僅保留具有中等可解性（0.05 < Avg@1024 < 0.5）的實例。隨后，我們采用兩種方法構(gòu)建鄰域問題：其一，我們追蹤明確的“相關(guān)工作”指引至早期論文，并將 RealMath 轉(zhuǎn)換應(yīng)用于被引文獻(xiàn)（例如，Ortega & Eballe (2022) 指向 Ortega & Eballe (2021)）；其二，我們提示 Gemini-3-Pro 生成一個密切相關(guān)的變體。接著，我們通過 Gemini-3-Pro、GPT-5-Pro 與 Grok-4 求解以獲得臨時答案，僅保留三者在最終答案上達(dá)成一致的實例。所有候選解答均由大語言模型生成，并由大語言模型裁判進(jìn)行分類。由于這些標(biāo)簽源于模型一致性而非專家驗證，該數(shù)據(jù)集不適合單獨用于確立 CBU 的有效性。相反，在專家撰寫子集上驗證 CBU 后，我們使用它來說明可行的替代方案。最后，我們還考慮了 DaftMath（Trang，2025）——一個競賽級問題集合，其經(jīng)輕微變換的變體被設(shè)計為具有整數(shù)答案。兩個 RealMath 子集與 DaftMath 分別包含 127、298 與 77 個問題。

表4報告了GPT-OSS-20B在三個數(shù)據(jù)集上的表現(xiàn)。在兩個RealMath變體上，CBU顯著優(yōu)于大語言模型裁判評分。相比之下，在DaftMath上，大語言模型裁判評分更強（例如，Acc@1 93.51 對 85.58）。這一對比與我們先前的觀察一致：CBU在難度更高的問題上表現(xiàn)更佳。盡管DaftMath的變體極為接近（核心幾乎相同），但它們屬于競賽級別，遠(yuǎn)比RealMath的研究生級別問題簡單，因此求解器往往無論上下文示例如何都能成功求解，從而降低了效用評分的判別價值?？傮w而言，這些結(jié)果表明CBU并不依賴教員撰寫的鄰域問題。當(dāng)目標(biāo)問題對求解器具有足夠挑戰(zhàn)性時，大語言模型生成的鄰域問題已足以支撐CBU的有效性。

討論與未來工作

本文提出基于推論的效用評估（Consequence-Based Utility），一種在缺乏真實答案時通過下游表現(xiàn)估計解答正確性的無神諭方法。在研究級數(shù)學(xué)問題上，CBU 持續(xù)優(yōu)于大語言模型裁判與獎勵模型，并在專家撰寫與大語言模型生成的鄰域問題上均保持有效性。一個關(guān)鍵局限在于適用性。與大語言模型裁判不同——后者雖存在系統(tǒng)性偏見但適用范圍廣泛（Salinas 等，2025；Son 等，2024a；He 等，2025）——CBU 需要額外投入以構(gòu)建鄰域問題。盡管我們證明自動化生成是可行的（第7節(jié)），但其可靠性依賴于生成器在無人工監(jiān)督下產(chǎn)出合理變體的能力。CBU 的信息量亦高度依賴于鄰域問題難度是否處于“最佳區(qū)間”：若 Q ? 過于簡單，求解器將無視條件化而直接成功；若過于困難，則無論條件化如何均會失敗，這使得鄰域構(gòu)建部分依賴于模型能力。因此，CBU 最適用于高風(fēng)險場景——即對固定且困難的問題要求高置信度驗證的場合。未來工作包括改進(jìn)完全自動化的鄰域生成、將 CBU 推廣至數(shù)學(xué)以外的其他 STEM 領(lǐng)域，以及在真正開放的問題上評估其有效性；在這些場景中，鄰域構(gòu)建與正確性評估本身都更為困難。

原文鏈接：https://arxiv.org/pdf/2602.06291v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.