數(shù)學(xué)推理魯棒性研究：基于高階數(shù)學(xué)問題等價變換的基準(zhǔn)測試

2026-03-04 19:08:21　來源: CreateAMind

上海舉報

分享至

大模型數(shù)學(xué)推理魯棒性研究：基于高級數(shù)學(xué)問題等價變換的基準(zhǔn)測試

AN INVESTIGATION OF ROBUSTNESS OF LLMS INMATHEMATICAL REASONING: BENCHMARKING WITHMATHEMATICALLY-EQUIVALENT TRANSFORMATION OF ADVANCED MATHEMATICAL PROBLEMS

https://arxiv.org/pdf/2508.08833v2

摘要

在本文中，我們引入了一個超越傳統(tǒng)方法的系統(tǒng)框架，通過對數(shù)學(xué)上等價但具有語言和參數(shù)變化的高級數(shù)學(xué)問題進行壓力測試，來評估大語言模型（LLM）的數(shù)學(xué)推理魯棒性。這些變換使我們能夠衡量 LLM 對非數(shù)學(xué)擾動的敏感性，從而能夠更準(zhǔn)確地評估它們的數(shù)學(xué)推理能力。使用這種新的評估方法，我們創(chuàng)建了 PutnamGAP，這是一個新的基準(zhǔn)數(shù)據(jù)集，包含競賽級數(shù)學(xué)問題的多個數(shù)學(xué)等價變體。使用新數(shù)據(jù)集，我們評估了多個代表性 LLM 家族并檢查了它們的魯棒性。在 18 個商業(yè)和開源模型中，我們觀察到在變體上性能急劇下降。OpenAI 的旗艦推理模型 O3 在原始問題上得分為 51.5%，但在表面重命名變體上下降了 4.7 個百分點，在參數(shù)變體上下降了 12.9 個百分點，而較小的模型表現(xiàn)更差。總體而言，結(jié)果表明，提出的新評估方法對于加深我們對 LLM 魯棒性的理解以及為進一步提高其數(shù)學(xué)推理能力產(chǎn)生新見解是有效的。

1 引言

動機。現(xiàn)代 AI 系統(tǒng)越來越多地被委托給依賴于魯棒推理而非模式匹配的任務(wù)。因此，精確測量 LLM 的推理能力及其超越記憶文本表面形式的泛化能力很重要。然而，現(xiàn)有的數(shù)學(xué)推理基準(zhǔn)表現(xiàn)出兩個關(guān)鍵弱點：(i) 泄漏導(dǎo)致的分數(shù)膨脹，因為基準(zhǔn)項目迅速滲入預(yù)訓(xùn)練語料庫，以及 (ii) 魯棒性覆蓋有限，因為今天的數(shù)據(jù)集太小或缺乏探測真正泛化的受控變換。如果我們旨在以醫(yī)療或網(wǎng)絡(luò)安全等安全關(guān)鍵領(lǐng)域所要求的同樣嚴謹性來基準(zhǔn)化推理，解決這些弱點是緊迫的。

通過訓(xùn)練泄漏導(dǎo)致的基準(zhǔn)膨脹。最近的研究表明，包括 GSM8K (Cobbe 等人，2021) 和 MATH (Hendrycks 等人，2021) 在內(nèi)的公共數(shù)據(jù)集已經(jīng)泄漏到用于預(yù)訓(xùn)練大語言模型 (LLM) 的網(wǎng)絡(luò)規(guī)模語料庫中，人為地抬高了測試時準(zhǔn)確率。因此，排行榜分數(shù)不再保證真正的推理能力；它可能僅僅反映了對基準(zhǔn)項目或其解決方案的記憶。簡單地發(fā)布另一個數(shù)據(jù)集只是推遲了問題：一旦其項目進入未來的訓(xùn)練語料庫，分數(shù)就會上升而沒有真正的進步。需要的是一個系統(tǒng)方法，該方法 (i) 測量模型超越逐字記憶的泛化能力，以及 (ii) 可以生成無限的評估項目供應(yīng)，限制未來的泄漏。

競賽數(shù)學(xué)揭示了下一個魯棒性瓶頸。大語言模型 (LLM) 現(xiàn)在在廣泛使用的基準(zhǔn)測試（如 GSM8K 和 MATH）上準(zhǔn)確率超過 90%， prompting 聲稱“接近人類”的數(shù)值推理，但在交織多個領(lǐng)域的奧林匹克風(fēng)格或 Putnam 級別問題上仍然失敗。現(xiàn)有的 Putnam 衍生數(shù)據(jù)集太小，無法暴露這一差距：PUTNAM-AXIOM（236 個原始 + 52 個變體）(Huang 等人，2025) 和 PUTNAMBENCH（640 個形式化定理）(Tsoukalas 等人，2024) 仍保持在數(shù)百個，且沒有一個提供系統(tǒng)的泛化和擾動。這些事實暴露了現(xiàn)有評估中的弱點 (i) 規(guī)模不足和弱點 (ii) 缺乏受控的、系統(tǒng)的變換。

泛化與擾動 (GAP)，一種新穎的評估策略。我們用一個新想法來解決泄漏和魯棒性問題：在同一問題的數(shù)學(xué)等價版本上對模型進行壓力測試。對于具有解集 S(x) 的問題 x 和 LLM f，魯棒性是當(dāng) x 被等價保持算子族 T 變換時的期望準(zhǔn)確率。我們將 T 劃分為 Tsurf（改變符號顯著性的表面重命名）和 Tpara（在改變場景和參數(shù)的同時保留相同證明步驟的核心重寫）。這個 GAP 框架 (i) 創(chuàng)建了無限的未見測試項目流，減輕未來的污染，以及 (ii) 量化模型可以超越記憶表面形式泛化多遠。它為分析和量化 LLM 數(shù)學(xué)推理能力的魯棒性提供了一種新的通用診斷評估方法。

PutnamGAP：在 85 年的問題上實例化 GAP。我們在 1938-2024 年的每個 William Lowell Putnam 競賽問題（1,051 個原始問題）上實例化 GAP，并將每個項目擴展為五個變體——四個表面重命名和一個核心重寫——獲得 6,306 個壓力測試問題。兩輪 QA 通行證——15 輪 O3 自我審查加上 10% 的抽查——未發(fā)現(xiàn)實質(zhì)性錯誤。

頭條結(jié)果。如圖 4 所示，在 18 個模型中，所有模型都遭受簡單重命名和基于步驟的重寫的影響。OpenAI 的 O3 在原始陳述上得分為 51.5%，但在表面重命名下?lián)p失 4.7 個百分點 (9.12%)，在參數(shù)重寫下?lián)p失 12.9 個百分點 (25.22%)。這些下降證實了當(dāng)應(yīng)用表面性或結(jié)構(gòu)擾動時，高排行榜分數(shù)可能會崩潰——這正是數(shù)據(jù)泄漏掩蓋的效果。

貢獻。(1) 我們提出了 GAP，一個通過數(shù)學(xué)等價變換測量魯棒性的新穎通用框架，克服了當(dāng)前評估方法的兩個常見缺陷（即數(shù)據(jù)泄漏和缺乏魯棒性測量）。(2) 我們發(fā)布了 PutnamGAP，這是第一個 6k 規(guī)模的競賽基準(zhǔn)，系統(tǒng)地區(qū)分了表面級別和結(jié)構(gòu)泛化，同時限制未來泄漏。(3) 我們提供了跨越 17 個 LLM 的第一個綜合魯棒性基線，以及一個開源評估堆棧。

2 泛化與擾動 (GAP) 框架

2.1 評估模型

2.2 變換族

提出的通用魯棒性度量可以適用于任何變化。作為探索這種新評估方法的第一步，我們提出并研究了五個對齊的變體——四個僅擾動符號名稱的表面重命名，以及一個在保留推理鏈的同時擾動數(shù)字槽的核心步驟實例。本節(jié)詳細介紹了合成管道。詳細描述也可以在附錄 A 中找到。

2.2.1 表面重命名變體族

我們想知道模型識別一個論證是因為它真正抽象了模式，還是僅僅因為它記憶了具有暗示性的標(biāo)識符字符串。因此，我們系統(tǒng)地替換每個標(biāo)記為 var 或 param 的 token；所有類別為 sci const 的常數(shù)保持不動。

自動化管道。

提議。單次調(diào)用 O3 接收 token 角色（“自由變量”或“固定參數(shù)”）和周圍的文本上下文，并返回一個候選替換。
沖突檢查。一個確定性后驗證器拒絕與問題中任何預(yù)先存在的標(biāo)識符沖突的名稱。
族標(biāo)記。該字符串被標(biāo)記為屬于下面描述的四個族之一。

我們使用四種類型的表面變體：描述性長（DL），帶有一個單一的描述性短語；描述性長混淆（DLC），帶有 2–5 個隨機無關(guān)名詞；描述性長誤導(dǎo)（DLM），帶有一個數(shù)學(xué)上具有暗示性但誤導(dǎo)性的術(shù)語；亂碼字符串（GS），帶有 4–16 個字符的哈希，如圖 2 所示，其中'Q'代表問題題干，'A'代表官方解答。

因此，每個源項目產(chǎn)生 4 個表面變體；每個族的準(zhǔn)確率 delta 出現(xiàn)在結(jié)果與分析部分。

2.2.2 參數(shù)變體族

符號重命名僅探測詞法軸。為了探測結(jié)構(gòu)遷移，我們重采樣數(shù)值常數(shù)，但強制解決方案復(fù)用原始的高層步驟。在這項工作中，我們稱之為 Kernel_Variant (KV)。我們通過一個四階段管道將每個項目轉(zhuǎn)換為語義等價的變體：(1) 槽位發(fā)現(xiàn) (slot discovery)；(2) 模板反向合成 (template back-synthesis)；(3) 問題逆向工程 (question reverse-engineering)；以及 (4) 雙重驗證器篩選 (dual-verifier screening)（連續(xù)兩次規(guī)則）。該管道使用 OpenAI o3 API 在通用硬件上在幾小時內(nèi)為每個問題生成有界數(shù)量的已驗證變體。關(guān)于我們實現(xiàn)的實證界限和細節(jié)請參見附錄 A。

2.3 實現(xiàn)概覽

3 PutnamGAP 數(shù)據(jù)集

3.1 數(shù)據(jù)來源、提取與標(biāo)注

我們的基準(zhǔn)測試包含了 1938–2024 年的所有 Putnam 問題（去重后 N = 1 , 051 項）。有關(guān)來源的詳細信息請參見附錄 E。

原始掃描件通過一個三階段的 OCR（光學(xué)字符識別）流程進行處理：(i) 對每個問答對進行手動分割。(ii) 使用 MathPix 進行感知公式的 PDF 到 LaTeX 轉(zhuǎn)換，隨后是 (iii) 自定義后過濾器，用于合并多行表達式并修復(fù) 4.2% 的殘留符號錯誤。在生成變體之前，對每個項目進行人工抽查（每個問題 ≤ 2
分鐘）以確保語義保真度。完整的語料庫列表、OCR 準(zhǔn)確率研究和清洗腳本見附錄 E。

3.2 數(shù)據(jù)集統(tǒng)計

整體規(guī)模與平衡。該基準(zhǔn)測試包含 1938–2024 年的 1,051 個原始 Putnam 問題和五個數(shù)學(xué)等價的變換，總共產(chǎn)生 6,306 個項目。部分分布是平衡的（527 個 A 卷 vs. 524 個 B 卷），且規(guī)范標(biāo)識符 ? year , part { A , B } , index ?提供了難度代理。使用索引 1–2 作為簡單 (Easy)，3–4 作為中等 (Medium)，5–6 作為困難 (Hard)，語料庫包含 32.3% 的簡單題，32.3% 的中等題，32.2% 的困難題，外加 3.0% 的超難尾部（索引 7–8）。

主題覆蓋與質(zhì)量控制 _meta.tag 中的自動標(biāo)簽指示了廣泛的數(shù)學(xué)覆蓋范圍——代數(shù) (641)，分析 (521)，數(shù)論 (392)，組合數(shù)學(xué) (286)，以及幾何 (239)。803 個問題是證明題，其中 248 個是計算題。同時，每個項目都經(jīng)過了單次人工驗證。

4 實驗設(shè)置

構(gòu)建的 PutnamGAP 數(shù)據(jù)集首次使得對大語言模型（LLM）推理能力的魯棒性分析成為可能。在本節(jié)中，我們描述如何設(shè)置實驗以評估 18 個代表性模型的魯棒性。

4.1 模型池與提示

4.2 評分與自動評分器

我們將任務(wù)劃分為**計算（computation）和證明（proof）**兩類，并使用不同的評分器進行評估。

計算每個候選答案經(jīng)過標(biāo)準(zhǔn)化（處理空白符、單位、LaTeX 宏）后，進入兩條評分路徑：(i) 與參考答案進行嚴格字符串匹配；(ii) 潛在評分器（latent grader）——這是一個被提示根據(jù)參考答案和評分標(biāo)準(zhǔn)（不允許部分得分）返回 CORRECT'' 或 INCORRECT'' 的 LLM。我們采用路徑 (ii) 以減輕格式瑕疵的影響；如果兩條路徑結(jié)果不一致，我們將該項目標(biāo)記為需人工審計（約 1% 的案例）。

證明我們?yōu)樵u分器提供對齊的、分步的參考證明，并要求其分配一個二元評分（binary grade）加上自然語言的理由。任何跳過的邏輯步驟或缺失的引用都會觸發(fā)失敗判定。隨機抽取 10% 的樣本由獨立志愿者進行雙重檢查；評分器的精確率/召回率（precision/recall）大于 97%。

5 結(jié)果與分析

5.1 魯棒性

我們在這個基準(zhǔn)上評估了 18 個不同的大語言模型，結(jié)果總結(jié)在表 1 中。對于模型的每個變體，我們在匹配的問題對上使用了配對設(shè)計（McNemar 精確檢驗），以測試準(zhǔn)確率相比原始問題是否顯著下降。統(tǒng)計顯著性差異使用標(biāo)準(zhǔn)符號表示（p < 0.1, p < 0.05, p < 0.01）。我們還計算了 95% 置信區(qū)間（見附錄 D 圖 4）和魯棒性指標(biāo) R（見附錄 D 圖 9），所有模型，尤其是那些在原始集合上表現(xiàn)良好的模型，都得到了較低的魯棒性分數(shù)。

我們觀察到幾乎所有變體都導(dǎo)致模型準(zhǔn)確率下降，即使變換僅僅是更改變量的名稱。這表明明顯缺乏魯棒性：模型通常缺乏在數(shù)學(xué)上相同但表面修改過的表示下保持其準(zhǔn)確率的能力。特別是，依賴于變量名推理的變換（如誤導(dǎo)性或亂碼字符串）往往最嚴重地干擾模型的數(shù)學(xué)準(zhǔn)確率。

另一個觀察結(jié)果是，如果一個模型在一個變體上不魯棒，它往往在其他變體上也不魯棒。顯著的例子包括 kimi-k2、claude-opus-4 和 gemini-2.5-pro。

5.2 按變換類型細分

描述性長命名 (Descriptive Long, DL) 總體而言，這種變換的影響最小：下降幅度微小且大多不顯著。一些模型，如 o3 (+1.3)、o4-mini (+1.5) 和 Qwen3-235B (+1.1)，甚至略有提升。這表明描述性重命名能夠保持準(zhǔn)確性。

混淆性長命名 (Confusing, DLC) 冗長且語義無意義的變量名適度降低了準(zhǔn)確率。像 Claude-opus-4 (–4.3***) 和 GPT-4o-mini (–1.8***) 這樣的模型顯示出顯著下降。

誤導(dǎo)性命名 (Misleading, DLM) 用誤導(dǎo)性字符串替換變量嚴重損害了數(shù)學(xué)準(zhǔn)確率。幾乎所有模型都經(jīng)歷了顯著下降。值得注意的是，Claude-Opus-4 (–4.8***)、Gemini-2.5-pro (–5.6***) 和 Claude-Sonnet-4 (–4.4***) 是受影響最嚴重的模型。

亂碼字符串 (Garbled String, GS) 隨機字符串一致地降低了性能：每個模型的準(zhǔn)確率都有損失，其中超過一半是顯著的。諸如 Gemini-2.5-pro (–5.4***)、Claude-Sonnet-4 (–4.9***) 和 Gemini-2.5-flash-lite (–4.7***) 等模型遭受了最大的降幅。

核心變體 (Kernel Variant, KV) 核心變體——即保持每個問題的數(shù)學(xué)結(jié)構(gòu)但用不同的值替換常數(shù)和表達式——導(dǎo)致了總體上最急劇的下降。所有模型都經(jīng)歷了大幅下降，通常在 –5 到 –15 分之間，其中 Grok4 (–14.6***)、Gemini-2.5-flash (–15.2***) 和 Gemini-2.5-pro (–14.9***) 顯示出最陡峭的下降。

總體而言，最先進的大語言模型 (LLMs) 在語義保持變換下表現(xiàn)出不一致的性能，并且似乎對表面線索敏感。這與以下可能性一致：它們的部分收益反映了與數(shù)據(jù)泄漏相關(guān)的記憶，而非穩(wěn)定的數(shù)學(xué)推理。這種模式在不同主題和問題類別中持續(xù)存在：帶有 95% 置信區(qū)間 (CIs) 的條形圖（附錄 D，圖 4）以及按主題/按類別的細分（附錄 D，圖 7-8）顯示，在代數(shù)/分析/數(shù)論/組合數(shù)學(xué)/幾何以及證明題和計算題中，都存在類似的魯棒性差距。

5.3 錯誤分類法

我們的評分腳本會對每一個錯誤答案返回簡短的評語。利用這些評語，我們將錯誤歸為四類：符號混淆（Symbol Confusion）、步驟遺漏（Step Omission）、算術(shù)錯誤（Arithmetic）和邏輯幻覺（Logic Hallucination）。附錄 D 中的圖 5 顯示，這些錯誤類型的相對頻率在不同變體間幾乎完全一致；邏輯幻覺占據(jù)主導(dǎo)地位，無論提示詞的措辭如何，約占所有錯誤答案的五分之三。因此，準(zhǔn)確率的下降分布在所有類別中，而非由單一類別驅(qū)動，這證實了數(shù)學(xué)上等價的擾動會持續(xù)降低大語言模型（LLM）的性能。

5.4 外部驗證

我們將表面重命名協(xié)議——DLC 和 GS——應(yīng)用到了 ALG514 (kus, 2014) 數(shù)據(jù)集上。準(zhǔn)確率從基準(zhǔn)（Base）的 93.6% 下降至 DLC 的 90.9%（Δ = ?2.7 個百分點）和 GS 的 89.3%（Δ = ?4.3 個百分點）；McNemar 檢驗結(jié)果顯示（Base vs DLC: b=24, c=10, p=0.024; Base vs GS: b=35, c=13, p=0.002）。這些統(tǒng)計上顯著的下降表明，GAP 的表面重命名壓力測試可以泛化到其他數(shù)學(xué)數(shù)據(jù)集，并揭示了對變量重命名存在實質(zhì)性的敏感性。

6 討論

6.1 主要發(fā)現(xiàn)

提出的 GAP 框架使我們能夠關(guān)于大語言模型（LLM）在執(zhí)行數(shù)學(xué)推理時的行為得出以下新發(fā)現(xiàn)：

符號級擾動導(dǎo)致顯著下降。 在四種表面變體——DL、DLC、DLM 和 GS——中，僅僅重命名變量平均就會使準(zhǔn)確率降低 3–5 個百分點；例如，GEMINI-2.5-PRO 從 78.3% 下降到 72.9%（–5.4 個百分點；見表 1）。這表明當(dāng)今的最先進（SOTA）模型仍然依賴于詞匯層面的“語義錨點”，而非完全抽象的證明結(jié)構(gòu)。

保持結(jié)構(gòu)但重采樣參數(shù)則更為嚴苛。 核心變體（KV）在保留原始推理骨架的同時，重采樣了所有可變常數(shù)。準(zhǔn)確率損失達到約 10 個百分點；OPENAI O3 從 48.8% 下降到 38.5%（–10.3 個百分點），這表明掌握解題模式并不會自動轉(zhuǎn)化為參數(shù)不變的推理能力。

6.2 啟示

一種新穎的評估方法論： GAP 框架提供了一種新穎的方法論，用于通過生成（原則上）無限的語義等價測試項目來分析和評估 LLM 推理能力的魯棒性，這可以限制未來的基準(zhǔn)泄漏并緩解排行榜膨脹。

通過課程微調(diào)提高魯棒性： 我們的結(jié)果表明，課程微調(diào)應(yīng)顯式地隨機化 (i) 符號身份和 (ii) 數(shù)值參數(shù)，而不是簡單地擴大預(yù)訓(xùn)練語料庫。也就是說，我們可以利用 GAP 框架來增強數(shù)據(jù)，用于微調(diào)模型以提高魯棒性。

檢測潛在的安全隱患： 表面層面的脆弱性意味著生產(chǎn)系統(tǒng)可能會被數(shù)學(xué)上無害的重命名進行提示注入（prompt-injected）——這凸顯了將魯棒性檢查集成到紅隊（red-team）流程中的必要性。我們的評估框架使得在部署任何生產(chǎn)系統(tǒng)之前進行此類風(fēng)險分析成為可能。

7 相關(guān)工作

已經(jīng)有多個基準(zhǔn)測試用于評估大語言模型（LLM）的數(shù)學(xué)推理能力。早期的數(shù)學(xué)推理基準(zhǔn)測試，如 MATH（1.25k 問題）(Hendrycks 等人，2021) 和 GSM8K（8.5k 問題）(Cobbe 等人，2021)，揭示了基本的算術(shù)/代數(shù)技能。但隨著 LLM 規(guī)模的擴大，它們的難度現(xiàn)在已經(jīng)飽和了。例如，使用諸如 DUP 之類的提示策略，GPT-4 在 GSM8K 上達到了 97.1% 的準(zhǔn)確率 (Zhong 等人，2025)。這種高中競賽水平的天花板激發(fā)了新一代更困難基準(zhǔn)測試的創(chuàng)建。

隨后的基準(zhǔn)測試針對更難的問題。OMNI-MATH 貢獻了 4,428 個嚴格標(biāo)注的奧林匹克級別問題 (Gao 等人，2024)。同樣，OLYMPIADBENCH 提供了一個雙語、多模態(tài)的基準(zhǔn)測試，包含 8,476 個奧林匹克級別的數(shù)學(xué)和物理問題，并附有專家分步解答 (He 等人，2024)?？鐚W(xué)科基準(zhǔn)測試 ARB 包含數(shù)學(xué)、物理、生物、化學(xué)和法律領(lǐng)域的問題，采用基于評分標(biāo)準(zhǔn)的自評分協(xié)議 (Sawada 等人，2023)。一些其他基準(zhǔn)測試專門關(guān)注形式化證明。MINIF2F 提供了 488 個在多種證明助手中形式化的奧林匹克級別問題 (Zheng 等人，2022)。PUTNAMBENCH 提供了 1,692 個嚴格手工制作的 Putnam 競賽問題形式化版本 (Tsoukalas 等人，2024)。

然而，最近的研究警告說，當(dāng) LLM 在基準(zhǔn)測試問題上進行訓(xùn)練時，許多 NLP 基準(zhǔn)測試的分數(shù)可能會因數(shù)據(jù)污染而被人為夸大。Sainz 等人 (2023) 指出，許多基準(zhǔn)測試可能會被夸大，因為大語言模型經(jīng)常記憶預(yù)訓(xùn)練期間看到的測試數(shù)據(jù)。Balloccu 等人 (2024) 對閉源 LLM 的數(shù)據(jù)泄漏進行了系統(tǒng)審計，并估計來自 263 個數(shù)據(jù)集的大約 470 萬個測試示例可能暴露給了模型。

為了獲得對 LLM 推理能力更魯棒的評估，防止數(shù)據(jù)泄漏很重要。一種方法是創(chuàng)建原創(chuàng)問題。例如，F(xiàn)RONTIERMATH 通過一個嚴格策劃的基準(zhǔn)測試解決了這個問題，該基準(zhǔn)測試包含數(shù)百個原創(chuàng)的、專家級別的數(shù)學(xué)問題，涵蓋從數(shù)論到代數(shù)幾何的領(lǐng)域 (Glazer 等人，2024)。PUTNAM-AXIOM 采用了這種方法，包含 522 個來自 William Lowell Putnam 競賽的挑戰(zhàn)性問題，加上 100 個程序化生成的功能變體，提供了一個抗污染的基準(zhǔn)測試 (Gulati 等人，2025)。

另一種處理數(shù)據(jù)泄漏的方法是引入對比集——現(xiàn)有測試實例的微小、改變標(biāo)簽的擾動——以探測模型的局部決策邊界 (Gardner 等人，2020)。Huang 等人 (2025) 構(gòu)建了 MATH-PERTURB，對 279 個 5 級 MATH 問題應(yīng)用簡單和困難擾動，并發(fā)現(xiàn)模型在困難變體上遭受 12–16 個百分點的下降。Shalyt 等人 (2025) 用 ASYMOB 補充了這條工作線，這是一個 17k 問題的基準(zhǔn)測試，其專注于代數(shù)的數(shù)值和符號擾動揭示了高達 70 個百分點的性能下降，突出了模型在這種壓力測試下的脆弱性。同樣，Yu 等人 (2025) 提出了 MATH-ROB，這是一個合成基準(zhǔn)測試，通過基于指令的方法實現(xiàn)針對數(shù)據(jù)污染的魯棒性評估。這些努力要么專注于限制泛化性的特定方面，要么基于對當(dāng)前模型來說太簡單的基準(zhǔn)測試，要么引入數(shù)學(xué)上不等價的變換，從而混淆了真正的魯棒性評估。

在這些先前努力的基礎(chǔ)上，我們的工作引入了 GENERALIZATION-AND-PERTURBATION (GAP)，這是一個統(tǒng)一的框架，通過生成復(fù)雜問題的數(shù)學(xué)等價變體來解決數(shù)據(jù)泄漏和魯棒性問題，顯著擴展了現(xiàn)有基準(zhǔn)測試的評估深度。該框架可應(yīng)用于現(xiàn)有和未來的基準(zhǔn)測試，以及所有類型的問題，以加強其可靠性。為解決準(zhǔn)確率分數(shù)飽和的問題，我們將框架應(yīng)用于具有挑戰(zhàn)性的大學(xué)級別競賽數(shù)學(xué)問題。我們在 1938–2024 年的每個 William Lowell Putnam 競賽問題（1,051 個原始問題）上實例化 GAP，將每個項目擴展為五個數(shù)學(xué)等價變體，從而產(chǎn)生 PUTNAM-GAP，一個包含 6,306 個壓力測試問題的語料庫。最后，我們發(fā)布了一個開源評估堆棧，嚴格地分步評分解決方案，使評估完全自動化、透明且可復(fù)現(xiàn)。

8 結(jié)論與未來工作

魯棒推理在大語言模型（LLM）的許多應(yīng)用中都是必需的。在本文中，我們提出了一種新穎的泛化與擾動（GAP）框架，用于分析和評估大語言模型推理能力的魯棒性。通過在全部 1,051 個 Putnam 競賽問題上實例化 GAP，我們產(chǎn)生了擁有 6,306 個問題的 PUTNAMGAP 基準(zhǔn)。對 18 個商業(yè)和開源大語言模型的零樣本評估揭示了急劇且一致的準(zhǔn)確率下降。這些結(jié)果暴露了一個明顯的魯棒性差距，這是迄今為止未擾動數(shù)據(jù)集上的排行榜分數(shù)所未能顯示的。

我們的發(fā)現(xiàn)突出了三個可操作的方向。

? 基準(zhǔn)測試：GAP 提供了抗污染測試項目的無限制供應(yīng)，限制了未來的數(shù)據(jù)泄漏和分數(shù)膨脹。

? 訓(xùn)練：在微調(diào)期間隨機化符號身份和數(shù)值參數(shù)的課程應(yīng)該成為針對形式推理領(lǐng)域模型的標(biāo)準(zhǔn)做法。

? 安全：損害準(zhǔn)確率的相同表面級脆弱性可以被武器化用于提示注入攻擊，因此 GAP 風(fēng)格的突變應(yīng)該被構(gòu)建到紅隊流程中。

基于我們的工作有多個有趣的未來研究方向：

(i) 用符號證明器和異構(gòu)大語言模型多樣化驗證器集合，以排除共謀盲點，(ii) 將 GAP 移植到應(yīng)用數(shù)學(xué)、物理和多模態(tài) STEM 語料庫，以及 (iii) 將即時 GAP 變換集成到訓(xùn)練中，以便對符號和參數(shù)變化的不變性是被學(xué)習(xí)而來的，而不僅僅是被測試的。PUTNAMGAP 使一個教訓(xùn)變得明確無誤：數(shù)學(xué) AI 的真正進步將不是由越來越高的原始分數(shù)來衡量，而是由模型跨越符號與實質(zhì)之間隱藏鴻溝的能力來衡量。下一代頂級系統(tǒng)只有通過拒絕在 GAPs 上被甩在后面才能贏得它們的地位。

原文鏈接：https://arxiv.org/pdf/2508.08833v2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.