国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)學(xué)推理魯棒性研究:基于高階數(shù)學(xué)問題等價變換的基準(zhǔn)測試

0
分享至

大模型數(shù)學(xué)推理魯棒性研究:基于高級數(shù)學(xué)問題等價變換的基準(zhǔn)測試

AN INVESTIGATION OF ROBUSTNESS OF LLMS INMATHEMATICAL REASONING: BENCHMARKING WITHMATHEMATICALLY-EQUIVALENT TRANSFORMATION OF ADVANCED MATHEMATICAL PROBLEMS

https://arxiv.org/pdf/2508.08833v2


摘要

在本文中,我們引入了一個超越傳統(tǒng)方法的系統(tǒng)框架,通過對數(shù)學(xué)上等價但具有語言和參數(shù)變化的高級數(shù)學(xué)問題進行壓力測試,來評估大語言模型(LLM)的數(shù)學(xué)推理魯棒性。這些變換使我們能夠衡量 LLM 對非數(shù)學(xué)擾動的敏感性,從而能夠更準(zhǔn)確地評估它們的數(shù)學(xué)推理能力。使用這種新的評估方法,我們創(chuàng)建了 PutnamGAP,這是一個新的基準(zhǔn)數(shù)據(jù)集,包含競賽級數(shù)學(xué)問題的多個數(shù)學(xué)等價變體。使用新數(shù)據(jù)集,我們評估了多個代表性 LLM 家族并檢查了它們的魯棒性。在 18 個商業(yè)和開源模型中,我們觀察到在變體上性能急劇下降。OpenAI 的旗艦推理模型 O3 在原始問題上得分為 51.5%,但在表面重命名變體上下降了 4.7 個百分點,在參數(shù)變體上下降了 12.9 個百分點,而較小的模型表現(xiàn)更差。總體而言,結(jié)果表明,提出的新評估方法對于加深我們對 LLM 魯棒性的理解以及為進一步提高其數(shù)學(xué)推理能力產(chǎn)生新見解是有效的。

1 引言

動機。現(xiàn)代 AI 系統(tǒng)越來越多地被委托給依賴于魯棒推理而非模式匹配的任務(wù)。因此,精確測量 LLM 的推理能力及其超越記憶文本表面形式的泛化能力很重要。然而,現(xiàn)有的數(shù)學(xué)推理基準(zhǔn)表現(xiàn)出兩個關(guān)鍵弱點:(i) 泄漏導(dǎo)致的分數(shù)膨脹,因為基準(zhǔn)項目迅速滲入預(yù)訓(xùn)練語料庫,以及 (ii) 魯棒性覆蓋有限,因為今天的數(shù)據(jù)集太小或缺乏探測真正泛化的受控變換。如果我們旨在以醫(yī)療或網(wǎng)絡(luò)安全等安全關(guān)鍵領(lǐng)域所要求的同樣嚴謹性來基準(zhǔn)化推理,解決這些弱點是緊迫的。

通過訓(xùn)練泄漏導(dǎo)致的基準(zhǔn)膨脹。最近的研究表明,包括 GSM8K (Cobbe 等人,2021) 和 MATH (Hendrycks 等人,2021) 在內(nèi)的公共數(shù)據(jù)集已經(jīng)泄漏到用于預(yù)訓(xùn)練大語言模型 (LLM) 的網(wǎng)絡(luò)規(guī)模語料庫中,人為地抬高了測試時準(zhǔn)確率。因此,排行榜分數(shù)不再保證真正的推理能力;它可能僅僅反映了對基準(zhǔn)項目或其解決方案的記憶。簡單地發(fā)布另一個數(shù)據(jù)集只是推遲了問題:一旦其項目進入未來的訓(xùn)練語料庫,分數(shù)就會上升而沒有真正的進步。需要的是一個系統(tǒng)方法,該方法 (i) 測量模型超越逐字記憶的泛化能力,以及 (ii) 可以生成無限的評估項目供應(yīng),限制未來的泄漏。

競賽數(shù)學(xué)揭示了下一個魯棒性瓶頸。大語言模型 (LLM) 現(xiàn)在在廣泛使用的基準(zhǔn)測試(如 GSM8K 和 MATH)上準(zhǔn)確率超過 90%, prompting 聲稱“接近人類”的數(shù)值推理,但在交織多個領(lǐng)域的奧林匹克風(fēng)格或 Putnam 級別問題上仍然失敗。現(xiàn)有的 Putnam 衍生數(shù)據(jù)集太小,無法暴露這一差距:PUTNAM-AXIOM(236 個原始 + 52 個變體)(Huang 等人,2025) 和 PUTNAMBENCH(640 個形式化定理)(Tsoukalas 等人,2024) 仍保持在數(shù)百個,且沒有一個提供系統(tǒng)的泛化和擾動。這些事實暴露了現(xiàn)有評估中的弱點 (i) 規(guī)模不足和弱點 (ii) 缺乏受控的、系統(tǒng)的變換。


泛化與擾動 (GAP),一種新穎的評估策略。我們用一個新想法來解決泄漏和魯棒性問題:在同一問題的數(shù)學(xué)等價版本上對模型進行壓力測試。對于具有解集 S(x) 的問題 x 和 LLM f,魯棒性是當(dāng) x 被等價保持算子族 T 變換時的期望準(zhǔn)確率。我們將 T 劃分為 Tsurf(改變符號顯著性的表面重命名)和 Tpara(在改變場景和參數(shù)的同時保留相同證明步驟的核心重寫)。這個 GAP 框架 (i) 創(chuàng)建了無限的未見測試項目流,減輕未來的污染,以及 (ii) 量化模型可以超越記憶表面形式泛化多遠。它為分析和量化 LLM 數(shù)學(xué)推理能力的魯棒性提供了一種新的通用診斷評估方法。

PutnamGAP:在 85 年的問題上實例化 GAP。我們在 1938-2024 年的每個 William Lowell Putnam 競賽問題(1,051 個原始問題)上實例化 GAP,并將每個項目擴展為五個變體——四個表面重命名和一個核心重寫——獲得 6,306 個壓力測試問題。兩輪 QA 通行證——15 輪 O3 自我審查加上 10% 的抽查——未發(fā)現(xiàn)實質(zhì)性錯誤。

頭條結(jié)果。如圖 4 所示,在 18 個模型中,所有模型都遭受簡單重命名和基于步驟的重寫的影響。OpenAI 的 O3 在原始陳述上得分為 51.5%,但在表面重命名下?lián)p失 4.7 個百分點 (9.12%),在參數(shù)重寫下?lián)p失 12.9 個百分點 (25.22%)。這些下降證實了當(dāng)應(yīng)用表面性或結(jié)構(gòu)擾動時,高排行榜分數(shù)可能會崩潰——這正是數(shù)據(jù)泄漏掩蓋的效果。


貢獻。(1) 我們提出了 GAP,一個通過數(shù)學(xué)等價變換測量魯棒性的新穎通用框架,克服了當(dāng)前評估方法的兩個常見缺陷(即數(shù)據(jù)泄漏和缺乏魯棒性測量)。(2) 我們發(fā)布了 PutnamGAP,這是第一個 6k 規(guī)模的競賽基準(zhǔn),系統(tǒng)地區(qū)分了表面級別和結(jié)構(gòu)泛化,同時限制未來泄漏。(3) 我們提供了跨越 17 個 LLM 的第一個綜合魯棒性基線,以及一個開源評估堆棧。

2 泛化與擾動 (GAP) 框架

2.1 評估模型


2.2 變換族

提出的通用魯棒性度量可以適用于任何變化。作為探索這種新評估方法的第一步,我們提出并研究了五個對齊的變體——四個僅擾動符號名稱的表面重命名,以及一個在保留推理鏈的同時擾動數(shù)字槽的核心步驟實例。本節(jié)詳細介紹了合成管道。詳細描述也可以在附錄 A 中找到。

2.2.1 表面重命名變體族

我們想知道模型識別一個論證是因為它真正抽象了模式,還是僅僅因為它記憶了具有暗示性的標(biāo)識符字符串。因此,我們系統(tǒng)地替換每個標(biāo)記為 var 或 param 的 token;所有類別為 sci const 的常數(shù)保持不動。

自動化管道。

  1. 提議。單次調(diào)用 O3 接收 token 角色(“自由變量”或“固定參數(shù)”)和周圍的文本上下文,并返回一個候選替換。
  2. 沖突檢查。一個確定性后驗證器拒絕與問題中任何預(yù)先存在的標(biāo)識符沖突的名稱。
  3. 族標(biāo)記。該字符串被標(biāo)記為屬于下面描述的四個族之一。

我們使用四種類型的表面變體:描述性長(DL),帶有一個單一的描述性短語;描述性長混淆(DLC),帶有 2–5 個隨機無關(guān)名詞;描述性長誤導(dǎo)(DLM),帶有一個數(shù)學(xué)上具有暗示性但誤導(dǎo)性的術(shù)語;亂碼字符串(GS),帶有 4–16 個字符的哈希,如圖 2 所示,其中'Q'代表問題題干,'A'代表官方解答。


因此,每個源項目產(chǎn)生 4 個表面變體;每個族的準(zhǔn)確率 delta 出現(xiàn)在結(jié)果與分析部分。

2.2.2 參數(shù)變體族


符號重命名僅探測詞法軸。為了探測結(jié)構(gòu)遷移,我們重采樣數(shù)值常數(shù),但強制解決方案復(fù)用原始的高層步驟。在這項工作中,我們稱之為 Kernel_Variant (KV)。我們通過一個四階段管道將每個項目轉(zhuǎn)換為語義等價的變體:(1) 槽位發(fā)現(xiàn) (slot discovery);(2) 模板反向合成 (template back-synthesis);(3) 問題逆向工程 (question reverse-engineering);以及 (4) 雙重驗證器篩選 (dual-verifier screening)(連續(xù)兩次規(guī)則)。該管道使用 OpenAI o3 API 在通用硬件上在幾小時內(nèi)為每個問題生成有界數(shù)量的已驗證變體。關(guān)于我們實現(xiàn)的實證界限和細節(jié)請參見附錄 A。

2.3 實現(xiàn)概覽


3 PutnamGAP 數(shù)據(jù)集

3.1 數(shù)據(jù)來源、提取與標(biāo)注

我們的基準(zhǔn)測試包含了 1938–2024 年的所有 Putnam 問題(去重后 N = 1 , 051 項)。有關(guān)來源的詳細信息請參見附錄 E。

原始掃描件通過一個三階段的 OCR(光學(xué)字符識別)流程進行處理:(i) 對每個問答對進行手動分割。(ii) 使用 MathPix 進行感知公式的 PDF 到 LaTeX 轉(zhuǎn)換,隨后是 (iii) 自定義后過濾器,用于合并多行表達式并修復(fù) 4.2% 的殘留符號錯誤。在生成變體之前,對每個項目進行人工抽查(每個問題 ≤ 2
分鐘)以確保語義保真度。完整的語料庫列表、OCR 準(zhǔn)確率研究和清洗腳本見附錄 E。

3.2 數(shù)據(jù)集統(tǒng)計

整體規(guī)模與平衡。該基準(zhǔn)測試包含 1938–2024 年的 1,051 個原始 Putnam 問題和五個數(shù)學(xué)等價的變換,總共產(chǎn)生 6,306 個項目。部分分布是平衡的(527 個 A 卷 vs. 524 個 B 卷),且規(guī)范標(biāo)識符 ? year , part { A , B } , index ?提供了難度代理。使用索引 1–2 作為簡單 (Easy),3–4 作為中等 (Medium),5–6 作為困難 (Hard),語料庫包含 32.3% 的簡單題,32.3% 的中等題,32.2% 的困難題,外加 3.0% 的超難尾部(索引 7–8)。

主題覆蓋與質(zhì)量控制 _meta.tag 中的自動標(biāo)簽指示了廣泛的數(shù)學(xué)覆蓋范圍——代數(shù) (641),分析 (521),數(shù)論 (392),組合數(shù)學(xué) (286),以及幾何 (239)。803 個問題是證明題,其中 248 個是計算題。同時,每個項目都經(jīng)過了單次人工驗證。

4 實驗設(shè)置

構(gòu)建的 PutnamGAP 數(shù)據(jù)集首次使得對大語言模型(LLM)推理能力的魯棒性分析成為可能。在本節(jié)中,我們描述如何設(shè)置實驗以評估 18 個代表性模型的魯棒性。

4.1 模型池與提示


4.2 評分與自動評分器

我們將任務(wù)劃分為**計算(computation)證明(proof)**兩類,并使用不同的評分器進行評估。

計算 每個候選答案經(jīng)過標(biāo)準(zhǔn)化(處理空白符、單位、LaTeX 宏)后,進入兩條評分路徑:(i) 與參考答案進行嚴格字符串匹配;(ii) 潛在評分器(latent grader)——這是一個被提示根據(jù)參考答案和評分標(biāo)準(zhǔn)(不允許部分得分)返回 CORRECT'' 或 INCORRECT'' 的 LLM。我們采用路徑 (ii) 以減輕格式瑕疵的影響;如果兩條路徑結(jié)果不一致,我們將該項目標(biāo)記為需人工審計(約 1% 的案例)。

證明 我們?yōu)樵u分器提供對齊的、分步的參考證明,并要求其分配一個二元評分(binary grade)加上自然語言的理由。任何跳過的邏輯步驟或缺失的引用都會觸發(fā)失敗判定。隨機抽取 10% 的樣本由獨立志愿者進行雙重檢查;評分器的精確率/召回率(precision/recall)大于 97%。

5 結(jié)果與分析

5.1 魯棒性

我們在這個基準(zhǔn)上評估了 18 個不同的大語言模型,結(jié)果總結(jié)在表 1 中。對于模型的每個變體,我們在匹配的問題對上使用了配對設(shè)計(McNemar 精確檢驗),以測試準(zhǔn)確率相比原始問題是否顯著下降。統(tǒng)計顯著性差異使用標(biāo)準(zhǔn)符號表示(p < 0.1, p < 0.05, p < 0.01)。我們還計算了 95% 置信區(qū)間(見附錄 D 圖 4)和魯棒性指標(biāo) R(見附錄 D 圖 9),所有模型,尤其是那些在原始集合上表現(xiàn)良好的模型,都得到了較低的魯棒性分數(shù)。



我們觀察到幾乎所有變體都導(dǎo)致模型準(zhǔn)確率下降,即使變換僅僅是更改變量的名稱。這表明明顯缺乏魯棒性:模型通常缺乏在數(shù)學(xué)上相同但表面修改過的表示下保持其準(zhǔn)確率的能力。特別是,依賴于變量名推理的變換(如誤導(dǎo)性或亂碼字符串)往往最嚴重地干擾模型的數(shù)學(xué)準(zhǔn)確率。




另一個觀察結(jié)果是,如果一個模型在一個變體上不魯棒,它往往在其他變體上也不魯棒。顯著的例子包括 kimi-k2、claude-opus-4 和 gemini-2.5-pro。

5.2 按變換類型細分

描述性長命名 (Descriptive Long, DL) 總體而言,這種變換的影響最小:下降幅度微小且大多不顯著。一些模型,如 o3 (+1.3)、o4-mini (+1.5) 和 Qwen3-235B (+1.1),甚至略有提升。這表明描述性重命名能夠保持準(zhǔn)確性。

混淆性長命名 (Confusing, DLC) 冗長且語義無意義的變量名適度降低了準(zhǔn)確率。像 Claude-opus-4 (–4.3***) 和 GPT-4o-mini (–1.8***) 這樣的模型顯示出顯著下降。

誤導(dǎo)性命名 (Misleading, DLM) 用誤導(dǎo)性字符串替換變量嚴重損害了數(shù)學(xué)準(zhǔn)確率。幾乎所有模型都經(jīng)歷了顯著下降。值得注意的是,Claude-Opus-4 (–4.8***)、Gemini-2.5-pro (–5.6***) 和 Claude-Sonnet-4 (–4.4***) 是受影響最嚴重的模型。

亂碼字符串 (Garbled String, GS) 隨機字符串一致地降低了性能:每個模型的準(zhǔn)確率都有損失,其中超過一半是顯著的。諸如 Gemini-2.5-pro (–5.4***)、Claude-Sonnet-4 (–4.9***) 和 Gemini-2.5-flash-lite (–4.7***) 等模型遭受了最大的降幅。

核心變體 (Kernel Variant, KV) 核心變體——即保持每個問題的數(shù)學(xué)結(jié)構(gòu)但用不同的值替換常數(shù)和表達式——導(dǎo)致了總體上最急劇的下降。所有模型都經(jīng)歷了大幅下降,通常在 –5 到 –15 分之間,其中 Grok4 (–14.6***)、Gemini-2.5-flash (–15.2***) 和 Gemini-2.5-pro (–14.9***) 顯示出最陡峭的下降。

總體而言,最先進的大語言模型 (LLMs) 在語義保持變換下表現(xiàn)出不一致的性能,并且似乎對表面線索敏感。這與以下可能性一致:它們的部分收益反映了與數(shù)據(jù)泄漏相關(guān)的記憶,而非穩(wěn)定的數(shù)學(xué)推理。這種模式在不同主題和問題類別中持續(xù)存在:帶有 95% 置信區(qū)間 (CIs) 的條形圖(附錄 D,圖 4)以及按主題/按類別的細分(附錄 D,圖 7-8)顯示,在代數(shù)/分析/數(shù)論/組合數(shù)學(xué)/幾何以及證明題和計算題中,都存在類似的魯棒性差距。



5.3 錯誤分類法

我們的評分腳本會對每一個錯誤答案返回簡短的評語。利用這些評語,我們將錯誤歸為四類:符號混淆(Symbol Confusion)、步驟遺漏(Step Omission)、算術(shù)錯誤(Arithmetic)和邏輯幻覺(Logic Hallucination)。附錄 D 中的圖 5 顯示,這些錯誤類型的相對頻率在不同變體間幾乎完全一致;邏輯幻覺占據(jù)主導(dǎo)地位,無論提示詞的措辭如何,約占所有錯誤答案的五分之三。因此,準(zhǔn)確率的下降分布在所有類別中,而非由單一類別驅(qū)動,這證實了數(shù)學(xué)上等價的擾動會持續(xù)降低大語言模型(LLM)的性能。


5.4 外部驗證

我們將表面重命名協(xié)議——DLC 和 GS——應(yīng)用到了 ALG514 (kus, 2014) 數(shù)據(jù)集上。準(zhǔn)確率從基準(zhǔn)(Base)的 93.6% 下降至 DLC 的 90.9%(Δ = ?2.7 個百分點)和 GS 的 89.3%(Δ = ?4.3 個百分點);McNemar 檢驗結(jié)果顯示(Base vs DLC: b=24, c=10, p=0.024; Base vs GS: b=35, c=13, p=0.002)。這些統(tǒng)計上顯著的下降表明,GAP 的表面重命名壓力測試可以泛化到其他數(shù)學(xué)數(shù)據(jù)集,并揭示了對變量重命名存在實質(zhì)性的敏感性。


6 討論

6.1 主要發(fā)現(xiàn)

提出的 GAP 框架使我們能夠關(guān)于大語言模型(LLM)在執(zhí)行數(shù)學(xué)推理時的行為得出以下新發(fā)現(xiàn):

符號級擾動導(dǎo)致顯著下降。 在四種表面變體——DL、DLC、DLM 和 GS——中,僅僅重命名變量平均就會使準(zhǔn)確率降低 3–5 個百分點;例如,GEMINI-2.5-PRO 從 78.3% 下降到 72.9%(–5.4 個百分點;見表 1)。這表明當(dāng)今的最先進(SOTA)模型仍然依賴于詞匯層面的“語義錨點”,而非完全抽象的證明結(jié)構(gòu)。

保持結(jié)構(gòu)但重采樣參數(shù)則更為嚴苛。 核心變體(KV)在保留原始推理骨架的同時,重采樣了所有可變常數(shù)。準(zhǔn)確率損失達到約 10 個百分點;OPENAI O3 從 48.8% 下降到 38.5%(–10.3 個百分點),這表明掌握解題模式并不會自動轉(zhuǎn)化為參數(shù)不變的推理能力。


6.2 啟示

一種新穎的評估方法論: GAP 框架提供了一種新穎的方法論,用于通過生成(原則上)無限的語義等價測試項目來分析和評估 LLM 推理能力的魯棒性,這可以限制未來的基準(zhǔn)泄漏并緩解排行榜膨脹。

通過課程微調(diào)提高魯棒性: 我們的結(jié)果表明,課程微調(diào)應(yīng)顯式地隨機化 (i) 符號身份和 (ii) 數(shù)值參數(shù),而不是簡單地擴大預(yù)訓(xùn)練語料庫。也就是說,我們可以利用 GAP 框架來增強數(shù)據(jù),用于微調(diào)模型以提高魯棒性。

檢測潛在的安全隱患: 表面層面的脆弱性意味著生產(chǎn)系統(tǒng)可能會被數(shù)學(xué)上無害的重命名進行提示注入(prompt-injected)——這凸顯了將魯棒性檢查集成到紅隊(red-team)流程中的必要性。我們的評估框架使得在部署任何生產(chǎn)系統(tǒng)之前進行此類風(fēng)險分析成為可能。


7 相關(guān)工作

已經(jīng)有多個基準(zhǔn)測試用于評估大語言模型(LLM)的數(shù)學(xué)推理能力。早期的數(shù)學(xué)推理基準(zhǔn)測試,如 MATH(1.25k 問題)(Hendrycks 等人,2021) 和 GSM8K(8.5k 問題)(Cobbe 等人,2021),揭示了基本的算術(shù)/代數(shù)技能。但隨著 LLM 規(guī)模的擴大,它們的難度現(xiàn)在已經(jīng)飽和了。例如,使用諸如 DUP 之類的提示策略,GPT-4 在 GSM8K 上達到了 97.1% 的準(zhǔn)確率 (Zhong 等人,2025)。這種高中競賽水平的天花板激發(fā)了新一代更困難基準(zhǔn)測試的創(chuàng)建。

隨后的基準(zhǔn)測試針對更難的問題。OMNI-MATH 貢獻了 4,428 個嚴格標(biāo)注的奧林匹克級別問題 (Gao 等人,2024)。同樣,OLYMPIADBENCH 提供了一個雙語、多模態(tài)的基準(zhǔn)測試,包含 8,476 個奧林匹克級別的數(shù)學(xué)和物理問題,并附有專家分步解答 (He 等人,2024)??鐚W(xué)科基準(zhǔn)測試 ARB 包含數(shù)學(xué)、物理、生物、化學(xué)和法律領(lǐng)域的問題,采用基于評分標(biāo)準(zhǔn)的自評分協(xié)議 (Sawada 等人,2023)。一些其他基準(zhǔn)測試專門關(guān)注形式化證明。MINIF2F 提供了 488 個在多種證明助手中形式化的奧林匹克級別問題 (Zheng 等人,2022)。PUTNAMBENCH 提供了 1,692 個嚴格手工制作的 Putnam 競賽問題形式化版本 (Tsoukalas 等人,2024)。

然而,最近的研究警告說,當(dāng) LLM 在基準(zhǔn)測試問題上進行訓(xùn)練時,許多 NLP 基準(zhǔn)測試的分數(shù)可能會因數(shù)據(jù)污染而被人為夸大。Sainz 等人 (2023) 指出,許多基準(zhǔn)測試可能會被夸大,因為大語言模型經(jīng)常記憶預(yù)訓(xùn)練期間看到的測試數(shù)據(jù)。Balloccu 等人 (2024) 對閉源 LLM 的數(shù)據(jù)泄漏進行了系統(tǒng)審計,并估計來自 263 個數(shù)據(jù)集的大約 470 萬個測試示例可能暴露給了模型。

為了獲得對 LLM 推理能力更魯棒的評估,防止數(shù)據(jù)泄漏很重要。一種方法是創(chuàng)建原創(chuàng)問題。例如,F(xiàn)RONTIERMATH 通過一個嚴格策劃的基準(zhǔn)測試解決了這個問題,該基準(zhǔn)測試包含數(shù)百個原創(chuàng)的、專家級別的數(shù)學(xué)問題,涵蓋從數(shù)論到代數(shù)幾何的領(lǐng)域 (Glazer 等人,2024)。PUTNAM-AXIOM 采用了這種方法,包含 522 個來自 William Lowell Putnam 競賽的挑戰(zhàn)性問題,加上 100 個程序化生成的功能變體,提供了一個抗污染的基準(zhǔn)測試 (Gulati 等人,2025)。

另一種處理數(shù)據(jù)泄漏的方法是引入對比集——現(xiàn)有測試實例的微小、改變標(biāo)簽的擾動——以探測模型的局部決策邊界 (Gardner 等人,2020)。Huang 等人 (2025) 構(gòu)建了 MATH-PERTURB,對 279 個 5 級 MATH 問題應(yīng)用簡單和困難擾動,并發(fā)現(xiàn)模型在困難變體上遭受 12–16 個百分點的下降。Shalyt 等人 (2025) 用 ASYMOB 補充了這條工作線,這是一個 17k 問題的基準(zhǔn)測試,其專注于代數(shù)的數(shù)值和符號擾動揭示了高達 70 個百分點的性能下降,突出了模型在這種壓力測試下的脆弱性。同樣,Yu 等人 (2025) 提出了 MATH-ROB,這是一個合成基準(zhǔn)測試,通過基于指令的方法實現(xiàn)針對數(shù)據(jù)污染的魯棒性評估。這些努力要么專注于限制泛化性的特定方面,要么基于對當(dāng)前模型來說太簡單的基準(zhǔn)測試,要么引入數(shù)學(xué)上不等價的變換,從而混淆了真正的魯棒性評估。

在這些先前努力的基礎(chǔ)上,我們的工作引入了 GENERALIZATION-AND-PERTURBATION (GAP),這是一個統(tǒng)一的框架,通過生成復(fù)雜問題的數(shù)學(xué)等價變體來解決數(shù)據(jù)泄漏和魯棒性問題,顯著擴展了現(xiàn)有基準(zhǔn)測試的評估深度。該框架可應(yīng)用于現(xiàn)有和未來的基準(zhǔn)測試,以及所有類型的問題,以加強其可靠性。為解決準(zhǔn)確率分數(shù)飽和的問題,我們將框架應(yīng)用于具有挑戰(zhàn)性的大學(xué)級別競賽數(shù)學(xué)問題。我們在 1938–2024 年的每個 William Lowell Putnam 競賽問題(1,051 個原始問題)上實例化 GAP,將每個項目擴展為五個數(shù)學(xué)等價變體,從而產(chǎn)生 PUTNAM-GAP,一個包含 6,306 個壓力測試問題的語料庫。最后,我們發(fā)布了一個開源評估堆棧,嚴格地分步評分解決方案,使評估完全自動化、透明且可復(fù)現(xiàn)。

8 結(jié)論與未來工作

魯棒推理在大語言模型(LLM)的許多應(yīng)用中都是必需的。在本文中,我們提出了一種新穎的泛化與擾動(GAP)框架,用于分析和評估大語言模型推理能力的魯棒性。通過在全部 1,051 個 Putnam 競賽問題上實例化 GAP,我們產(chǎn)生了擁有 6,306 個問題的 PUTNAMGAP 基準(zhǔn)。對 18 個商業(yè)和開源大語言模型的零樣本評估揭示了急劇且一致的準(zhǔn)確率下降。這些結(jié)果暴露了一個明顯的魯棒性差距,這是迄今為止未擾動數(shù)據(jù)集上的排行榜分數(shù)所未能顯示的。

我們的發(fā)現(xiàn)突出了三個可操作的方向。

? 基準(zhǔn)測試:GAP 提供了抗污染測試項目的無限制供應(yīng),限制了未來的數(shù)據(jù)泄漏和分數(shù)膨脹。

? 訓(xùn)練:在微調(diào)期間隨機化符號身份和數(shù)值參數(shù)的課程應(yīng)該成為針對形式推理領(lǐng)域模型的標(biāo)準(zhǔn)做法。

? 安全:損害準(zhǔn)確率的相同表面級脆弱性可以被武器化用于提示注入攻擊,因此 GAP 風(fēng)格的突變應(yīng)該被構(gòu)建到紅隊流程中。

基于我們的工作有多個有趣的未來研究方向:

(i) 用符號證明器和異構(gòu)大語言模型多樣化驗證器集合,以排除共謀盲點,(ii) 將 GAP 移植到應(yīng)用數(shù)學(xué)、物理和多模態(tài) STEM 語料庫,以及 (iii) 將即時 GAP 變換集成到訓(xùn)練中,以便對符號和參數(shù)變化的不變性是被學(xué)習(xí)而來的,而不僅僅是被測試的。PUTNAMGAP 使一個教訓(xùn)變得明確無誤:數(shù)學(xué) AI 的真正進步將不是由越來越高的原始分數(shù)來衡量,而是由模型跨越符號與實質(zhì)之間隱藏鴻溝的能力來衡量。下一代頂級系統(tǒng)只有通過拒絕在 GAPs 上被甩在后面才能贏得它們的地位。

原文鏈接:https://arxiv.org/pdf/2508.08833v2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

燦爛夏天
2025-02-10 20:20:13
藿香正氣水兌白醋,作用太厲害了!一年省下幾百塊,家家用得到

藿香正氣水兌白醋,作用太厲害了!一年省下幾百塊,家家用得到

三農(nóng)老歷
2026-03-27 10:03:22
《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

娛樂故事
2026-03-26 17:11:11
美媒評中國演員謝苗新片《火遮眼》“或成動作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級牛”

美媒評中國演員謝苗新片《火遮眼》“或成動作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級?!?/a>

極目新聞
2026-03-26 20:16:01
67年毛主席離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

67年毛主席離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

史之銘
2026-03-28 16:48:50
中國拒絕出席G7峰會,法國表示將采取措施應(yīng)對

中國拒絕出席G7峰會,法國表示將采取措施應(yīng)對

二大爺觀世界
2026-03-28 22:45:28
中國有色央企龍頭創(chuàng)下歷史最優(yōu)業(yè)績,去年股價大漲市值創(chuàng)近15年新高

中國有色央企龍頭創(chuàng)下歷史最優(yōu)業(yè)績,去年股價大漲市值創(chuàng)近15年新高

澎湃新聞
2026-03-28 21:34:27
4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

巴叔GO聊體育
2026-03-28 14:30:14
提醒老人付款,反遭辱罵,撞擊,店主反擊卻獲刑7個月,賠萬元?

提醒老人付款,反遭辱罵,撞擊,店主反擊卻獲刑7個月,賠萬元?

寒士之言本尊
2026-03-28 12:25:24
從世界第十到世界第一!西班牙這三年太猛了,德拉富恩特真神人

從世界第十到世界第一!西班牙這三年太猛了,德拉富恩特真神人

仰臥撐FTUer
2026-03-28 20:16:09
NBA分析師:詹姆斯2016年相當(dāng)于2庫里,比地球上任何人都出色得多

NBA分析師:詹姆斯2016年相當(dāng)于2庫里,比地球上任何人都出色得多

好火子
2026-03-29 05:40:30
老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

小羽叨叨叨
2026-03-26 13:24:34
媒體人怒了!公開懟廣東教練組,矛頭對準(zhǔn)一人,杜鋒還有啥話講

媒體人怒了!公開懟廣東教練組,矛頭對準(zhǔn)一人,杜鋒還有啥話講

萌蘭聊個球
2026-03-28 15:47:46
特朗普已將霍爾木茲稱為“特朗普海峽” 伊朗:正制定戰(zhàn)爭結(jié)束條件,特朗普威脅:“下一個是古巴”

特朗普已將霍爾木茲稱為“特朗普海峽” 伊朗:正制定戰(zhàn)爭結(jié)束條件,特朗普威脅:“下一個是古巴”

每日經(jīng)濟新聞
2026-03-28 11:48:19
【2026.3.28】扒醬料不停:那些你不知道的八卦一二三

【2026.3.28】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2026-03-28 23:54:32
這是41歲?布朗尼:上次跟我爸在家單挑,他直接把籃板扣碎了

這是41歲?布朗尼:上次跟我爸在家單挑,他直接把籃板扣碎了

懂球帝
2026-03-28 16:10:11
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
無需大量運動!《柳葉刀》:每天多動5分鐘、少坐半小時,足以顯著降低死亡風(fēng)險

無需大量運動!《柳葉刀》:每天多動5分鐘、少坐半小時,足以顯著降低死亡風(fēng)險

生物世界
2026-03-25 16:05:30
中國將迎人口死亡高峰!22年1041萬,23年1100萬,去年死亡多少?

中國將迎人口死亡高峰!22年1041萬,23年1100萬,去年死亡多少?

長歌侃娛
2026-01-16 07:55:03
斯諾克紅包賽:首日決出第5席8強,小鋼炮拒絕3連敗,NO.1或翻車

斯諾克紅包賽:首日決出第5席8強,小鋼炮拒絕3連敗,NO.1或翻車

劉姚堯的文字城堡
2026-03-29 07:59:15
2026-03-29 09:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1310文章數(shù) 18關(guān)注度
往期回顧 全部

教育要聞

高考地理中的冰間湖

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

科技要聞

華為盤古大模型負責(zé)人王云鶴確認離職

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

教育
游戲
時尚
旅游
家居

教育要聞

喬會龍:請不要強迫他們做“大人”

《異替》現(xiàn)已登陸Steam

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

旅游要聞

跟著天氣游山東|東營廣饒·孫子文化園探秘

家居要聞

曲線華爾茲 現(xiàn)代簡約

無障礙瀏覽 進入關(guān)懷版