国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

在未受污染的數學競賽中評估大語言模型

0
分享至

MathArena:在未受污染的數學競賽中評估大語言模型

MathArena: Evaluating LLMs on Uncontaminated Math Competitions

https://arxiv.org/pdf/2505.23281



摘要

大語言模型(LLMs)推理能力的快速進步使其在數學基準測試中取得了顯著提升。然而,許多最常用的評估數據集(例如 AIME 2024)在網上廣泛公開,使得難以區(qū)分模型的真實推理能力與潛在的記憶化行為。此外,這些基準并未評估證明書寫能力——而這對許多數學任務至關重要。為解決這一問題,我們提出 MATHARENA,一個基于以下關鍵洞察的新基準:周期性舉辦的數學競賽提供了一連串高質量、高難度的問題,可用于對 LLM 進行實時評估。通過在新題目發(fā)布后立即對模型進行評估,我們有效消除了數據污染的風險。利用該框架,我們發(fā)現 AIME 2024 存在明顯的污染跡象。盡管如此,在更難的競賽(如 CMIMC 2025)上的評估表明,頂尖模型展現出令人印象深刻的推理能力。MATHARENA 也是首個評估證明書寫能力的基準。在 IMO 2025 上,頂尖模型的得分略低于 40%,既顯示出顯著進展,也表明仍有巨大提升空間。迄今為止,我們已在七項競賽中評估了超過 50 個模型,共計 162 道題目。作為一個持續(xù)演進的基準,MATHARENA 將繼續(xù)追蹤 LLM 在新發(fā)布競賽中的表現,確保對數學推理能力進行嚴格且及時的評估。

1 引言

近期大語言模型(LLMs)在數學推理能力方面的進展 [20, 7] 引發(fā)了對現有數學基準充分性的以下三個擔憂:

  1. 污染風險:許多基準源自公開可用的數學競賽,這些題目在網上廣泛傳播,常被用于訓練 LLM,因此容易受到數據污染,難以準確衡量進展。數據污染可能源于基準題目間接包含在訓練數據中,或通過使用基準性能進行超參數調優(yōu)或模型選擇。例如,我們發(fā)現流行的 AIME 2024 數據集已被大多數主流 LLM 顯著污染,使其不再適合作為評估模型能力的基準。
  2. 高成本、私有基準:為緩解污染問題,一些領先基準(如 FrontierMath [15] 和 HLE [29])采用了私有、人工策劃的方法。雖然這種方法能有效避免數據泄露,但也帶來若干重大問題。首先,其私有性質引發(fā)了可復現性與透明度方面的擔憂,使得無法準確驗證結果。

此外,基準創(chuàng)建者可能選擇性地向某些機構授予訪問權限 [10],造成不公平的競爭環(huán)境。最后,開發(fā)此類數據集的高昂成本令人望而卻步。例如,HLE 為激勵貢獻設立了 50 萬美元的獎金池。

  1. 側重最終答案:大多數現有基準(包括 HLE 和 FrontierMath)主要評估具有單一最終答案的問題。這可能產生誤導,因為模型可能通過模式識別或暴力枚舉得到正確答案,而非依靠真正的數學推理。這類基準無法充分反映數學奧林匹克競賽中問題所需的深度與嚴謹性——后者通常要求詳細的證明和多步驟邏輯。此外,LLM 在數學中的大多數實際應用場景涉及生成證明或解釋,而不僅僅是提供最終答案。

MATHARENA:面向數學推理的新基準
我們提出 MATHARENA——一個動態(tài)、公開可用的基準,通過在新發(fā)布的數學競賽上進行評估來解決上述局限(見圖 1)。我們的核心洞察是:周期性舉辦的數學競賽提供了豐富且高質量、未受污染的問題來源。這些問題由競賽組織方預先審核其原創(chuàng)性,確保此前未出現過類似題目,從而降低污染風險。通過在模型發(fā)布之后舉行的競賽上評估模型,MATHARENA 消除了數據污染的可能性,并提供了一種清晰、前瞻性的進展度量方式。此外,所包含的部分競賽(如 IMO 2025)包含其他基準所缺乏的證明類題目。與私有或靜態(tài)基準不同,MATHARENA 完全透明、可復現,并在全年隨著新題目的發(fā)布持續(xù)更新。這使其能夠不斷適應數學推理能力評估的演進格局,確保所含競賽始終保持相關性和挑戰(zhàn)性。


我們實現了完整的 MATHARENA 流水線,用于解析、求解和驗證問題解答,并將代碼、數據和模型響應以開源形式發(fā)布。

迄今為止,我們已在七項競賽中評估了超過 50 個模型,共計 162 道題目。結果表明,GPT-5、GROK 4 和 GEMINI-2.5-PRO 是所涵蓋競賽中表現最佳的模型,其成績超越了人類參賽者的前 1%。然而,我們在證明類競賽上也發(fā)現了改進空間:模型在 IMO 2025 上的得分低于 40%。這凸顯了該領域仍需進一步研究。

主要貢獻
綜上所述,我們的主要貢獻如下:
? 我們提出 MATHARENA 基準,利用新發(fā)布的競賽評估 LLM,在完全透明且可復現的前提下消除數據污染風險。
? 我們設計了一個可擴展的評估流水線,用于解析、求解和驗證來自多種競賽格式的問題,包括最終答案型和證明型題目。
? 我們對當前最先進模型在這些競賽中的表現進行了比較和深入分析,揭示了過去一年取得的顯著進展。

2 相關工作

在本節(jié)中,我們討論評估數學推理能力的關鍵先前方法。

公開的、基于答案的基準最廣泛使用的基準通過將模型輸出與固定的標準答案(通常是數值或閉式表達式)進行比較來評估模型。早期的基準如 GSM8K [6] 和 MATH [17] 已被近期的語言模型基本飽和。即使是更具挑戰(zhàn)性的競賽,如 AIME 2024,也呈現出類似進展并接近飽和。Omni-MATH [14]、OlympiadBench [16]、HARP [36] 和 OlymMATH [30] 通過引入來自奧林匹克競賽的更難題目來提升難度。然而,這些題目源自多年前就已在網上公開的過往競賽,由于存在數據污染風險,難以準確追蹤進展。GSM8K 中已有證據支持這一擔憂 [37],我們在第 4 節(jié)中也確認了 AIME 2024 存在污染。

私有的、基于答案的基準FrontierMath [15] 是最近引入的一個私有基準,其設計顯著更具挑戰(zhàn)性,題目要求結合數學推理與研究級數學的深厚背景。類似地,Humanity’s Last Exam [29] 收集了涵蓋數十個學科的大量私有高難度題目。盡管其極高難度為前沿模型提供了有趣的測試目標,但這些基準的私有性質使得標準化評估和公平的模型比較變得困難。此外,這種難度水平使得追蹤進展極具挑戰(zhàn)性,尤其對開源模型和處于成本-性能帕累托前沿的模型而言。最后,基準的私有性質引發(fā)了可復現性與透明度方面的擔憂,因為這些基準的訪問權限曾被選擇性地授予某些機構 [10]。

基于證明的基準另一類評估聚焦于驗證推理軌跡的正確性,而非僅關注最終答案。一種常見策略是要求 LLM 在 Lean、Coq 或 Isabelle 等系統(tǒng)中生成形式化證明,從而實現自動驗證。此類基準和數據集包括 miniF2F [39]、FIMO [21]、PutnamBench [32] 和 LeanWorkbook [35]。然而,這些方法往往未能充分利用 LLM 的自然語言能力,并受限于模型生成正確形式化代碼的能力。同期工作 [22] 表明,模型通常無法在自然語言中生成完全嚴謹的證明。即使對于已正確解決的問題,由于包含 IMO 短名單題目,很可能存在顯著污染;且基準規(guī)模過大,使得在所有題目上評估新模型變得不可行。GHOSTS [13] 對 GPT-4 的證明書寫能力進行了人工評估,但其基準僅限于兩個較舊的模型,且自 2023 年以來未再更新。

動態(tài)基準為應對污染問題并適應不斷演進的能力,一些基準被設計為持續(xù)更新新題目。例如,LiveBench [33] 在包括編程、數據分析和數學等多個領域評估 LLM。其數學部分包含略難于 MATH 水平的題目,以及填空式的證明類任務,整體難度低于 MATHARENA,且未評估嚴格的證明能力。另一項與我們工作類似的是 LiveAoPSBench [23],它允許在特定時間點的問題快照上評估模型。這可視為對 MATHARENA 所采用的實時評估的一種回溯性模擬。然而,該基準未持續(xù)更新,且不包含 2025 年的題目,因此無法評估近期的前沿模型。

基于擾動的基準緩解污染風險的另一種方法是通過對現有題目進行擾動生成新題目 [19, 24, 40]。盡管該策略減少了重疊,但并未完全消除污染:擾動后的題目仍依賴相同的底層推理模式。相比之下,我們的方法引入的是全新的題目,需要全新的高層推理策略。

其他基準最后,一些基準采用非常規(guī)方法評估數學推理能力。例如,MathTrap [38] 評估模型回答中的邏輯一致性,而 MathConstruct [8] 聚焦于需要構造性證明的問題。這些方法為模型的數學推理能力提供了更多樣化的視角。然而,這類基準通常需要昂貴的人工數據策劃,限制了可擴展的評估。

3 MATHARENA

在本節(jié)中,我們描述用于構建 MATHARENA 的流水線,如圖 2 所示。該流程首先選擇一個足夠具有挑戰(zhàn)性且聲譽良好的競賽,并從中提取題目與解答(第 3.1 節(jié))。接著,我們在這些題目上評估一組選定的模型,確保公平比較并避免數據泄露(第 3.2 節(jié))。根據題目的類型(最終答案型或證明型),我們采用不同的解析與評估方法(第 3.3 節(jié)):對于最終答案型題目,我們使用自動化的基于規(guī)則的解析器提取答案;對于證明型題目,則由人工評分員評估模型輸出。最后,我們計算排行榜排名,并進行統(tǒng)計后處理以確保結果的準確性與可靠性(第 3.4 節(jié))。


3.1 競賽選擇與題目提取

競賽選擇
為了有效將高質量數學競賽重新用于大語言模型(LLM)評估,我們仔細選擇納入 MATHARENA 的競賽,并確保每道題目的格式準確。表 1 展示了當前已納入 MATHARENA 的競賽日歷,以及我們計劃未來加入的其他競賽。目前,MATHARENA 包含七項競賽,共計 162 道題目。我們根據競賽題目類型將其分為兩類:最終答案型(final-answer)或證明型(proof-based)。


最終答案型競賽更容易評估,但通常挑戰(zhàn)性較低。對此類競賽,我們聚焦于高難度賽事,例如 AIME(美國數學奧林匹克 USAMO 的資格賽)以及若干更難的大學主辦錦標賽。我們曾嘗試納入其他知名競賽(如 Kangaroo),但因其題目已被現有模型基本飽和而予以排除。

證明型競賽更具挑戰(zhàn)性,也更能代表深層次的數學推理。然而,它們也需要人工評估,因為可擴展的自動化證明評分仍是一個未解決的問題。為確保評估質量,我們采用人工評分員對證明進行評判,并聚焦于一小套核心競賽:USAMO(美國高中數學奧林匹克)、IMO(國際數學奧林匹克)和 Putnam 競賽(美國本科生級別)。

除標準數學競賽外,我們還納入了來自 Project Euler [11] 的題目。Project Euler 是一個廣受歡迎的在線平臺,強調通過代碼實現進行數學問題求解。與傳統(tǒng)競賽不同,Project Euler 沒有固定的賽程或題集,而是持續(xù)擴充其題目庫。在評估中,我們僅關注最新發(fā)布的題目,并計劃在新題發(fā)布后定期更新該子集。

題目提取
選定競賽后,我們從原始來源中提取題目,并將其格式化為標準化模板。我們對每道題目進行人工核查,以確保無拼寫錯誤、內容不一致或格式問題。

3.2 模型選擇與解答生成

模型選擇
MATHARENA 會持續(xù)納入新發(fā)布的模型。為避免排行榜過于雜亂,我們僅選擇滿足以下至少一項標準的模型:
(i) 該模型在某項競賽中競爭最高分(例如 GPT-5、GEMINI-2.5-PRO、GROK 4);
(ii) 該模型是表現最佳的開源權重模型之一(例如 DEEPSEEK-R1、QWEN3);
(iii) 該模型在成本-性能權衡曲線上占據帕累托最優(yōu)位置(例如 GROK 4 FAST、GPT-OSS-20B)。

我們排除非推理型模型,因為它們在所有情況下均顯著弱于推理型模型,且不滿足上述任一選擇標準。

解答生成
每個模型在每項競賽中僅評估一次,使用模型提供方推薦的超參數,不做進一步調優(yōu)。此舉可避免過擬合并降低信息泄露風險。對于答案型競賽,我們提示模型將其答案置于 \boxed{} 環(huán)境中;對于證明型競賽,則提示模型輸出完整證明。附錄 D 提供了各競賽所用的具體提示詞。為考慮隨機性,每個模型對每道題生成四次回答,最終報告這四次運行的平均得分。模型評估時間盡量接近競賽舉辦日期,以最小化污染風險。若某模型發(fā)布時間晚于競賽日期,排行榜中將明確標注。模型輸出與題目示例見附錄 E。

Project Euler 工具支持
對于 Project Euler,我們允許模型使用工具執(zhí)行代碼,因為解決此類問題通常需要編程。為此,我們提供了 Python 和 C++ 解釋器。模型可生成代碼片段,在安全沙箱環(huán)境中執(zhí)行,其輸出可用于后續(xù)推理步驟。每道題最多允許 20 次代碼執(zhí)行。

3.3 解答評分

我們的評分策略在最終答案型與證明型題目之間存在顯著差異。以下分別詳述兩種方法。這些方法在圖 2 中分別以“Parse(答案型)”和“Human(證明型)”分支表示。

答案型競賽
答案型競賽通??赏ㄟ^從 \boxed{} 中提取最終答案并對其字符串進行基于規(guī)則的解析,實現較為準確的自動評分。然而,鑒于此類競賽題目數量較少,即使微小的解析錯誤也可能造成不成比例的影響。為此,我們開發(fā)了一個定制的基于規(guī)則的解析器,能將任意 LaTeX 字符串轉換為結構化的 SymPy 表達式,可處理分數、列表、根式等復雜數學對象。隨后,使用 SymPy 判斷這些表達式是否與標準答案等價。由于模型輸出格式多變,解析器的魯棒性至關重要。我們采取兩項措施確保正確性:

第一,我們開發(fā)了一個圖形用戶界面(GUI),用于人工復核模型答案,重點標出:(i) 異常簡短的輸出(可能因 token 限制被截斷);(ii) 解析錯誤;(iii) 正確答案出現在推理過程中但未被成功提取的情況。對于第一類情況,若某模型頻繁出現此問題,我們會考慮更換 API 提供商重新運行(因當前提供商可能限制了每次生成的 token 數量);對于后兩類情況,我們對所有標記問題進行人工驗證。

第二,我們引入一個基于 LLM 的評判器,使用 GEMINI-2.5-FLASH 模型判斷模型的最終答案是否與標準答案語義等價。若解析器與 LLM 評判器結果不一致,我們會人工檢查模型響應,并按需更新解析器。

證明型競賽
目前,自動化評分尚不足以應對證明型題目,因此我們依賴專家人工評分員進行精確評分。首先,由于競賽通常不公開其評分細則,專家評分員會制定一套結構化評分方案,力求貼近實際競賽所用標準(例如,對部分進展給予分數)。隨后,評分員接收匿名化的模型解答,并依據前述方案進行評分。每份解答由兩名獨立評分員評判,不僅給出最終分數,還提供評分理由。更多流程細節(jié)參見 [28]。

3.4 排行榜與后處理

在模型輸出完成評估后,我們執(zhí)行若干后處理步驟,以確保報告結果的可靠性。這些步驟包括排行榜構建與統(tǒng)計方差估計。

排行榜
結果發(fā)布于公開排行榜 https://matharena.ai。該界面設計便于使用,允許用戶瀏覽結果、檢查各模型的輸出,并驗證解析與評分決策。這使用戶能夠定性分析模型表現,并驗證我們解析器與評分流程的正確性。


4 評估

在本節(jié)中,我們展示了在 MATHARENA 上對主流大語言模型(LLMs)的評估結果。我們還對結果進行分析,以調查數據污染問題、性能隨時間的變化趨勢以及置信區(qū)間。有關實驗所用數據與代碼的獲取方式及許可證信息,詳見附錄 A。為促進開放研究,我們在網站 https://matharena.ai 上公開了所有結果和原始模型響應。

實驗設置
我們在以下 2025 年舉辦的競賽上評估了模型:AIME [2, 3]、HMMT [18]、BRUMO [4]、CMIMC [5]、USAMO [26]、IMO [12] 和 Project Euler [11]。這些競賽共包含 162 道題目,涵蓋代數、組合數學、幾何和數論。其中,USAMO 和 IMO 為證明型競賽,其余競賽要求提供數值型最終答案。我們在所有競賽中評估了超過 50 個 LLM,本文所述實驗產生的 API 查詢費用約為 2,000 美元(不含開發(fā)成本)。

4.1 數值答案型競賽

我們基于最終答案的評估(不含 Project Euler)包含四項競賽,共計 130 道題目。本節(jié)聚焦于未被棄用的模型,完整結果見附錄 B。當同一提供商發(fā)布了一個嚴格更優(yōu)的新版本后,舊模型即被視為棄用(例如,O3-MINI 在 O4-MINI 發(fā)布后即被棄用),此后不再納入后續(xù)評估。

主要結果表 2 報告了截至本文撰寫時表現最佳的未被棄用模型的結果。根據第 3 節(jié)所述的評估協(xié)議,每個模型對每道題目評估四次,準確率采用 pass@1 指標計算,且未使用任何額外的推理時策略(例如多數投票)??傮w而言,最新模型展現出極強的性能。表現最佳的模型——GPT-5、GROK 4 和 GROK 4 FAST——分別達到 91.3%、90.6% 和 90.4% 的準確率,其中 GROK 4 FAST 的成本顯著更低。這些模型在 AIME 和 HMMT 上的表現遠超人類參賽者的前 1%,表明其能夠正確解決大多數問題,并與頂尖人類選手競爭。在開源模型中,GPT-OSS-120B 領先,緊隨其后的是 DEEPSEEK-V3.2(THINK)。


成本-準確率帕累托前沿圖 3a 展示了所有競賽中的成本-準確率帕累托前沿。成本反映的是在單個完整競賽上運行一個模型所需的平均美元費用(對所有競賽取平均)。目前該前沿僅包含來自 XAI 和 OPENAI 的三個模型。

性能隨時間的變化圖 3b 展示了模型在 HMMT 2025 上的得分隨時間的變化情況。每個點代表一個模型的發(fā)布時間,紅線表示隨時間演進的準確率帕累托前沿。虛線垂直線標記了競賽舉辦日期,意味著位于該線左側的模型可確保未受污染。我們在附錄 B 中展示了其他競賽的類似圖表。我們觀察到,2024 年 9 月之前發(fā)布的模型準確率低于 10%(例如 GPT-4o)。隨著 O1 等具備思維鏈推理能力的模型發(fā)布,性能顯著提升,并在后續(xù)迭代中持續(xù)提高。


過往競賽的數據污染問題本研究的一個關鍵目標是評估模型在舊競賽(尤其是 AIME 2024)上表現的可靠性,因為這些競賽可能存在數據污染。圖 4a 和圖 4b 比較了模型在 AIME 與 HMMT 的 2024 版和 2025 版上的得分。橫軸表示 2025 版的表現,縱軸表示 2024 版的表現。虛線代表人類參賽者的分位數,使我們能夠校正年度間題目難度的變化——因為同一人類分位數在不同年份應產生相近的表現。在 AIME 上,大多數模型位于該線之上,超出幅度達 10%–20%,表明 AIME 2024 的表現因數據污染而被夸大。QWQ-PREVIEW-32B 是一個顯著異常值,其表現比預期的人類對齊水平高出近 60%,表明存在嚴重污染。相比之下,HMMT 的偏差要小得多,說明其結果更可信——可能是因為 HMMT 知名度較低,不太可能被納入訓練數據集。

新競賽污染的另一個可能來源是:新競賽中的題目版本可能已提前在線上出現,例如出現在往屆比賽或網絡論壇中。我們使用 DeepResearch [27] 對 AIME 2025 和 HMMT 2025 進行了調查,發(fā)現 AIME 2025 中有 8 道題、HMMT 2025 中有 1 道題以相似形式在線上存在。我們發(fā)現這些題目大多較為簡單,不影響整體結果,但這也突顯了一個有趣的警示:即便評估未來競賽,仍需警惕潛在的提前泄露。詳細信息見附錄 B。

置信區(qū)間
目前大多數大語言模型基準依賴大型數據集,這引發(fā)了一種擔憂:單個競賽的方差可能過高,難以得出有意義的結論。相比之下,小型競賽常被用于評估人類參賽者,表明它們仍可具備可靠性。

我們采用第 3.4 節(jié)所述方法,計算了所有競賽中模型排名和準確率的 95% 置信區(qū)間。表 3 展示了這些置信區(qū)間在各競賽上的平均值,各競賽單獨的置信區(qū)間見附錄 B。盡管競賽規(guī)模較小,MATHARENA 仍能可靠地區(qū)分大多數模型。特別是,排名的置信區(qū)間相對較小:前三名模型為 GPT-5、GROK 4 FAST 和 GROK 4,彼此之間差距均在 1% 以內。



重復運行作為一種更直觀理解方差的方法,我們遵循 Abdin 等人 [1] 的做法,進行重復評估。具體而言,我們選取若干代表性模型(O4-MINI (MEDIUM)、QWEN3-30B-A3B、DEEPSEEK-R1-DISTILL-32B 和 DEEPSEEK-R1-DISTILL-14B),對每道題目采樣 100 次解答,并按照第 3.4 節(jié)所述方法(每次使用每題 4 個樣本)生成每個模型的 25 個得分估計值。隨后,我們對這些得分分布擬合核密度估計(KDE)。結果表明,得分分布非常集中(sharp),驗證了我們采用四次運行取平均準確率的方法是合理的。

跨競賽相關性我們還計算了不同競賽之間的斯皮爾曼(Spearman)相關系數。高相關性表明模型排名具有一致性,說明單個競賽的結果能夠代表整體性能。AIME、HMMT 和 CMIMC 之間的相關性均超過 80%,明確表明某一競賽的結果可很好地推廣到其他類似競賽。這種高度的整體相關性支持了以下結論:基于單個競賽的評估通常是穩(wěn)健的。

4.2 Project Euler

實驗設置

我們在 Project Euler 上評估了六個最先進模型:GPT-5、O4-MINI、GROK 4、GROK 4 FAST、GEMINI-2.5-PRO 和 CLAUDE-SONNET-4.5。這些模型是根據其在 MATHARENA 中其他競賽中的優(yōu)異表現而選定的。由于這些問題通常需要編程求解,我們允許模型使用工具執(zhí)行代碼,如第 3 節(jié)所述。

結果
如表 4 所示,GPT-5 取得了最高的準確率(55%),其次是 GROK 4 及其更快、更便宜的變體(47.5%)。CLAUDE-SONNET-4.5 和 GEMINI-2.5-PRO 表現落后,準確率分別為 16.25% 和 12.5%。


4.3 自然語言證明評估

MATHARENA 的核心目標之一是在證明型數學競賽上評估模型,尤其是 USAMO [26]、IMO [12] 和 Putnam [25]。截至本文撰寫時,USAMO 2025 和 IMO 2025 已經舉行。我們在題目發(fā)布后立即按照第 3 節(jié)所述流程進行了評估。有關 USAMO 2025 評估的更多細節(jié)可參見我們此前的報告 [28]。本節(jié)重點討論 IMO 2025 的結果。

模型選擇與評估
我們評估了六個最先進模型:GPT-5、O3、O4-MINI、GEMINI-2.5-PRO、GROK 4 和 DEEPSEEK-R1-0528。我們采用了 Dekoninck 等人 [9] 提出的 best-of-n 選擇策略,對每道題從 32 個生成樣本中選出最佳證明。在此過程中,模型自身作為評判者,在生成的證明之間進行淘汰賽(bracket tournament),逐輪選出勝者,直至選出最終證明。該流程所用提示詞見附錄 D。

結果
GPT-5 取得最高分,平均得分為 38%(16 分)。盡管這一結果看似 modest(尤其考慮到僅生成 24 個答案就花費了 200 美元),但鑒于 IMO 題目極高的難度,這仍代表了強勁的表現。然而,16 分仍未達到獲得銅牌所需的 19 分(滿分 42 分)。完整結果可在我們的排行榜上查看,其中可詳細瀏覽各模型回答及評分員反饋。附錄 E 提供了若干模型回答示例。由于題目數量較少,排名的置信區(qū)間比數值型競賽更寬。因此,我們建議在解讀結果時保持謹慎,尤其是在比較得分相近的模型時。

定性分析
我們從評估中總結出若干定性發(fā)現。首先,GROK 4 的表現遠低于預期。其許多初始回答極為簡短,常常僅提供最終答案而無任何解釋。類似模式也出現在 MATHARENA 的其他基準中,GROK 4 經常生成缺乏深度或論證的回答。相比之下,GEMINI-2.5-PRO 表現出另一種問題:當無法找到有效證明時,它常引用不存在的定理。這種行為尤其成問題,因為它通過虛假權威誤導用戶,從而削弱對其推理能力的信任。盡管在 IMO 回答中此類行為比在 USAMO [28] 中少見,但仍值得關注。

積極的一面是,與早期評估 [28] 相比,我們觀察到更少的格式錯誤,以及更少模型過度優(yōu)化“最終答案”風格的情況(例如將整個證明放入 \boxed{} 中,或假設所有回答都必須是數值)。這表明模型在處理開放式數學推理任務方面正變得更加可靠。

最后,一位評分員在 best-of-n 選擇前簡要審閱了模型生成的 32 個原始回答的一個子集。他指出,許多原始回答非常薄弱,并估計若不經過篩選,模型得分可能降至 10% 以下。有趣的是,該評分員還注意到,一些未被選中的回答在連貫性上甚至優(yōu)于被選中的回答,但卻包含更多事實性錯誤。

5 討論

我們簡要描述本工作的局限性與更廣泛的影響。


局限性每年僅有數量有限的競賽足夠具有挑戰(zhàn)性,可作為評估最先進大語言模型(LLMs)的有效基準。因此,MATHARENA 的規(guī)模仍然較小,導致結果的置信區(qū)間相對較寬。然而,我們預計隨著更多競賽的加入,這一情況將隨時間逐步改善,不確定性也將逐漸降低。此外,當前最先進的模型已能解決幾乎所有答案型競賽中除最難題目以外的所有問題。這表明此類基準可能很快趨于飽和,甚至可能早在 2026 年就會發(fā)生。為維持有意義的評估,我們預計需要識別或設計更具挑戰(zhàn)性的競賽。不過,與靜態(tài)基準不同,MATHARENA 的動態(tài)特性使其能夠隨模型能力同步演進,確保在領域發(fā)展中持續(xù)保持相關性。

此外,還存在一些關于殘余數據污染的潛在擔憂,源于模型發(fā)布時間與競賽舉辦日期之間的時間差。在我們的排行榜上,我們明確標注了在競賽日期之后發(fā)布的模型。然而,由于競賽公開發(fā)布與我們評估之間存在一定時間窗口,理論上閉源模型有可能在我們評估前就已用新競賽數據進行了更新。但在實踐中,我們的評估通常在競賽結束后幾小時至最多幾天內完成,而當前的訓練流程需要更長時間才能整合新數據。因此,我們認為在我們的設定下,污染風險極低。

更廣泛的影響MATHARENA 已對領域產生顯著影響。若干主要模型提供商已在發(fā)布說明中引用 MATHARENA 的結果,包括 PHI-4-REASONING [1]、GEMINI-2.5-PRO [31] 和 GROK-3 [34]。今年二月,我們首次證明:專注于推理的 LLM 在舊數學競賽上的表現可很好地泛化到新競賽。我們的工作已引起社區(qū)廣泛關注,我們預期 MATHARENA 將繼續(xù)作為一個有價值且具備適應性的資源,通過使基準始終保持挑戰(zhàn)性并與模型能力前沿同步,支持對 LLM 的持續(xù)評估。

6 結論

我們提出了 MATHARENA——一個旨在利用人類數學競賽中未受污染的題目來評估大語言模型(LLM)數學能力的基準。其核心洞見在于:這類競賽天然生成一系列多樣化、高難度且未受污染的問題,非常適合進行嚴格評估。為此,我們開發(fā)了一個可擴展的流水線,用于解析題目與答案、采樣模型解答、提取最終答案并驗證其正確性。基于該框架,我們在 2025 年舉辦的七項數學競賽共 162 道題目上評估了超過 50 個 LLM。結果既顯示出 LLM 數學能力的顯著進步,也證實了先前基準中數據污染問題的實際影響。

原文鏈接:https://arxiv.org/pdf/2505.23281

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

子芫伴你成長
2026-01-25 08:10:03
"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

毒sir財經
2025-12-08 22:57:40
終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

財經智多星
2026-01-27 15:37:41
致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

星辰夜語
2026-01-27 18:54:15
81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

攬星河的筆記
2025-11-12 12:36:17
1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

寄史言志
2025-12-17 16:08:14
這是李宗仁和白崇禧的真實容貌,不是演員扮演

這是李宗仁和白崇禧的真實容貌,不是演員扮演

手工制作阿殲
2026-01-27 14:52:44
陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

銘記歷史呀
2026-01-26 19:50:33
美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

阿傖說事
2026-01-20 12:53:01
騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

電廠
2026-01-27 18:44:14
上海疾控:尼帕病毒本地傳播風險較低

上海疾控:尼帕病毒本地傳播風險較低

上觀新聞
2026-01-27 18:53:11
美國大使威脅:若加拿大不推進采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進入加領空

美國大使威脅:若加拿大不推進采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進入加領空

財聯(lián)社
2026-01-27 22:04:25
伊拉克真主旅成員簽署自殺任務,為伊朗戰(zhàn)備站臺

伊拉克真主旅成員簽署自殺任務,為伊朗戰(zhàn)備站臺

桂系007
2026-01-28 00:00:01
沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

每日經濟新聞
2026-01-27 22:17:09
對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

南方都市報
2026-01-27 22:02:49
2只旅日大熊貓已起飛回國,預計將于今日午夜抵達成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

2只旅日大熊貓已起飛回國,預計將于今日午夜抵達成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

極目新聞
2026-01-27 21:39:56
結婚23年她的內衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

結婚23年她的內衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

琨玉秋霜
2026-01-27 14:10:08
后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

離離言幾許
2026-01-27 14:38:53
比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

GA環(huán)球建筑
2026-01-28 00:02:43
”經濟學家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

”經濟學家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

張曉磊
2025-11-07 11:34:05
2026-01-28 00:40:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數 18關注度
往期回顧 全部

教育要聞

分享聚精會神4小時就能看完的“小書”

頭條要聞

因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

頭條要聞

因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務被取消

財經要聞

多地對壟斷行業(yè)"近親繁殖"出手了

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

游戲
手機
藝術
旅游
數碼

被女隊友踢出戰(zhàn)隊,只因為男隊員太想贏了?

手機要聞

小米17 Max再次曝光:2億主攝+聯(lián)名影像,排期Q2季度!

藝術要聞

震撼!19世紀油畫巨匠的作品美得不可思議!

旅游要聞

國際郵輪先后回歸,寶山持續(xù)提升中國郵輪入境旅游第一站功能!

數碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

無障礙瀏覽 進入關懷版