大語言模型數(shù)學(xué)計算能力仍然堪憂

2026-02-27 21:26:08　來源: 至頂頭條

北京舉報

分享至

當(dāng)前的大語言模型本質(zhì)上是預(yù)測引擎，只能找到問題的最可能解決方案，而非必然的正確答案。盡管主流模型的數(shù)學(xué)能力已有所提升，但即便是表現(xiàn)最佳的Gemini 3 Flash，如果用字母等級評估，也只能獲得C級成績。

隸屬于在線計算器制造商Omni Calculator的研究人員使用該公司的ORCA基準測試對一系列新的AI模型進行了評估，該測試包含500道實際數(shù)學(xué)問題。

在去年11月的初始評估中，OpenAI的ChatGPT-5、Google的Gemini 2.5 Flash、Anthropic的Claude Sonnet 4.5、xAI的Grok 4和DeepSeek的DeepSeek V3.2(alpha版本)在數(shù)學(xué)問題上的表現(xiàn)都很糟糕，得分均在63%或以下。

最新一輪的測試對象包括ChatGPT-5.2、Gemini 3 Flash、Grok 4.1和DeepSeek V3.2(穩(wěn)定版)。由于Sonnet 4.5在測試期間沒有變化且后續(xù)版本尚未發(fā)布，因此沒有重新評估。

在第二輪測試中，除了Grok-4.1出現(xiàn)倒退外，所有模型都顯示出改善。

Gemini 3.1 Flash的準確率達到72.8%，比前代提高了9.8個百分點。DeepSeek V3.2達到55.2%，比alpha版本提高3.2個百分點。ChatGPT 5.2實現(xiàn)了54.0%的準確率，提高了4.6個百分點。而Grok 4.1則下滑至60.2%，下降了2.6個百分點。

ORCA研究員Dawid Siuda在聲明中表示："計算器是可預(yù)測的。今天問它一個問題，明年再問同樣的問題，答案保持不變。AI不是這樣工作的。這些系統(tǒng)基于模式預(yù)測下一個最可能的詞。從數(shù)學(xué)角度來說，模型今天答對一個問題，明天答錯是完全可能的。"

研究人員嘗試用一個名為"不穩(wěn)定性"的指標來評估模型響應(yīng)的可變性——衡量模型在被問及同一問題兩次時改變答案的頻率。

Gemini 3 Flash證明最為一致，錯誤回答中只有46.1%會發(fā)生變化。研究人員報告稱，ChatGPT在65.2%的時間里會改變答案。而DeepSeek V3.2在68.8%的錯誤中會改變答案。

ORCA研究人員注意到，模型性能隨時間的改善在不同領(lǐng)域存在差異。他們表示，DeepSeek在生物與化學(xué)問題上的表現(xiàn)從10.5%的準確率提升到43.9%。Gemini 3 Flash在數(shù)學(xué)與轉(zhuǎn)換方面的準確率達到93.2%，從83%提升而來。而Grok 4.1在健康與體育問題的準確率下降了9個百分點，在生物與化學(xué)方面下降了5.3個百分點。

研究人員推測，Grok最近的更新可能優(yōu)先考慮了定量推理以外的其他能力。

研究人員注意到，計算錯誤現(xiàn)在占所有錯誤的39.8%，從33.4%上升，而四舍五入錯誤下降至25.8%，從34.7%下降。ORCA小組得出結(jié)論，AI模型在通過格式化讓數(shù)學(xué)看起來正確方面越來越好，但在算術(shù)方面仍然困難重重。

"AI模型本質(zhì)上是預(yù)測引擎而非邏輯引擎，"Siuda在給The Register的電子郵件中說道。"因為它們基于概率工作，它們基本上是根據(jù)之前見過的模式猜測下一個最可能的數(shù)字或單詞。這就像一個學(xué)生記住了數(shù)學(xué)書中的每個答案，但從未真正學(xué)會如何加法。"

Siuda表示，我們之前就知道模型的這個特點，這一點沒有改變。

"它們可能大部分時間能得到正確答案，但一旦你給它們一個獨特或棘手的問題，或者多步驟任務(wù)，它們就會跌跌撞撞，因為它們實際上并沒有真正計算任何東西，"他說。"用當(dāng)前技術(shù)完全縮小這個差距可能是不可能的，但如果我們將大語言模型與函數(shù)調(diào)用充分結(jié)合，可能有解決的可能。"

函數(shù)調(diào)用——將算術(shù)外包給確定性來源——是解決模型數(shù)學(xué)處理能力差的一種方法。

"像Google和OpenAI這樣的主要AI公司已經(jīng)在這樣做，讓AI調(diào)用函數(shù)來進行實際計算，"Siuda解釋道。"真正的頭疼發(fā)生在長而復(fù)雜的問題上。AI必須跟蹤每個階段的每個小結(jié)果，通常會被壓倒或困惑。"

另一個可能的改進途徑可能是教導(dǎo)模型通過形式化證明來驗證回應(yīng)。正如去年11月《自然》雜志所述，Google的DeepMind開發(fā)了一種方法，通過基于使用Lean編程語言和證明助手開發(fā)的證明的強化學(xué)習(xí)，在國際數(shù)學(xué)奧林匹克競賽中獲得了銀牌成績。

但目前來說，不要相信任何AI。

Q&A

Q1：ORCA基準測試是什么？它如何評估AI模型？

A：ORCA基準測試是由Omni Calculator公司開發(fā)的評估工具，包含500道實際數(shù)學(xué)問題。研究人員用這個測試來衡量AI模型處理數(shù)學(xué)計算的能力，測試結(jié)果顯示即便是表現(xiàn)最好的模型也只能達到70%左右的準確率。

Q2：為什么AI模型在數(shù)學(xué)計算上表現(xiàn)不好？

A：AI模型本質(zhì)上是預(yù)測引擎而非邏輯引擎，它們基于概率工作，根據(jù)之前見過的模式猜測下一個最可能的數(shù)字或單詞。就像學(xué)生記住答案但沒學(xué)會計算方法一樣，AI可能今天答對明天答錯同一個問題。

Q3：如何改善AI模型的數(shù)學(xué)計算能力？

A：主要有兩種方法：一是函數(shù)調(diào)用，讓AI調(diào)用外部計算器進行實際計算；二是教導(dǎo)模型通過形式化證明驗證回應(yīng)。Google和OpenAI等公司已經(jīng)在使用函數(shù)調(diào)用方法，但在處理復(fù)雜多步驟問題時仍面臨挑戰(zhàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.