国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型數(shù)學(xué)計算能力仍然堪憂

0
分享至


當(dāng)前的大語言模型本質(zhì)上是預(yù)測引擎,只能找到問題的最可能解決方案,而非必然的正確答案。盡管主流模型的數(shù)學(xué)能力已有所提升,但即便是表現(xiàn)最佳的Gemini 3 Flash,如果用字母等級評估,也只能獲得C級成績。

隸屬于在線計算器制造商Omni Calculator的研究人員使用該公司的ORCA基準測試對一系列新的AI模型進行了評估,該測試包含500道實際數(shù)學(xué)問題。

在去年11月的初始評估中,OpenAI的ChatGPT-5、Google的Gemini 2.5 Flash、Anthropic的Claude Sonnet 4.5、xAI的Grok 4和DeepSeek的DeepSeek V3.2(alpha版本)在數(shù)學(xué)問題上的表現(xiàn)都很糟糕,得分均在63%或以下。

最新一輪的測試對象包括ChatGPT-5.2、Gemini 3 Flash、Grok 4.1和DeepSeek V3.2(穩(wěn)定版)。由于Sonnet 4.5在測試期間沒有變化且后續(xù)版本尚未發(fā)布,因此沒有重新評估。

在第二輪測試中,除了Grok-4.1出現(xiàn)倒退外,所有模型都顯示出改善。

Gemini 3.1 Flash的準確率達到72.8%,比前代提高了9.8個百分點。DeepSeek V3.2達到55.2%,比alpha版本提高3.2個百分點。ChatGPT 5.2實現(xiàn)了54.0%的準確率,提高了4.6個百分點。而Grok 4.1則下滑至60.2%,下降了2.6個百分點。

ORCA研究員Dawid Siuda在聲明中表示:"計算器是可預(yù)測的。今天問它一個問題,明年再問同樣的問題,答案保持不變。AI不是這樣工作的。這些系統(tǒng)基于模式預(yù)測下一個最可能的詞。從數(shù)學(xué)角度來說,模型今天答對一個問題,明天答錯是完全可能的。"

研究人員嘗試用一個名為"不穩(wěn)定性"的指標來評估模型響應(yīng)的可變性——衡量模型在被問及同一問題兩次時改變答案的頻率。

Gemini 3 Flash證明最為一致,錯誤回答中只有46.1%會發(fā)生變化。研究人員報告稱,ChatGPT在65.2%的時間里會改變答案。而DeepSeek V3.2在68.8%的錯誤中會改變答案。

ORCA研究人員注意到,模型性能隨時間的改善在不同領(lǐng)域存在差異。他們表示,DeepSeek在生物與化學(xué)問題上的表現(xiàn)從10.5%的準確率提升到43.9%。Gemini 3 Flash在數(shù)學(xué)與轉(zhuǎn)換方面的準確率達到93.2%,從83%提升而來。而Grok 4.1在健康與體育問題的準確率下降了9個百分點,在生物與化學(xué)方面下降了5.3個百分點。

研究人員推測,Grok最近的更新可能優(yōu)先考慮了定量推理以外的其他能力。

研究人員注意到,計算錯誤現(xiàn)在占所有錯誤的39.8%,從33.4%上升,而四舍五入錯誤下降至25.8%,從34.7%下降。ORCA小組得出結(jié)論,AI模型在通過格式化讓數(shù)學(xué)看起來正確方面越來越好,但在算術(shù)方面仍然困難重重。

"AI模型本質(zhì)上是預(yù)測引擎而非邏輯引擎,"Siuda在給The Register的電子郵件中說道。"因為它們基于概率工作,它們基本上是根據(jù)之前見過的模式猜測下一個最可能的數(shù)字或單詞。這就像一個學(xué)生記住了數(shù)學(xué)書中的每個答案,但從未真正學(xué)會如何加法。"

Siuda表示,我們之前就知道模型的這個特點,這一點沒有改變。

"它們可能大部分時間能得到正確答案,但一旦你給它們一個獨特或棘手的問題,或者多步驟任務(wù),它們就會跌跌撞撞,因為它們實際上并沒有真正計算任何東西,"他說。"用當(dāng)前技術(shù)完全縮小這個差距可能是不可能的,但如果我們將大語言模型與函數(shù)調(diào)用充分結(jié)合,可能有解決的可能。"

函數(shù)調(diào)用——將算術(shù)外包給確定性來源——是解決模型數(shù)學(xué)處理能力差的一種方法。

"像Google和OpenAI這樣的主要AI公司已經(jīng)在這樣做,讓AI調(diào)用函數(shù)來進行實際計算,"Siuda解釋道。"真正的頭疼發(fā)生在長而復(fù)雜的問題上。AI必須跟蹤每個階段的每個小結(jié)果,通常會被壓倒或困惑。"

另一個可能的改進途徑可能是教導(dǎo)模型通過形式化證明來驗證回應(yīng)。正如去年11月《自然》雜志所述,Google的DeepMind開發(fā)了一種方法,通過基于使用Lean編程語言和證明助手開發(fā)的證明的強化學(xué)習(xí),在國際數(shù)學(xué)奧林匹克競賽中獲得了銀牌成績。

但目前來說,不要相信任何AI。

Q&A

Q1:ORCA基準測試是什么?它如何評估AI模型?

A:ORCA基準測試是由Omni Calculator公司開發(fā)的評估工具,包含500道實際數(shù)學(xué)問題。研究人員用這個測試來衡量AI模型處理數(shù)學(xué)計算的能力,測試結(jié)果顯示即便是表現(xiàn)最好的模型也只能達到70%左右的準確率。

Q2:為什么AI模型在數(shù)學(xué)計算上表現(xiàn)不好?

A:AI模型本質(zhì)上是預(yù)測引擎而非邏輯引擎,它們基于概率工作,根據(jù)之前見過的模式猜測下一個最可能的數(shù)字或單詞。就像學(xué)生記住答案但沒學(xué)會計算方法一樣,AI可能今天答對明天答錯同一個問題。

Q3:如何改善AI模型的數(shù)學(xué)計算能力?

A:主要有兩種方法:一是函數(shù)調(diào)用,讓AI調(diào)用外部計算器進行實際計算;二是教導(dǎo)模型通過形式化證明驗證回應(yīng)。Google和OpenAI等公司已經(jīng)在使用函數(shù)調(diào)用方法,但在處理復(fù)雜多步驟問題時仍面臨挑戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京市公安局發(fā)布通告!3月1日零時起——

北京市公安局發(fā)布通告!3月1日零時起——

BRTV新聞
2026-02-27 14:59:34
記者:復(fù)星集團需展現(xiàn)領(lǐng)導(dǎo)力,一直出售核心球員絕非長久之計

記者:復(fù)星集團需展現(xiàn)領(lǐng)導(dǎo)力,一直出售核心球員絕非長久之計

懂球帝
2026-02-28 16:57:07
你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

你見過哪些悶聲發(fā)大財?shù)娜耍烤W(wǎng)友:干這個買三套房子,兩個門面

夜深愛雜談
2026-02-01 18:57:04
誰也別吹牛,100萬現(xiàn)金攥在手里,你就已經(jīng)跑贏了全國99%的家庭

誰也別吹牛,100萬現(xiàn)金攥在手里,你就已經(jīng)跑贏了全國99%的家庭

白淺娛樂聊
2026-02-15 07:00:34
37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

調(diào)侃國際觀點
2026-02-28 08:55:51
2-0!英超爆大冷,墊底隊掀翻第3,曼聯(lián)獲良機:贏球即首次進前3

2-0!英超爆大冷,墊底隊掀翻第3,曼聯(lián)獲良機:贏球即首次進前3

我愛英超
2026-02-28 06:52:26
爆冷!國乒世界冠軍不敵法國新星,四強僅剩一席

爆冷!國乒世界冠軍不敵法國新星,四強僅剩一席

郭夷包工頭
2026-02-28 14:20:45
許家印侄子豪宅拍賣,被蘇老板5016萬元拍下!房產(chǎn)總面積317平方米,配有5個洗手間

許家印侄子豪宅拍賣,被蘇老板5016萬元拍下!房產(chǎn)總面積317平方米,配有5個洗手間

每日經(jīng)濟新聞
2026-02-26 22:00:09
中國游客不去日本消費,中國經(jīng)濟反而比日本虧?這筆賬給你掰到底

中國游客不去日本消費,中國經(jīng)濟反而比日本虧?這筆賬給你掰到底

何氽簡史
2026-02-27 19:20:59
新血壓標準已公布,高血壓不再是120/80mmHg,愿你的血壓在它之下

新血壓標準已公布,高血壓不再是120/80mmHg,愿你的血壓在它之下

熊貓醫(yī)學(xué)社
2026-02-06 11:35:03
男子藏身于商場通風(fēng)管道內(nèi)潛伏近9小時,盜走黃金首飾1885.421克、玉石手鐲6個等,總價值達140萬余元,案發(fā)后僅9小時被抓獲

男子藏身于商場通風(fēng)管道內(nèi)潛伏近9小時,盜走黃金首飾1885.421克、玉石手鐲6個等,總價值達140萬余元,案發(fā)后僅9小時被抓獲

大風(fēng)新聞
2026-02-27 23:14:05
再說一遍,印度和巴基斯坦會弱化敵對、形成互補和相長關(guān)系

再說一遍,印度和巴基斯坦會弱化敵對、形成互補和相長關(guān)系

邵旭峰域
2026-02-28 16:43:46
美以率先動手,伊朗首波30枚導(dǎo)彈回擊,這輪交戰(zhàn)誰最先頂不住?

美以率先動手,伊朗首波30枚導(dǎo)彈回擊,這輪交戰(zhàn)誰最先頂不?。?/a>

戰(zhàn)友老鄧
2026-02-28 18:23:52
王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細節(jié)對上,爆料者被扒!

王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細節(jié)對上,爆料者被扒!

古希臘掌管月桂的神
2026-02-28 09:35:27
哈梅內(nèi)伊應(yīng)對“斬首”,委任拉里賈尼在自己遭遇不測后領(lǐng)導(dǎo)國家,并建立了四層繼任人選體系

哈梅內(nèi)伊應(yīng)對“斬首”,委任拉里賈尼在自己遭遇不測后領(lǐng)導(dǎo)國家,并建立了四層繼任人選體系

極目新聞
2026-02-28 17:13:18
以方評估稱美以刺殺伊朗最高領(lǐng)袖和總統(tǒng)的企圖失敗

以方評估稱美以刺殺伊朗最高領(lǐng)袖和總統(tǒng)的企圖失敗

財聞
2026-02-28 19:05:03
馬筱梅順利產(chǎn)子后首出鏡 穿粉病號服氣色紅潤狀態(tài)佳

馬筱梅順利產(chǎn)子后首出鏡 穿粉病號服氣色紅潤狀態(tài)佳

阿廢冷眼觀察所
2026-02-28 16:36:38
巴厘島海灘發(fā)現(xiàn)被肢解人體殘骸,疑是此前失蹤烏克蘭公民,或與綁架撕票有關(guān)

巴厘島海灘發(fā)現(xiàn)被肢解人體殘骸,疑是此前失蹤烏克蘭公民,或與綁架撕票有關(guān)

大風(fēng)新聞
2026-02-28 16:37:02
特朗普稱將徹底摧毀伊朗海軍!七枚導(dǎo)彈擊中伊朗總統(tǒng)府和哈梅內(nèi)伊官邸附近,伊媒稱總統(tǒng)安全無事;以色列特拉維夫一棟建筑冒起濃煙

特朗普稱將徹底摧毀伊朗海軍!七枚導(dǎo)彈擊中伊朗總統(tǒng)府和哈梅內(nèi)伊官邸附近,伊媒稱總統(tǒng)安全無事;以色列特拉維夫一棟建筑冒起濃煙

每日經(jīng)濟新聞
2026-02-28 16:17:59
殯儀館工作人員紅衣、黃發(fā)主持九旬老人告別儀式,館方致歉并承諾整改

殯儀館工作人員紅衣、黃發(fā)主持九旬老人告別儀式,館方致歉并承諾整改

極目新聞
2026-02-27 21:17:24
2026-02-28 19:44:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
16379文章數(shù) 49692關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

疑將燃料當(dāng)白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

頭條要聞

疑將燃料當(dāng)白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
房產(chǎn)
公開課

藝術(shù)要聞

香港發(fā)現(xiàn)王羲之巨幅真跡!體量相當(dāng)于20部《蘭亭序》,足以改寫書法史

親子要聞

波速球半圓平衡球

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版