国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓AI像人類一樣做高考數(shù)學(xué)題,夸克領(lǐng)跑、豆包緊隨

0
分享至

一年一度的高考落下帷幕。對(duì)大模型來說,這已經(jīng)是它第三次參與這場本屬于人類考生的考試。

但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學(xué)。

一個(gè)有意思的變化在于,這兩天各種各樣的高考數(shù)學(xué)測評(píng)結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學(xué)成績也不錯(cuò)的理科生。

為驗(yàn)證這一結(jié)果,我們也選取了四個(gè)AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進(jìn)行測評(píng)。

由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國新課標(biāo)數(shù)學(xué)I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測試模型只有一次答題機(jī)會(huì)。

關(guān)于考核標(biāo)準(zhǔn),我們覺得如果讓AI參與考試,就應(yīng)該把它們當(dāng)作一個(gè)真正的考生考核

所以,本次測評(píng)拆解了三大維度

  • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
  • 答題速度:考試有時(shí)間限制,AI考生也應(yīng)該注意時(shí)間安排。
  • 識(shí)別準(zhǔn)確率:人類考生需要審題準(zhǔn)確,不能出現(xiàn)看錯(cuò)數(shù)字、符號(hào)等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

基于這三個(gè)維度,我們通過分別打分再計(jì)總分的形式,測試出AI考生們的高考數(shù)學(xué)的考試名次。

更細(xì)致的"閱卷規(guī)則"參考:

經(jīng)過以上三個(gè)維度的綜合測試,最終AI考生們的全面考察結(jié)果如下:

如果單看純粹的卷面分,這幾家AI考生的數(shù)學(xué)分?jǐn)?shù)都在110分以上。想起去年,AI們的高考數(shù)學(xué)題還經(jīng)常不及格,真是今非昔比。

而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強(qiáng)——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識(shí)別出其中的一道題目,其他AI助手在識(shí)別上都拿了滿分。

誰答對(duì)了最多題?

直接的考試分?jǐn)?shù),是考生最關(guān)心的事情。

根據(jù)卷面分?jǐn)?shù),夸克、豆包和ChatGPT分列前三。

一個(gè)小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準(zhǔn)確率較高。但考慮到高考現(xiàn)場的考生們不會(huì)配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

整體看下來,大家的選擇題和填空題得分差距不是非常大,錯(cuò)誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對(duì)。

解答題是讓各家AI考生有點(diǎn)為難的題目。尤其是16題,大家都有錯(cuò)誤。

首先是元寶,從一開始沒能識(shí)別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個(gè)沒有被某一模型識(shí)別出的題目。

豆包在這道題上犯錯(cuò)的原因也有點(diǎn)令人迷惑,題目解題思路過程都是對(duì)的,就是要把題目中的“m”改成“n”。

感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。

在選擇和填空上第一名的夸克,第16題中的錯(cuò)誤很可惜地發(fā)生在最后一步——“利用錯(cuò)位相減法”得出最終結(jié)果的部分。

向上翻了一下思考過程,發(fā)現(xiàn)它有點(diǎn)“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯(cuò)誤。

誰答得最快,審題最清晰?

答題速度,屬于AI考生們的舒適區(qū)。

基本上,這四個(gè)AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

來到解答題,大家的耗時(shí)意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

不過在耗時(shí)更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會(huì)自己放大題目、左看右看,確認(rèn)識(shí)別沒有問題后再開始解題。

夸克和豆包也很讓人驚喜。在整體的速度測評(píng)中,夸克位列第一,豆包以一分之差位列第二。

這兩家做最難的解答題,單題最長耗費(fèi)時(shí)間在4分鐘左右。

至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識(shí)別不出來,其他考生都是滿分。

不同的輸出風(fēng)格,讓我找到AI老師

測到這里,本次AI考生的高考數(shù)學(xué)測評(píng)基本可以結(jié)束了。

但在就在核對(duì)答案的過程中,我還有一個(gè)不同尋常的發(fā)現(xiàn)。

參與測評(píng)的AI考生背后,基本都是推理模型。在仔細(xì)看大家的輸出時(shí),我發(fā)現(xiàn)不同考生的思維輸出風(fēng)格存在差異。而這種差異,會(huì)給真正想通過AI學(xué)習(xí)的考生,帶來不同的感覺和效果。

比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導(dǎo)性,比較像老師。元寶的內(nèi)容,更像是數(shù)學(xué)學(xué)霸,很喜歡計(jì)算和公式。

拿頗具難度的第19題舉例。

同樣是啟動(dòng)深度思考模式,夸克不會(huì)把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個(gè)思路里面,也會(huì)劃一些高中考點(diǎn)。

相比之下,豆包和元寶有點(diǎn)"做題機(jī)器"。

在等待豆包給出答案的過程中,可以看到豆包會(huì)將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實(shí)只能用來對(duì)答案,難以引發(fā)思考。

元寶的回答少了一些清晰的思路指引。相對(duì)于夸克和豆包,計(jì)算步驟都更復(fù)雜一些,基本直奔計(jì)算而去,不會(huì)在表述中強(qiáng)調(diào)考點(diǎn)。

如果從認(rèn)真學(xué)習(xí)的角度,相信還是有更多人喜歡夸克老師的引導(dǎo)式畫風(fēng)。

總之,這一次的測評(píng)中,我們真實(shí)把這四個(gè)AI考生真正當(dāng)作人類測試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進(jìn)步已經(jīng)超出想象。隨著AI越來越聰明,或許我會(huì)收獲更多的老師。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個(gè)紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個(gè)紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

每日經(jīng)濟(jì)新聞
2026-01-25 19:55:05
“留學(xué)一年嘴都變大了”,女學(xué)生面相變化圖走紅,牢A果然權(quán)威

“留學(xué)一年嘴都變大了”,女學(xué)生面相變化圖走紅,牢A果然權(quán)威

澤澤先生
2026-01-25 21:55:27
2026年倒查15年!這些人將面臨嚴(yán)厲審查,你在其中嗎?

2026年倒查15年!這些人將面臨嚴(yán)厲審查,你在其中嗎?

特約前排觀眾
2026-01-26 00:15:05
賬戶里突然多了20萬!女子10年前買的10萬元白銀被徹底遺忘 現(xiàn)在市值接近32萬元

賬戶里突然多了20萬!女子10年前買的10萬元白銀被徹底遺忘 現(xiàn)在市值接近32萬元

閃電新聞
2026-01-26 12:02:06
外交部宣布:奧爾西將訪華

外交部宣布:奧爾西將訪華

環(huán)球時(shí)報(bào)國際
2026-01-26 19:43:41
張雨綺被抵制成功!遼視春晚已將她除名,葛曉倩開心休假成贏家

張雨綺被抵制成功!遼視春晚已將她除名,葛曉倩開心休假成贏家

萌神木木
2026-01-26 13:01:04
“天仙妹妹”笑稱已是“天仙阿姨”,丈夫曾對(duì)她的過去一無所知

“天仙妹妹”笑稱已是“天仙阿姨”,丈夫曾對(duì)她的過去一無所知

揚(yáng)子晚報(bào)
2026-01-26 12:19:49
一中華老字號(hào)國企董事長,打傷要債人

一中華老字號(hào)國企董事長,打傷要債人

中國新聞周刊
2026-01-26 19:31:17
中國汽車第一大省“易主”:產(chǎn)量達(dá)到368.65萬輛,終結(jié)廣東九連冠

中國汽車第一大省“易主”:產(chǎn)量達(dá)到368.65萬輛,終結(jié)廣東九連冠

火星人雜談
2026-01-25 20:22:37
退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

離離言幾許
2026-01-26 10:48:59
央媒怒批、目不識(shí)丁,這幾位德不配位的“文盲”明星,憑啥走紅

央媒怒批、目不識(shí)丁,這幾位德不配位的“文盲”明星,憑啥走紅

天天熱點(diǎn)見聞
2026-01-24 07:50:34
真實(shí)事件!普京女婿被俄羅斯億萬富翁欺負(fù),普京助理找上門

真實(shí)事件!普京女婿被俄羅斯億萬富翁欺負(fù),普京助理找上門

馬爾科故事會(huì)
2024-11-05 13:56:12
特朗普有關(guān)北約“脫離前線”言論激怒盟友,但只有一國得到了道歉

特朗普有關(guān)北約“脫離前線”言論激怒盟友,但只有一國得到了道歉

上觀新聞
2026-01-26 05:27:06
騰訊宣布推出全新聊天軟件,微信要被替代了嗎?

騰訊宣布推出全新聊天軟件,微信要被替代了嗎?

XCiOS俱樂部
2026-01-26 18:29:01
男子從2噸SIM卡中煉出191克黃金,當(dāng)事人:刨去成本只賺了10克金

男子從2噸SIM卡中煉出191克黃金,當(dāng)事人:刨去成本只賺了10克金

觀威海
2026-01-26 16:58:22
重兵包抄伊朗,特朗普要打了?普京已通告俄將出手,中方也有行動(dòng)

重兵包抄伊朗,特朗普要打了?普京已通告俄將出手,中方也有行動(dòng)

科普100克克
2026-01-24 18:11:51
重磅:烏克蘭突襲攻入俄羅斯領(lǐng)土!摧毀庫爾斯克指揮所

重磅:烏克蘭突襲攻入俄羅斯領(lǐng)土!摧毀庫爾斯克指揮所

項(xiàng)鵬飛
2026-01-26 17:11:27
雪豹傷人真相曝光:不是偶遇是送命!當(dāng)事人撒謊,航拍圖還原真相

雪豹傷人真相曝光:不是偶遇是送命!當(dāng)事人撒謊,航拍圖還原真相

吃貨的分享
2026-01-26 02:27:32
日本U23中場:中國隊(duì)總看起來像功夫足球,教練讓我們要11人完賽

日本U23中場:中國隊(duì)總看起來像功夫足球,教練讓我們要11人完賽

懂球帝
2026-01-26 20:41:10
華為分走750億!賽力斯嚇了市場一跳

華為分走750億!賽力斯嚇了市場一跳

李東陽朋友圈
2026-01-26 14:05:53
2026-01-27 00:40:49
四木相對(duì)論 incentive-icons
四木相對(duì)論
嘮嘮科技,看看世界
101文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

頭條要聞

女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被抵制成功!遼視春晚已將她除名

財(cái)經(jīng)要聞

從美式斬殺線看中國社會(huì)的制度韌性構(gòu)建

汽車要聞

賓利第四臺(tái)Batur敞篷版發(fā)布 解鎖四項(xiàng)定制創(chuàng)新

態(tài)度原創(chuàng)

游戲
本地
健康
親子
數(shù)碼

分析師稱PS6不會(huì)在2027年到來!停滯兩年或不是壞事

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

親子要聞

兒童洞洞鞋測評(píng):樸西、森馬、起步的樣品化學(xué)成分超標(biāo)

數(shù)碼要聞

蘋果發(fā)布新一代AirTag與新款Black Unity編織表帶

無障礙瀏覽 進(jìn)入關(guān)懷版