国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

所有AI全軍覆沒!學(xué)者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

0
分享至

近日,由全球近 1,000 名頂尖學(xué)者打造的 AI 新基準(zhǔn)“人類最后一次考試”(HLE,Humanity's Last Exam)的相關(guān)論文發(fā)在Nature。這套新試卷覆蓋數(shù)學(xué)、物理、化學(xué)、歷史、語言、醫(yī)學(xué),每一道題都來自專家自己的研究領(lǐng)域,每一道題都有唯一正確的答案,每一道題也都經(jīng)過 AI 的經(jīng)驗(yàn),如果哪個(gè) AI 能夠答對,這道題就會(huì)作廢。


圖 | 相關(guān)論文(來源:Nature)

結(jié)果呢?GPT-4o 只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI 最先進(jìn)的 o1 模型,8%。發(fā)布之后,更強(qiáng)的 Gemini 2.5 Pro 和 GPT-5 也來挑戰(zhàn),一個(gè) 21.6%,一個(gè) 25.3%?芍^是全軍覆沒,沒有一個(gè)能及格。


圖 | 各個(gè)模型的得分(來源:Nature)

之所以出這套新卷子,是因?yàn)楫?dāng)前最聰明的大模型在那些曾難倒無數(shù)學(xué)生的考試?yán),已?jīng)能夠考到 90 分以上。MMLU這樣一個(gè)包含 57 個(gè)學(xué)科、14,000 道題目的超難測試,AI 早就拿到了接近滿分的成績。


圖 | “人類最后一次考試”的數(shù)據(jù)集創(chuàng)建流程(來源:Nature)

因此,“人類最后一次考試”的推出正是為了跟上和適應(yīng) AI 的發(fā)展。那么,這套題到底有多難?

有一道題是一張古羅馬墓碑的照片,上面刻著帕爾米拉文字,要求 AI把它翻譯出來。帕爾米拉是古代敘利亞的一個(gè)城市,有自己的語言和文字,但是現(xiàn)在已經(jīng)沒人說了。翻譯這種文字,需要懂古閃米特語、懂考古學(xué)、懂歷史學(xué)。

另一道題問:蜂鳥身上有一塊特殊的籽骨,位于某塊肌肉的腱膜里,這塊骨頭支撐著幾根肌腱?答案是數(shù)字。這就需要 AI 知道蜂鳥的解剖結(jié)構(gòu),知道那塊骨頭長在哪兒,知道它連著幾根肌腱,差一點(diǎn)都不行。

還有一道題是數(shù)學(xué),關(guān)于自然變換和余端,里面充滿了Σ、∞、Hom 這些符號。題目本身已經(jīng)復(fù)雜到讓大多數(shù)數(shù)學(xué)系學(xué)生直接跳過,但答案要求卻是精確數(shù)字。

這套題的設(shè)計(jì)邏輯很殘酷。每一道題提交之前,都要讓 AI 先做一遍。如果 AI 做對了,這道題就不要。如果 AI 做錯(cuò)了,才會(huì)進(jìn)入人工審核環(huán)節(jié)。審核要過兩關(guān),第一關(guān)是幾個(gè)研究生水平的審稿人提意見,第二關(guān)是專家拍板。整個(gè)過程下來,1,000 個(gè)專家花費(fèi)幾個(gè)月,從幾萬道題里篩選出了這 2,500 道題。

如前所述,MMLU 已經(jīng)無法滿足當(dāng)前 AI 的發(fā)展。2020 年,MMLU 剛出來的時(shí)候,AI 只能考三四十分。到了 2023 年,GPT-4 直接飆到 86 分,F(xiàn)在,隨便一個(gè)開源模型都能考到 90 分以上。當(dāng)考試分?jǐn)?shù)都溢出來了,如何測量 AI 的聰明程度呢?因此,得換一套更難的新卷子。

“人類最后一次考試”這套基準(zhǔn)測試名字聽著嚇人,但并不是字面意思,而是說這是 AI 最后一次可能考過的考試。等到 AI 哪天也在這套題上拿到 90% 的成績,說明它已經(jīng)具備了專家級的學(xué)術(shù)能力。

那么,AI 現(xiàn)在可以考多少分?前面提到,最厲害的 AI 也就考試 25% 左右,距離 90% 還有很大的差距。而且更有意思的是,AI 不知道自己不會(huì)。研究團(tuán)隊(duì)在讓 AI 回答的同時(shí)給出信心分?jǐn)?shù),結(jié)果大多數(shù) AI 明明答錯(cuò)了,卻給出 80%、90% 的信心。這種過度自信非常危險(xiǎn),如果 AI 用在醫(yī)療和法律這些領(lǐng)域,而它不知道自己不知道,就會(huì)出現(xiàn)大問題。

還有一點(diǎn)值得注意。研究團(tuán)隊(duì)發(fā)現(xiàn),推理模型在回答這套題的時(shí)候,思考時(shí)間越長,正確率越高。但當(dāng)思考時(shí)間超過一定長度,正確率反而下降了。這說明不是想得越久就越好,當(dāng)思考時(shí)間超過某個(gè)臨界點(diǎn),可能就是 AI 在瞎繞。這也給 AI 開發(fā)提了個(gè)醒,以后不能光拼推理時(shí)間,還得拼推理效率。

這套題現(xiàn)在已經(jīng)在網(wǎng)上公開了一部分,網(wǎng)址是 lastexam.ai。任何人都可以去看看這些題目長什么樣,也可以看看自己能不能答對幾道。當(dāng)然,大部分人可能不太能答對,因?yàn)轭}目本來就是給專家出的。


圖 | 長長的論文作者名字,截圖僅為部分論文作者(來源:Nature)

那么,這道題對于 AI 開發(fā)有什么用?

它就好比一面鏡子,可以照出來 AI 到底有幾斤幾兩。以后誰再宣稱自己的 AI 多厲害,先拿這套題目考一下?疾贿^ 25%,就談不上超越人類。透過這套題也可以看清楚 AI 擅長什么和不擅長什么。比如,從目前的得分來看,AI 在數(shù)學(xué)和計(jì)算機(jī)上的表現(xiàn)稍好,但是在歷史和語言上表現(xiàn)得慘不忍睹。

這說明 AI 的智能和我們想象得還不一樣。論文里有一句話寫得很克制,AI 在這些專家級問題上表現(xiàn)很差,說明真正的智能還需要深度、需要上下文、需要專業(yè)知識。那些覺得 AI 馬上就要統(tǒng)治世界的人,通過嘗試一下這套題目,可能就不再會(huì)那么悲觀。


(來源:Nature)

美國德克薩斯 A&M 大學(xué)的助理教授阮東(Tung Nguyen,音譯)參與了出題,他寫了 73 道,是貢獻(xiàn)第二多的作者。他告訴媒體,這套題是一種理解 AI 的方法。它就好比是 AI 的入學(xué)考試,通過設(shè)置這套門檻,我們可以知道 AI 強(qiáng)在哪里、弱在哪里,才能造出更安全、更可靠的技術(shù)。同時(shí),也說明了人類的專業(yè)知識依然重要。

參考資料:

相關(guān)論文https://www.nature.com/articles/s41586-025-09962-4

https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette

排版:胡巍巍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
賈靜雯坦承變胖 出道36年「對自己越自在」:不追求標(biāo)簽下的生活

賈靜雯坦承變胖 出道36年「對自己越自在」:不追求標(biāo)簽下的生活

ETtoday星光云
2026-03-02 10:58:06
全球首架!外交部向全球分享,中國飛碟研發(fā)成功,正在試飛?

全球首架!外交部向全球分享,中國飛碟研發(fā)成功,正在試飛?

小小科普員
2026-03-02 23:37:13
哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

迷世書童H9527
2026-03-01 16:03:12
為了“掏空”老百姓家底,而編造出來的“4大謊言”,誰信誰倒霉

為了“掏空”老百姓家底,而編造出來的“4大謊言”,誰信誰倒霉

平說財(cái)經(jīng)
2026-02-18 08:38:03
王楚欽和莎莎獎(jiǎng)臺拌嘴,沒想到感謝這點(diǎn) 劉國正猛贊,頭回看見王皓笑

王楚欽和莎莎獎(jiǎng)臺拌嘴,沒想到感謝這點(diǎn) 劉國正猛贊,頭回看見王皓笑

手工制作阿殲
2026-03-03 01:10:23
英國曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長時(shí)間”改變主意

英國曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長時(shí)間”改變主意

環(huán)球網(wǎng)資訊
2026-03-02 21:27:19
寧愿向美國低頭妥協(xié),也不求助中國!俄羅斯到底在布什么局?

寧愿向美國低頭妥協(xié),也不求助中國!俄羅斯到底在布什么局?

風(fēng)笛悠揚(yáng)聲
2026-03-03 01:15:50
死刑!就是給這種人準(zhǔn)備的!

死刑!就是給這種人準(zhǔn)備的!

鈞言堂
2025-12-23 14:38:14
知人知面不知心!回國就原形畢露!孫穎莎樊振東:緊急取關(guān)!

知人知面不知心!回國就原形畢露!孫穎莎樊振東:緊急取關(guān)!

阿廢冷眼觀察所
2026-03-03 00:31:38
中國退無可退,美軍已選好他們的主戰(zhàn)場,正逼著我們跳進(jìn)戰(zhàn)爭陷阱

中國退無可退,美軍已選好他們的主戰(zhàn)場,正逼著我們跳進(jìn)戰(zhàn)爭陷阱

南權(quán)先生
2026-03-02 15:26:15
特朗普闖大禍,伊朗第7輪導(dǎo)彈洗地,炸美航母基地,雙方或陷苦戰(zhàn)

特朗普闖大禍,伊朗第7輪導(dǎo)彈洗地,炸美航母基地,雙方或陷苦戰(zhàn)

小嵩
2026-03-03 02:26:09
一語驚醒夢中人!歐洲高官直言:搞垮中國,就是給美國送霸權(quán)!

一語驚醒夢中人!歐洲高官直言:搞垮中國,就是給美國送霸權(quán)!

達(dá)文西看世界
2026-01-24 11:29:41
6分鐘19個(gè)導(dǎo)彈連全軍覆沒,82架戰(zhàn)機(jī)被擊落,此戰(zhàn)給我們敲響警鐘

6分鐘19個(gè)導(dǎo)彈連全軍覆沒,82架戰(zhàn)機(jī)被擊落,此戰(zhàn)給我們敲響警鐘

混沌錄
2026-02-04 22:25:03
“十五5不吃,福氣迎進(jìn)門”,明日是正月十五,哪5不吃?要懂忌嘴

“十五5不吃,福氣迎進(jìn)門”,明日是正月十五,哪5不吃?要懂忌嘴

小談食刻美食
2026-03-02 18:01:09
5名河南猶太裔女孩赴以色列,稱此生不歸,8年后結(jié)局如何?

5名河南猶太裔女孩赴以色列,稱此生不歸,8年后結(jié)局如何?

南冥那只貓
2025-09-11 08:20:45
在這場戰(zhàn)爭中特朗普的致命弱點(diǎn)是什么?

在這場戰(zhàn)爭中特朗普的致命弱點(diǎn)是什么?

智本社
2026-03-02 18:06:46
美軍四星上將親口承認(rèn):全球戰(zhàn)力最強(qiáng)的只有3國,其他的不值一提

美軍四星上將親口承認(rèn):全球戰(zhàn)力最強(qiáng)的只有3國,其他的不值一提

迷彩前沿
2025-10-05 13:49:19
伊朗犯下10月7日的致命失誤,導(dǎo)致其失去一切

伊朗犯下10月7日的致命失誤,導(dǎo)致其失去一切

山河路口
2026-03-01 20:25:18
古巴人餓了,就有人給糧食,我不理解,沒有戰(zhàn)爭,沒有內(nèi)亂

古巴人餓了,就有人給糧食,我不理解,沒有戰(zhàn)爭,沒有內(nèi)亂

忠于法紀(jì)
2026-01-26 18:44:10
超級外援終于來了!NBA總冠軍中鋒登陸CBA,或改變爭冠格局

超級外援終于來了!NBA總冠軍中鋒登陸CBA,或改變爭冠格局

籃球大陸
2026-03-02 21:59:04
2026-03-03 03:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16346文章數(shù) 514696關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
健康
家居
親子
公開課

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

萬物互聯(lián) 享科技福祉

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版