国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MMLU已死?「人類最后考試」登Nature:全球AI模型集體不及格!

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】從高德納震驚Claude解難題,到陶哲軒稱GPT-5.2pro夠發(fā)Nature數(shù)學(xué)博士……AI狂飆突進,卻在 「人類最后的考試」上集體啞火:最高分不過50%,人類專家還有多大安全區(qū)?

AI新聞圈,兩天一地震,三天一顛覆,讓你目不暇接、眼花繚亂!

或有夸大的地方,但AI日新月異、有目共睹!

「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題,發(fā)文連用兩個「震驚」(shock)。

數(shù)學(xué)家陶哲軒宣布GPT 5.2 Pro解決了一個數(shù)學(xué)Erdos難題且完全與之前人類的解法不同,足以拿下數(shù)學(xué)博士學(xué)位了!


此前,更有Claude Code引發(fā)的Vibe Coding熱潮。

至于各種長期存在的基準測試,AI取得優(yōu)異成績已不足為怪!

AI研究人員早已意識到問題:這些測試太簡單了。


像大規(guī)模多任務(wù)語言理解(MMLU)這類曾被視為難度頗高的熱門評測,如今已無法有效檢驗先進AI系統(tǒng)的真實水平

問題在于:AI模型發(fā)展得如此之快,基準測試正難以跟上其步伐,難以確保AI安全有效。


在MMLU等熱門基準測試中,大語言模型的準確率現(xiàn)已超過90%,早已「飽和」。

「人類最后的考試」的新AI測試基準,或許能提供解決方案。


各大LLM在不同基準上準確率的對比

最近,這篇合作名單巨長的論文,正式登上頂刊Nature!


鏈接:https://www.nature.com/articles/s41586-025-09962-4

順便提一句,Alexandr Wang還在Scale AI時,相關(guān)工作已發(fā)表在預(yù)印本平臺Arxiv。

AI基準:測試,再測試

從性能和安全等角度來看,測試大語言模型有多種不同的方法。

例如,在發(fā)布前,AI開發(fā)人員會評估大語言模型被用于惡意目的的抵抗能力。

此外,還有一些獨立組織對大語言模型進行評估,比如評估大語言模型被用于自主利用軟件漏洞的風(fēng)險。

然而,這些測試通常只涵蓋狹窄的學(xué)科領(lǐng)域,或者只包含少量任務(wù)。

為了比較模型而創(chuàng)建更廣泛、標準化基準的嘗試包括MMLU,它使用大約16000道多項選擇題來測試模型的通用知識和解決問題的能力。

但很快,過去那些曾經(jīng)很難的考試,現(xiàn)在對AI來說已經(jīng)變成了「送分題」。


為了彌補這一差距,近1000名研究人員組成的全球聯(lián)盟創(chuàng)建了「人類最后的考試」(Humanity’s Last Exam,HLE。


該測試由AI安全中心CAIS和Scale AI的一個團隊開發(fā),包含由全球研究人員提交的3000個具有挑戰(zhàn)性的問題,旨在成為衡量大語言模型能力的終極基準

這項基準測試覆蓋面極廣、挑戰(zhàn)性極高、深深植根于人類專家知識,以至于當前最強的AI準確率也不足50%。


「人類最后的考試」共包含2500道問題,涵蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語言以及高度專業(yè)化的子領(lǐng)域。


問題學(xué)科分布

這些題目非常專業(yè):從翻譯古代巴爾米拉銘文,到識別鳥類的顯微解剖結(jié)構(gòu),再到分析圣經(jīng)希伯來語發(fā)音的復(fù)雜特征。


每道題都經(jīng)過了領(lǐng)先AI模型的測試。如果有任何系統(tǒng)能答對,該題就會被剔除。最終形成的是一項經(jīng)過精心設(shè)計、恰好處于當前AI能力邊界之外的考試。


從7萬到提交的難題中,精挑細選出了其中的2500道題目

結(jié)果也證實了這一點。

早期結(jié)果顯示,即使是最先進的模型也舉步維艱:

  • GPT-4o得分2.7%;

  • Claude 3.5 Sonnet達到4.1%;

  • OpenAI的旗艦?zāi)P蚾1僅取得8%的成績。


新基準為何重要

德州農(nóng)工大學(xué)計算機科學(xué)與工程系的教學(xué)副教授Tung Nguyen,他參與了問題的撰寫和完善工作。


他貢獻了2500道公開考題中的73道(貢獻量位居第二),并且在數(shù)學(xué)和計算機科學(xué)領(lǐng)域撰寫的題目數(shù)量最多。

最近,他分享了對「人類最后的考試」的思考。


「當AI系統(tǒng)開始在人類設(shè)定的基準測試中表現(xiàn)得極為出色時,人們很容易認為它們正在接近人類水平的理解力,」Tung Nguyen說道。

但HLE提醒我們,智能不僅僅是模式識別——它關(guān)乎深度、背景和專業(yè)化的知識。

這個考試的目的并非難倒人類。而是要精確、系統(tǒng)地揭示出AI目前——至少是現(xiàn)階段——還無法做到的事情。


鏈接:lastexam.ai

Tung Nguyen表示,AI超越傳統(tǒng)基準的問題遠超學(xué)術(shù)層面。

「如果沒有準確的評估工具,政策制定者、開發(fā)者和用戶就可能誤解AI系統(tǒng)的實際能力,」他說?!?strong>基準測試為衡量進展和識別風(fēng)險提供了基礎(chǔ)。」

正如團隊論文所指出的,雖然AI可能在為人類設(shè)計的考試中表現(xiàn)出色,但這些測試不一定在衡量「智能」。

盡管名字聽起來有點「末日」感,但「人類最后的考試」并非意在暗示人類重要性的終結(jié)。

相反,它突顯了仍有大量知識是獨一無二地屬于人類的,以及AI還需要走多遠。

Tung Nguyen坦言:「這個名字有點半開玩笑的意味」。

重要的是背后的理念:

這是人類對AI的設(shè)置的最后一道難關(guān)。如果AI能通過這項考試,就意味著它達到了某種專業(yè)化的人類專家水平,而這在以前被認為是機器不可能做到的。

因為HLE涵蓋了從核物理到古代史的所有領(lǐng)域,所以沒人能通過單打獨斗的通過整個考試。

然而,特定領(lǐng)域的人類專家可以輕松回答其專業(yè)領(lǐng)域內(nèi)的問題,而AI在幾乎所有類別上都失敗了。


為什么AI還會失?。?/p>

原因在于AI擅長模式識別和總結(jié)已知數(shù)據(jù),但它難以處理深度、專業(yè)化的背景知識。

HLE提出的問題需要多年的專門研究。在這些問題上,基于常見互聯(lián)網(wǎng)數(shù)據(jù)的「猜測」行不通。

參考資料:

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
學(xué)而思學(xué)習(xí)機打開喜馬拉雅跳色情視頻!家長:裸體男女在動,崩潰

學(xué)而思學(xué)習(xí)機打開喜馬拉雅跳色情視頻!家長:裸體男女在動,崩潰

柴狗夫斯基
2026-03-06 08:29:28
“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

室內(nèi)設(shè)計師有料兒
2026-02-19 11:17:18
光漂亮有什么用?兩戰(zhàn)6中0合計1分,球迷:投不進,罰不進

光漂亮有什么用?兩戰(zhàn)6中0合計1分,球迷:投不進,罰不進

弄月公子
2026-03-07 10:04:09
再勝巴西!女籃有三大發(fā)現(xiàn):一人壓倒張子宇 一痼疾讓宮帥束手無策

再勝巴西!女籃有三大發(fā)現(xiàn):一人壓倒張子宇 一痼疾讓宮帥束手無策

談史論天地
2026-03-07 09:38:37
浙江小伙愛上云南富婆,富婆大他17歲,結(jié)婚時送給小伙一輛寶馬X5

浙江小伙愛上云南富婆,富婆大他17歲,結(jié)婚時送給小伙一輛寶馬X5

情感藝術(shù)家
2026-02-26 15:16:58
伊朗封死波斯灣咽喉,唯獨給中國油船敞開大門,日本只能干瞪眼了

伊朗封死波斯灣咽喉,唯獨給中國油船敞開大門,日本只能干瞪眼了

霽寒飄雪
2026-03-07 11:49:34
局勢逆轉(zhuǎn),伊朗接連擊落美戰(zhàn)機,特朗普又收到噩耗,美軍彈藥見底

局勢逆轉(zhuǎn),伊朗接連擊落美戰(zhàn)機,特朗普又收到噩耗,美軍彈藥見底

基斯默默
2026-03-06 16:42:00
安徽美女程雨婷睡夢中去世,年僅24歲,原因公開,男友在靈堂長跪

安徽美女程雨婷睡夢中去世,年僅24歲,原因公開,男友在靈堂長跪

離離言幾許
2026-03-06 14:55:13
賈國龍“消失”了,留下員工為他買單

賈國龍“消失”了,留下員工為他買單

財聞
2026-03-06 21:40:22
朱拉尼終于出手了,趁著以色列后方空虛,開始不斷蠶食戈蘭高地!

朱拉尼終于出手了,趁著以色列后方空虛,開始不斷蠶食戈蘭高地!

阿校談史
2026-03-06 20:37:42
忘恩負義?前國腳直播時炮轟昔日主帥,直言他執(zhí)教水平極為一般!

忘恩負義?前國腳直播時炮轟昔日主帥,直言他執(zhí)教水平極為一般!

羅掌柜體育
2026-03-06 13:53:43
72小時內(nèi),王毅和六國通話,宣布一項重大決定,伊朗或?qū)⒂瓉硎锕?>
    </a>
        <h3>
      <a href=等等talk
2026-03-06 20:44:08
5場4球1助攻,韓國國腳吳賢揆身價已經(jīng)漲至1500萬歐

5場4球1助攻,韓國國腳吳賢揆身價已經(jīng)漲至1500萬歐

懂球帝
2026-03-06 18:36:38
阿森納小將足總杯遭“停賽殺”!只因前兩場太“吃牌”

阿森納小將足總杯遭“停賽殺”!只因前兩場太“吃牌”

仰臥撐FTUer
2026-03-07 08:10:03
“3姐妹共侍1夫”:神奇的深圳灣1號業(yè)主

“3姐妹共侍1夫”:神奇的深圳灣1號業(yè)主

新浪財經(jīng)
2026-03-05 23:40:08
阿門12中11比肩詹皇!末節(jié)8+3+1斷1帽統(tǒng)治攻防 休媒:就該打SG

阿門12中11比肩詹皇!末節(jié)8+3+1斷1帽統(tǒng)治攻防 休媒:就該打SG

顏小白的籃球夢
2026-03-07 11:44:51
克洛普即將重出江湖,拒絕一切英超球隊,最大潛在下家已浮出水面

克洛普即將重出江湖,拒絕一切英超球隊,最大潛在下家已浮出水面

零度眼看球
2026-03-07 09:31:13
就沒人管管五糧液嗎?

就沒人管管五糧液嗎?

不正確
2026-03-05 14:39:53
前央視主播郎永淳,如今已刑滿釋放9年了,他如今過得如何?

前央視主播郎永淳,如今已刑滿釋放9年了,他如今過得如何?

動物奇奇怪怪
2026-03-05 10:27:43
西貝這一手騷操作,真讓咱門打工人開了眼,把不要臉發(fā)揮到了極致

西貝這一手騷操作,真讓咱門打工人開了眼,把不要臉發(fā)揮到了極致

達文西看世界
2026-03-06 18:48:28
2026-03-07 12:35:02
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14656文章數(shù) 66665關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢動蕩 歐盟"女外長"污蔑:中國趁機拿捏歐洲

頭條要聞

中東局勢動蕩 歐盟"女外長"污蔑:中國趁機拿捏歐洲

體育要聞

塔圖姆歸來:凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄20年地下情 被扒得底朝天

財經(jīng)要聞

針對"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

房產(chǎn)
旅游
數(shù)碼
家居
軍事航空

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

旅游要聞

別急著登機!在青島機場,享受麥香與花香的春日微醺之旅

數(shù)碼要聞

英特爾酷睿Ultra 5 250K Plus處理器PassMark跑分曝光

家居要聞

暖棕撞色 輕法奶油風(fēng)

軍事要聞

伊朗:使用無人機擊中美軍"林肯"號航母

無障礙瀏覽 進入關(guān)懷版