国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<blockquote id="g6m2a"></blockquote>

<blockquote id="g6m2a"><acronym id="g6m2a"></acronym></blockquote>

<td id="g6m2a"></td>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

MMLU已死？「人類最后考試」登Nature：全球AI模型集體不及格！

2026-03-07 09:06:10　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】從高德納震驚Claude解難題，到陶哲軒稱GPT-5.2pro夠發(fā)Nature數(shù)學(xué)博士……AI狂飆突進，卻在「人類最后的考試」上集體啞火：最高分不過50%，人類專家還有多大安全區(qū)？

AI新聞圈，兩天一地震，三天一顛覆，讓你目不暇接、眼花繚亂！

或有夸大的地方，但AI日新月異、有目共睹！

「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題，發(fā)文連用兩個「震驚」（shock）。

數(shù)學(xué)家陶哲軒宣布GPT 5.2 Pro解決了一個數(shù)學(xué)Erdos難題且完全與之前人類的解法不同，足以拿下數(shù)學(xué)博士學(xué)位了！

此前，更有Claude Code引發(fā)的Vibe Coding熱潮。

至于各種長期存在的基準測試，AI取得優(yōu)異成績已不足為怪！

AI研究人員早已意識到問題：這些測試太簡單了。

像大規(guī)模多任務(wù)語言理解（MMLU）這類曾被視為難度頗高的熱門評測，如今已無法有效檢驗先進AI系統(tǒng)的真實水平

問題在于：AI模型發(fā)展得如此之快，基準測試正難以跟上其步伐，難以確保AI安全有效。

在MMLU等熱門基準測試中,大語言模型的準確率現(xiàn)已超過90%，早已「飽和」。

「人類最后的考試」的新AI測試基準，或許能提供解決方案。

各大LLM在不同基準上準確率的對比

最近，這篇合作名單巨長的論文，正式登上頂刊Nature!

鏈接：https://www.nature.com/articles/s41586-025-09962-4

順便提一句，Alexandr Wang還在Scale AI時，相關(guān)工作已發(fā)表在預(yù)印本平臺Arxiv。

AI基準：測試，再測試

從性能和安全等角度來看，測試大語言模型有多種不同的方法。

例如，在發(fā)布前，AI開發(fā)人員會評估大語言模型被用于惡意目的的抵抗能力。

此外，還有一些獨立組織對大語言模型進行評估，比如評估大語言模型被用于自主利用軟件漏洞的風(fēng)險。

然而，這些測試通常只涵蓋狹窄的學(xué)科領(lǐng)域，或者只包含少量任務(wù)。

為了比較模型而創(chuàng)建更廣泛、標準化基準的嘗試包括MMLU，它使用大約16000道多項選擇題來測試模型的通用知識和解決問題的能力。

但很快，過去那些曾經(jīng)很難的考試，現(xiàn)在對AI來說已經(jīng)變成了「送分題」。

為了彌補這一差距，近1000名研究人員組成的全球聯(lián)盟創(chuàng)建了「人類最后的考試」（Humanity’s Last Exam，HLE。

該測試由AI安全中心CAIS和Scale AI的一個團隊開發(fā)，包含由全球研究人員提交的3000個具有挑戰(zhàn)性的問題，旨在成為衡量大語言模型能力的終極基準

這項基準測試覆蓋面極廣、挑戰(zhàn)性極高、深深植根于人類專家知識，以至于當前最強的AI準確率也不足50%。

「人類最后的考試」共包含2500道問題，涵蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語言以及高度專業(yè)化的子領(lǐng)域。

問題學(xué)科分布

這些題目非常專業(yè)：從翻譯古代巴爾米拉銘文，到識別鳥類的顯微解剖結(jié)構(gòu)，再到分析圣經(jīng)希伯來語發(fā)音的復(fù)雜特征。

每道題都經(jīng)過了領(lǐng)先AI模型的測試。如果有任何系統(tǒng)能答對，該題就會被剔除。最終形成的是一項經(jīng)過精心設(shè)計、恰好處于當前AI能力邊界之外的考試。

從7萬到提交的難題中，精挑細選出了其中的2500道題目

結(jié)果也證實了這一點。

早期結(jié)果顯示，即使是最先進的模型也舉步維艱：

GPT-4o得分2.7%；
Claude 3.5 Sonnet達到4.1%；
OpenAI的旗艦?zāi)Ｐ蚾1僅取得8%的成績。

新基準為何重要

德州農(nóng)工大學(xué)計算機科學(xué)與工程系的教學(xué)副教授Tung Nguyen，他參與了問題的撰寫和完善工作。

他貢獻了2500道公開考題中的73道（貢獻量位居第二），并且在數(shù)學(xué)和計算機科學(xué)領(lǐng)域撰寫的題目數(shù)量最多。

最近，他分享了對「人類最后的考試」的思考。

「當AI系統(tǒng)開始在人類設(shè)定的基準測試中表現(xiàn)得極為出色時，人們很容易認為它們正在接近人類水平的理解力，」Tung Nguyen說道。

但HLE提醒我們，智能不僅僅是模式識別——它關(guān)乎深度、背景和專業(yè)化的知識。

這個考試的目的并非難倒人類。而是要精確、系統(tǒng)地揭示出AI目前——至少是現(xiàn)階段——還無法做到的事情。

鏈接：lastexam.ai

Tung Nguyen表示，AI超越傳統(tǒng)基準的問題遠超學(xué)術(shù)層面。

「如果沒有準確的評估工具，政策制定者、開發(fā)者和用戶就可能誤解AI系統(tǒng)的實際能力，」他說?！?strong>基準測試為衡量進展和識別風(fēng)險提供了基礎(chǔ)。」

正如團隊論文所指出的，雖然AI可能在為人類設(shè)計的考試中表現(xiàn)出色，但這些測試不一定在衡量「智能」。

盡管名字聽起來有點「末日」感，但「人類最后的考試」并非意在暗示人類重要性的終結(jié)。

相反，它突顯了仍有大量知識是獨一無二地屬于人類的，以及AI還需要走多遠。

Tung Nguyen坦言：「這個名字有點半開玩笑的意味」。

重要的是背后的理念：

這是人類對AI的設(shè)置的最后一道難關(guān)。如果AI能通過這項考試，就意味著它達到了某種專業(yè)化的人類專家水平，而這在以前被認為是機器不可能做到的。

因為HLE涵蓋了從核物理到古代史的所有領(lǐng)域，所以沒人能通過單打獨斗的通過整個考試。

然而，特定領(lǐng)域的人類專家可以輕松回答其專業(yè)領(lǐng)域內(nèi)的問題，而AI在幾乎所有類別上都失敗了。

為什么AI還會失?。?/p>

原因在于AI擅長模式識別和總結(jié)已知數(shù)據(jù)，但它難以處理深度、專業(yè)化的背景知識。

HLE提出的問題需要多年的專門研究。在這些問題上，基于常見互聯(lián)網(wǎng)數(shù)據(jù)的「猜測」行不通。

參考資料：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

高德納：「震驚！震驚！」Claude破解《計算機程序設(shè)計藝術(shù)》難題

機器之心Pro 2026-03-06 10:26:04
0 跟貼 0
海外華人團隊打造，統(tǒng)一理解與生成的圖像模型，超越Nano banana

機器之心Pro 2026-03-06 14:31:14
0 跟貼 0

黑馬圖像模型被Nano Banana技術(shù)負責(zé)人點贊！

量子位 2026-03-06 22:34:17
0 跟貼 0

小鵬加速沖向L4終局：對VLA架構(gòu)「動刀」成關(guān)鍵一環(huán)

機器之心Pro 2026-03-06 21:05:29
0 跟貼 0
AI能否「圣地巡禮」？多模態(tài)大模型全新評估基準VIR-Bench來了

機器之心Pro 2025-10-15 16:05:02
0 跟貼 0

300萬AI悄悄「建國」？Nature長文：第一代AI社會正在成形

新智元 2026-03-06 19:15:39
0 跟貼 0

誰在消耗5萬億模型算力？

經(jīng)濟觀察報 2026-03-07 10:32:05
0 跟貼 0
人社部：正研究措施發(fā)揮人工智能創(chuàng)造新崗位

新華社 2026-03-07 10:31:07
11 跟貼 11

FlashAttention-4正式發(fā)布：算法流水線大改，矩陣乘法級速度

機器之心Pro 2026-03-06 14:48:35
0 跟貼 0
世界各國速算法哪家強？哪種能讓你算得飛起

大嘴觀影 2026-03-06 10:25:25
1 跟貼 1
微積分到底想告訴我們什么？

huaser不花 2026-03-05 06:06:34
353 跟貼 353
數(shù)學(xué)推理魯棒性研究：基于高階數(shù)學(xué)問題等價變換的基準測試

CreateAMind 2026-03-04 19:08:21
0 跟貼 0
國外的難解數(shù)學(xué)題，能給出答案的寥寥無幾

老外故事匯 2026-03-03 06:37:57
0 跟貼 0
這些公式放在數(shù)學(xué)界也是相當炸裂的

挑燈剪輯 2026-03-06 16:08:56
1 跟貼 1
幾何計算太復(fù)雜？等高模型一步到位！

秒懂奧數(shù)李菁老師 2026-03-06 15:57:07
3 跟貼 3
培養(yǎng)孩子數(shù)學(xué)思維，巧求AB值！

秒懂奧數(shù)李菁老師 2026-03-02 17:28:31
6 跟貼 6
湖南中考數(shù)學(xué)：求整數(shù)部分和小數(shù)部分，幾乎都做錯了

大力小學(xué)數(shù)學(xué) 2026-03-05 06:44:00
0 跟貼 0
1634三年級：孩子怎么也不會，家長也講不明白，為難

我服子佩 2026-03-05 13:14:21
1 跟貼 1
六年級易錯題，一做就錯，該長長記性了

郎老師趣味數(shù)學(xué)課堂 2026-03-06 14:18:48
0 跟貼 0
折疊問題如何求解？小升初考試易錯題，小學(xué)奧數(shù)老師陳延忠

陳老師講小學(xué)奧數(shù) 2026-03-06 10:13:10
16 跟貼 16
研究人員被雄獅追擊，幸虧大猩猩及時發(fā)現(xiàn)，下幕雄獅想跑也晚了

西黃的生活 2026-03-03 16:29:12
64 跟貼 64
一只雞加兩只鴨等于37元，問一只雞多少錢？

公考客棧店小二 2026-03-03 10:00:00
0 跟貼 0
知識解讀：差倍問題，末尾添“0”

人生長河 2026-03-05 11:27:26
3 跟貼 3
西安市城鎮(zhèn)基準地價新標準更新！居住用地樓面地價600-7200元/㎡

樂居好房 2026-03-06 10:49:10
0 跟貼 0
一年級數(shù)學(xué)填空題技巧，期末考試必備！

秒懂奧數(shù)李菁老師 2026-03-05 15:39:41
7 跟貼 7
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環(huán)球網(wǎng)資訊 2026-03-03 08:53:57
5794 跟貼 5794
劍指世界模型！商湯發(fā)多模態(tài)理解生成一體化架構(gòu)，無需編碼器“玩轉(zhuǎn)”圖像

智東西 2026-03-06 20:12:11
0 跟貼 0
21到25填入圓圈，每條線三數(shù)和為69！你能解出來嗎？

奧數(shù)輕松學(xué) 2026-03-06 15:47:41
6 跟貼 6
汽車行駛途中突然"斷電" 車輛瞬間失去動力一家人嚇傻

大風(fēng)新聞 2026-03-06 13:45:07
5565 跟貼 5565
份數(shù)思想解決太簡單了，小升初數(shù)學(xué)易錯題，小學(xué)奧數(shù)老師陳延忠

陳老師講小學(xué)奧數(shù) 2026-03-07 10:55:55
3 跟貼 3
數(shù)學(xué)考不好和體育老師有關(guān)系？

熱劇聊不完 2026-03-06 16:48:19
1 跟貼 1
希望每個孩子在創(chuàng)造與實驗中收獲快樂

中國教育新聞網(wǎng) 2026-03-07 08:45:07
0 跟貼 0
央行行長：中國股票市場在全球主要股市中表現(xiàn)較好

財聯(lián)社 2026-03-06 17:08:03
7019 跟貼 7019
60歲王大爺上大學(xué)，今日返校，其寒假自學(xué)高數(shù)：我感覺不是特別難

星視頻 2026-03-05 23:58:59
0 跟貼 0
機構(gòu)：霍爾木茲海峽航運幾乎完全停滯

財聯(lián)社 2026-03-06 14:04:07
6423 跟貼 6423
3.6課堂上的數(shù)學(xué)小課堂，數(shù)字飛舞在黑板前

中書省的世界觀 2026-03-07 05:21:12
0 跟貼 0
小學(xué)數(shù)學(xué)課外拓展-6年級-第27講圓柱與圓錐（1）

維七的教育分享圈 2026-03-07 08:31:07
3 跟貼 3
24-25浙江第三次聯(lián)考數(shù)學(xué)視頻講解

教育趣事收錄 2026-03-05 11:23:10
7 跟貼 7
黎曼度量與信息幾何

泥塑動物 2026-03-07 10:34:59
3 跟貼 3
算數(shù)寫的太快我都沒看懂！

娛糖主 2026-03-06 14:51:27
1 跟貼 1

學(xué)而思學(xué)習(xí)機打開喜馬拉雅跳色情視頻！家長：裸體男女在動，崩潰

學(xué)而思學(xué)習(xí)機打開喜馬拉雅跳色情視頻！家長：裸體男女在動，崩潰

柴狗夫斯基

2026-03-06 08:29:28

“茶幾”正在退出中國家庭，學(xué)廣東人這樣做，實用性讓人大開眼界

“茶幾”正在退出中國家庭，學(xué)廣東人這樣做，實用性讓人大開眼界

室內(nèi)設(shè)計師有料兒

2026-02-19 11:17:18

光漂亮有什么用？兩戰(zhàn)6中0合計1分，球迷：投不進，罰不進

光漂亮有什么用？兩戰(zhàn)6中0合計1分，球迷：投不進，罰不進

弄月公子

2026-03-07 10:04:09

再勝巴西!女籃有三大發(fā)現(xiàn)：一人壓倒張子宇一痼疾讓宮帥束手無策

再勝巴西!女籃有三大發(fā)現(xiàn)：一人壓倒張子宇一痼疾讓宮帥束手無策

談史論天地

2026-03-07 09:38:37

浙江小伙愛上云南富婆，富婆大他17歲，結(jié)婚時送給小伙一輛寶馬X5

浙江小伙愛上云南富婆，富婆大他17歲，結(jié)婚時送給小伙一輛寶馬X5

情感藝術(shù)家

2026-02-26 15:16:58

伊朗封死波斯灣咽喉，唯獨給中國油船敞開大門，日本只能干瞪眼了

伊朗封死波斯灣咽喉，唯獨給中國油船敞開大門，日本只能干瞪眼了

霽寒飄雪

2026-03-07 11:49:34

局勢逆轉(zhuǎn)，伊朗接連擊落美戰(zhàn)機，特朗普又收到噩耗，美軍彈藥見底

局勢逆轉(zhuǎn)，伊朗接連擊落美戰(zhàn)機，特朗普又收到噩耗，美軍彈藥見底

基斯默默

2026-03-06 16:42:00

安徽美女程雨婷睡夢中去世，年僅24歲，原因公開，男友在靈堂長跪

安徽美女程雨婷睡夢中去世，年僅24歲，原因公開，男友在靈堂長跪

離離言幾許

2026-03-06 14:55:13

賈國龍“消失”了，留下員工為他買單

賈國龍“消失”了，留下員工為他買單

財聞

2026-03-06 21:40:22

朱拉尼終于出手了，趁著以色列后方空虛，開始不斷蠶食戈蘭高地！

朱拉尼終于出手了，趁著以色列后方空虛，開始不斷蠶食戈蘭高地！

阿校談史

2026-03-06 20:37:42

忘恩負義？前國腳直播時炮轟昔日主帥，直言他執(zhí)教水平極為一般！

忘恩負義？前國腳直播時炮轟昔日主帥，直言他執(zhí)教水平極為一般！

羅掌柜體育

2026-03-06 13:53:43

72小時內(nèi)，王毅和六國通話，宣布一項重大決定，伊朗或?qū)⒂瓉硎锕?>
</a>
<h3>
<a href=

2026-03-06 20:44:08

5場4球1助攻，韓國國腳吳賢揆身價已經(jīng)漲至1500萬歐

5場4球1助攻，韓國國腳吳賢揆身價已經(jīng)漲至1500萬歐

懂球帝

2026-03-06 18:36:38

阿森納小將足總杯遭“停賽殺”！只因前兩場太“吃牌”

阿森納小將足總杯遭“停賽殺”！只因前兩場太“吃牌”

仰臥撐FTUer

2026-03-07 08:10:03

“3姐妹共侍1夫”：神奇的深圳灣1號業(yè)主

“3姐妹共侍1夫”：神奇的深圳灣1號業(yè)主

新浪財經(jīng)

2026-03-05 23:40:08

阿門12中11比肩詹皇！末節(jié)8+3+1斷1帽統(tǒng)治攻防休媒：就該打SG

阿門12中11比肩詹皇！末節(jié)8+3+1斷1帽統(tǒng)治攻防休媒：就該打SG

顏小白的籃球夢

2026-03-07 11:44:51

克洛普即將重出江湖，拒絕一切英超球隊，最大潛在下家已浮出水面

克洛普即將重出江湖，拒絕一切英超球隊，最大潛在下家已浮出水面

零度眼看球

2026-03-07 09:31:13

就沒人管管五糧液嗎？

不正確

2026-03-05 14:39:53

前央視主播郎永淳，如今已刑滿釋放9年了，他如今過得如何？

前央視主播郎永淳，如今已刑滿釋放9年了，他如今過得如何？

動物奇奇怪怪

2026-03-05 10:27:43

西貝這一手騷操作，真讓咱門打工人開了眼，把不要臉發(fā)揮到了極致

西貝這一手騷操作，真讓咱門打工人開了眼，把不要臉發(fā)揮到了極致

達文西看世界

2026-03-06 18:48:28

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14656文章數(shù) 66665關(guān)注度

往期回顧全部

科技要聞

OpenClaw爆火，六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢動蕩歐盟"女外長"污蔑：中國趁機拿捏歐洲

頭條要聞

中東局勢動蕩歐盟"女外長"污蔑：中國趁機拿捏歐洲

體育要聞

塔圖姆歸來：凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄20年地下情被扒得底朝天

財經(jīng)要聞

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

旅游

數(shù)碼

家居

軍事航空

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火？2月?？诙址勘鸬陌鍓K竟然是…

旅游要聞

別急著登機！在青島機場，享受麥香與花香的春日微醺之旅

數(shù)碼要聞

英特爾酷睿Ultra 5 250K Plus處理器PassMark跑分曝光

家居要聞

暖棕撞色輕法奶油風(fēng)

奶白柔境閑臥享時光
極簡無界靜居自安然
萬物互聯(lián) 享科技福祉

軍事要聞

伊朗：使用無人機擊中美軍"林肯"號航母

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

<button id="i2mce"><option id="i2mce"></option></button>

<blockquote id="i2mce"><ul id="i2mce"></ul></blockquote>

<li id="i2mce"><menu id="i2mce"></menu></li>