国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<cite id="a8qsu"></cite>

<center id="a8qsu"></center>
<option id="a8qsu"></option>

<fieldset id="a8qsu"></fieldset>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

全球頂尖大模型一夜慘遭血洗！最難測試人類拿滿分，AI第一名得0.2%分

2026-03-26 18:14:12　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas 好困

【新智元導(dǎo)讀】今夜，整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線，就把全球頂尖AI打到集體失聲，人類滿分通關(guān)，最強(qiáng)模型Opus 4.6得分僅0.2%，還不到1%。AI這是一夜被打回「原始人」了。

就在今天，這條消息把整個AI圈給震了。

眾望所歸的，全球唯一尚未飽和的智能體基準(zhǔn)測試ARC-AGI-3出爐了，直接血洗了全球頂尖大模型。

在這個測試中，人類得分100%，AI的得分普遍低于1%。

這個差距，比珠穆朗瑪峰還高。

最慘烈的是，在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接現(xiàn)了原形，得分僅為0.2%。

這位曾經(jīng)橫掃各大榜單的「學(xué)霸」，連蒙帶猜都拿不到1分。

這面鏡子，照出了當(dāng)前AI能力中最深的裂縫。

在最近的采訪中，老黃認(rèn)為我們已經(jīng)實現(xiàn)了AGI。但是ARC-AGI-3顯示，或許如今的AI連1%的AGI都沒有實現(xiàn)。

ARC-AGI-3，到底有多變態(tài)

它的前身ARC-AGI-1和ARC-AGI-2，已經(jīng)是AI圈出了名的「魔鬼測試」。

那些測試?yán)?，AI需要觀察幾個示例，然后推斷出網(wǎng)格變換的規(guī)律，完成新任務(wù)。

聽起來不難？但就是這些看起來像幼兒園連線題的東西，曾經(jīng)讓無數(shù)大模型鎩羽而歸。

而到了ARC-AGI-3，難度直接換了個維度：從「靜態(tài)題」變成了「互動游戲」。

150多個手工設(shè)計的交互式游戲環(huán)境，包含1000多個關(guān)卡。

每個游戲都有自己的內(nèi)在邏輯、隱藏規(guī)則和通關(guān)條件。但沒有任何說明文檔，沒有自然語言提示，沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關(guān)」。

AI智能體被丟進(jìn)去，只能看到當(dāng)前畫面，選擇一個動作，觀察結(jié)果，再決定下一步。

它只能像盲人摸象一樣，一步一步試探，然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。

這正是ARC Prize基金會想測的四件事。

探索：能不能通過主動與環(huán)境互動來獲取關(guān)鍵信息？
建模：能不能把零散的觀察凝聚成一個可以預(yù)測未來狀態(tài)的世界模型？
目標(biāo)獲?。簺]有人下達(dá)指令，能不能自己判斷出「我應(yīng)該以什么為目標(biāo)」？
規(guī)劃與執(zhí)行：能不能規(guī)劃出行動路徑，并根據(jù)環(huán)境反饋隨時修正？

「幾何級數(shù)」的羞辱：0.2%是怎么來的？

評分標(biāo)準(zhǔn)同樣殘忍。

ARC-AGI-3的評分不看「有沒有通關(guān)」，而是看「效率」，而且是和人類比效率。

這在AI基準(zhǔn)測試的歷史上，還是頭一回。

受Chollet那篇《論智能的衡量》的啟發(fā)，ARC Prize團(tuán)隊把「智能」操作化為一個轉(zhuǎn)換率：

你從環(huán)境中獲取信息的效率有多高？你把這些信息轉(zhuǎn)化為正確行動的速度有多快？

假設(shè)人類解決這個游戲需要10步，而AI用了100步，那AI的得分是多少？

不是10%，而是1%。

公式是：(人類步數(shù)/AI步數(shù))2。人類10步，AI 100步，那就是(10/100)2=0.01=1%。

如果AI用了200步，這一數(shù)字就是0.25%；500步就是0.04%。

這一下，把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉，把所有可能的操作試一遍，總能試出正確路徑。

但在這種評分體系下，你多試一步，分?jǐn)?shù)就斷崖式下跌。

現(xiàn)在，你就知道了Opus 4.6得分只有0.2%的意味——

假設(shè)人類解決某個游戲用了10步，0.2%=0.002，開平方≈0.0447，10÷0.0447≈224步。

這已經(jīng)不是「笨」了，這是在迷宮里原地轉(zhuǎn)圈到天荒地老。

當(dāng)這種差距被如此強(qiáng)烈地展示出來，很多以為AGI近在眼前的人，都震驚了。

350步 vs 兩三下：成績單全景

在正式發(fā)布之前，ARC-AGI-3跑了一輪為期30天的開發(fā)者預(yù)覽。

三款公開游戲從地圖導(dǎo)航到圖案匹配再到水位調(diào)節(jié)，題目類型各異，但有一個共同點：人類覺得簡單，AI覺得要命。

1200多名人類玩家參與了測試，完成了3900多場游戲。

大部分人不僅輕松過關(guān)，還玩得很開心，有些執(zhí)著的玩家甚至一路「速通」挑戰(zhàn)到了理論最優(yōu)步數(shù)。

人類基線：100%。AI這邊，前沿大模型得分全部低于1%。

預(yù)覽期的冠軍叫StochasticGoose，來自Tufa Labs。

它不是大模型，而是一個基于卷積神經(jīng)網(wǎng)絡(luò)的動作學(xué)習(xí)型智能體，用簡單的強(qiáng)化學(xué)習(xí)來預(yù)測哪些操作會導(dǎo)致畫面變化。最終得分12.58%，已經(jīng)是所有參賽系統(tǒng)里最高的了。

但即便是這個冠軍，在一款調(diào)水位的游戲里，開局也花了將近350步做無效的點擊操作。

350步。人類大概只需要點兩三下就能搞明白的事。

更反直覺的是，排行榜的前三名全是非LLM方案——CNN、基于規(guī)則的狀態(tài)圖探索、無需訓(xùn)練的幀圖搜索。

一個基于CNN的方案，比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體，成績反而經(jīng)常墊底，有的甚至頻繁崩潰。

AI把自己坑了

ARC團(tuán)隊還發(fā)現(xiàn)一個特別有意思的現(xiàn)象。

AI的主要失敗模式之一是：「以為自己在玩另一個游戲」。

比如，你被蒙上眼睛，扔進(jìn)一個房間。

你摸到了一個圓形的物體，于是你斷定：「這是個籃球場，我應(yīng)該投籃。」但事實上，你拿的可能是一個西瓜，而房間其實是一個廚房。

AI犯的就是這樣的錯。

它在一個全新的環(huán)境里，看到一些初始的視覺信息，然后迅速給自己「腦補(bǔ)」了一個游戲框架，接著就沿著這個錯誤的假設(shè)瘋狂執(zhí)行計劃，越走越偏，越偏越遠(yuǎn)。

它不會停下來想：等等，我怎么好像一直沒得到正反饋？是不是我的假設(shè)錯了？

因為當(dāng)前的AI，缺乏一種「元認(rèn)知」能力。也就是說，它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數(shù)量越大、預(yù)訓(xùn)練知識越豐富的模型，越容易把陌生環(huán)境「腦補(bǔ)」成自己見過的東西，然后死磕到底。

而那些輕量級的CNN智能體和圖搜索系統(tǒng)，反倒因為沒有「先入為主」的包袱，能老老實實地從環(huán)境反饋中學(xué)習(xí)。

為什么人類能輕松通關(guān)？

ARC團(tuán)隊在文檔里寫了一句話：「人類不會蠻力行事。他們會構(gòu)建思維模型，檢驗想法，并迅速改進(jìn)?！?/p>

首先第一步，人類會構(gòu)建思維模型。

一個人類玩家面對一個全新游戲時，第一件事不是「瞎點」，而是觀察。幾分鐘之內(nèi)，一個粗糙但可用的「世界模型」就建成了。

第二步，人類會檢驗想法。

如果結(jié)果和預(yù)期一致，模型得到強(qiáng)化。如果不一致，模型立即修正。

第三步，人類會迅速改進(jìn)。錯了就改，改了再試。

這種「探索-建模-驗證-修正」的循環(huán)，在人類身上幾乎是本能的。

而AI呢？只是一個「記住了很多答案」的應(yīng)試高手，它的「學(xué)習(xí)」和人類的「學(xué)習(xí)」根本不是一個物種。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動的；AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動、模式匹配的。

ARC-AGI-3沒有任何「題海戰(zhàn)術(shù)」可以覆蓋，它考的是「怎么學(xué)習(xí)」。這恰恰是目前AI最弱的一環(huán)。

目前，這場挑戰(zhàn)賽的獎金池高達(dá)85萬美元，其中70萬美元是給「滿分通關(guān)者」的終極大獎。

參賽者必須完全開源代碼，并且在無網(wǎng)環(huán)境下接受評估。這意味著你不能偷偷調(diào)用云端大模型，不能偷偷聯(lián)網(wǎng)查資料。

和人類這個珠穆朗瑪峰的差距，有AI能克服嗎？

讓我們靜待結(jié)果。

參考資料：

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

2027年或迎AGI 1.0:人形機(jī)器人成本拐點將至、“圖靈測試”標(biāo)準(zhǔn)呼之欲出

每日經(jīng)濟(jì)新聞 2026-03-28 17:15:04
0 跟貼 0
Karpathy緊急叫停！別再喂數(shù)據(jù)了，曝AGI方向全錯

新智元 2026-03-29 09:02:44
0 跟貼 0

上海加碼科學(xué)智能生態(tài)建設(shè) “養(yǎng)蝦熱”助推AI落地 |直擊GDPS2026

財聯(lián)社 2026-03-29 09:21:08
0 跟貼 0

山姆·奧特曼的炒作史

DeepTech深科技 2025-12-24 14:02:44
0 跟貼 0
深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

MiniMax來承包你的桌面了-4

機(jī)器之心Pro 2026-01-20 20:19:42
0 跟貼 0
90 后正在掌管中國 AI，憑實力活成了「爽文」主角

愛范兒 2026-01-19 18:14:14
0 跟貼 0

趨境ATaaS平臺發(fā)布，打造日均萬億產(chǎn)能的“Token工廠”

量子位 2026-03-28 21:56:10
0 跟貼 0
從“養(yǎng)蝦”狂歡到落地“最后一公里”：騰訊智能體走向深水區(qū)

每日經(jīng)濟(jì)新聞 2026-03-28 16:13:14
0 跟貼 0
140萬億Token之后：中國AI亟待從規(guī)模領(lǐng)先到價值躍遷

鈦媒體APP 2026-03-29 09:58:10
0 跟貼 0
論芯率先跑進(jìn)AI for EDA產(chǎn)線：讀芯片協(xié)議文檔速度25倍

量子位 2026-03-29 09:25:33
0 跟貼 0
海淀AI，集體開弓：少年極客、中年創(chuàng)客與ICU歸來者

量子位 2026-03-29 09:17:24
0 跟貼 0
接陌生電話不要先出聲

大象新聞 2026-03-29 07:29:10
5 跟貼 5
黃仁勛：AGI時代已經(jīng)到來，“龍蝦開公司”不是夢！

財聯(lián)社 2026-03-26 23:15:59
0 跟貼 0
游戲工作室日常，這就是俗稱撈偏門吧，不在三教九流內(nèi)！

凌霄淺談生活 2026-03-25 16:39:20
0 跟貼 0
爸爸忽悠閨女玩游戲，結(jié)果萬萬沒想到，網(wǎng)友：你不喊停讓他一直轉(zhuǎn)

星沙時報 2026-03-24 16:00:45
1 跟貼 1
12歲男孩月入3萬，父母讓輟學(xué)打游戲，結(jié)局太現(xiàn)實

倩姐說事 2026-03-27 18:49:56
0 跟貼 0
帥哥酒吧玩游戲，膽子真肥掛老婆電話，下秒徹底嚇傻了！

哈哈看生活 2026-03-28 09:25:14
0 跟貼 0
國外小攤的游戲，成功了就會一夜暴富，一看手法太像我們之前玩的

大眼貓侃世界 2026-03-27 15:50:20
0 跟貼 0
深度｜華為 AI，迎來大變

新智元 2026-03-28 17:07:57
4 跟貼 4
夫妻玩游戲，沒想到老婆專挑這地方打，下手干脆不含糊！

自流愛生活 2026-03-27 10:58:36
0 跟貼 0
大學(xué)生問室友游戲,本以為去高人一等,結(jié)果被當(dāng)場打臉!

河馬搞笑君 2026-03-28 14:19:55
1 跟貼 1
女子把頭發(fā)梳起來后，直接變身建模臉，這不是我游戲里捏的臉嗎？

日常逗趣集 2026-03-27 11:29:52
1 跟貼 1
8.68萬新車普及車位到車位，世界模型不吃高算力！零跑夯爆了

量子位 2026-03-28 14:13:32
0 跟貼 0
夫妻飯后做游戲，挑戰(zhàn)快速吃掉西瓜，結(jié)果姜還是老的辣??！

三熊愛搞笑 2026-03-27 10:57:33
1 跟貼 1
小伙在游戲中靠智慧贏了總裁，走上人生巔峰

影中見影 2026-03-26 11:10:41
1 跟貼 1
據(jù)說該游戲是鬼谷子留下的，無人能解

大叔探世界 2026-03-25 16:41:08
16 跟貼 16
她們好像在玩，一種很好玩的游戲，沒用過手指的豈不是虧了

趣料加工廠 2026-03-27 14:32:32
1 跟貼 1
跟美女玩游戲，根本不留一點兒情面，網(wǎng)友：真男人！

逗小仙 2026-03-27 15:50:47
1 跟貼 1
一口氣看完魔獸12.0炸裂劇情：太陽之井陷落，四系精靈世紀(jì)大和解

一起玩魔獸硬核哥 2026-03-28 16:45:52
0 跟貼 0
RAG神話破滅？斯坦福頂尖團(tuán)隊新研究：合成數(shù)據(jù)訓(xùn)練效果反超，成本大降

鈦媒體APP 2026-03-28 12:18:48
2 跟貼 2
當(dāng)我把三角洲游戲當(dāng)成八卦講給爸媽聽

段慶璽姓段本人 2026-03-28 06:19:43
0 跟貼 0
華為盤古大模型負(fù)責(zé)人王云鶴離職，被曝Agent創(chuàng)業(yè)

量子位 2026-03-28 13:58:40
1 跟貼 1
男生女生玩游戲，愛情不就來了嗎，好兄弟成了小丑！

奇葩笑話大舞臺 2026-03-27 15:06:18
1 跟貼 1
有趣的猜杯子顏色游戲挑戰(zhàn)來了

奇觀趣聞 2026-03-26 12:27:01
0 跟貼 0
“龍蝦”等新型AI智能體出現(xiàn) 哪些職業(yè)或軟技能是必須具備的？

鳳凰衛(wèi)視 2026-03-25 15:59:19
0 跟貼 0
喝酒玩游戲樂趣多，規(guī)定能否上廁所，不然可能憋出翔

搞笑熱血青年 2026-03-28 00:00:00
0 跟貼 0
我這種鋼鐵猛男，居然在一款游戲中玩到偷偷抹眼淚？

二狗搞笑解說 2026-03-27 00:19:06
0 跟貼 0
這游戲還挺費爸爸的

嗨普陀 2026-03-28 09:17:13
0 跟貼 0

閨蜜大婚我隨了5000，她回禮雨傘，看見傘柄刻著地址和6個數(shù)字

閨蜜大婚我隨了5000，她回禮雨傘，看見傘柄刻著地址和6個數(shù)字

磊子講史

2026-01-23 16:54:49

寫小說判十年，把生殖器放女孩嘴巴里判兩年九個月

寫小說判十年，把生殖器放女孩嘴巴里判兩年九個月

昊軒看世界

2026-03-24 19:56:42

千元機(jī)回歸，國產(chǎn)手機(jī)內(nèi)訌，因為面臨生死存亡

千元機(jī)回歸，國產(chǎn)手機(jī)內(nèi)訌，因為面臨生死存亡

柏銘銳談

2026-03-29 09:31:24

年薪849萬，年終獎1000萬，中國“最貴董秘”朱旭，49歲依然單身

年薪849萬，年終獎1000萬，中國“最貴董秘”朱旭，49歲依然單身

牛牛叨史

2025-11-29 03:44:54

陳牧馳陳冰結(jié)婚生子：雙陳CP官宣喜訊，全網(wǎng)沸騰祝福！

陳牧馳陳冰結(jié)婚生子：雙陳CP官宣喜訊，全網(wǎng)沸騰祝福！

木子娛你同行

2026-03-29 08:36:03

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊：GPS用戶數(shù)超60億，中國北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊：GPS用戶數(shù)超60億，中國北斗令人意外

混沌錄

2026-03-18 23:54:31

0.028%！無罪判決率跌至谷底，為何國際水平是我們的35倍？

0.028%！無罪判決率跌至谷底，為何國際水平是我們的35倍？

深析古今

2026-03-25 01:10:47

關(guān)曉彤提300萬豪車，混動蘭博基尼SUV，打扮成熟徹底告別戀情

關(guān)曉彤提300萬豪車，混動蘭博基尼SUV，打扮成熟徹底告別戀情

青橘罐頭

2026-03-28 19:28:41

老登們別再玩命運動了！日本人不跑馬拉松、少去健身房，卻活成全球最長壽

老登們別再玩命運動了！日本人不跑馬拉松、少去健身房，卻活成全球最長壽

日本物語

2026-03-27 21:09:48

3月27日，央一、央八、東方、浙江衛(wèi)視黃金檔排播4部新劇

3月27日，央一、央八、東方、浙江衛(wèi)視黃金檔排播4部新劇

小椰的奶奶

2026-03-29 09:19:35

國產(chǎn)頂級神劇，只可惜，央視播完就禁了

國產(chǎn)頂級神劇，只可惜，央視播完就禁了

獨立魚

2026-03-23 21:22:17

字母哥時隔十年無緣季后賽！馬刺8連勝滅雄鹿文班23+15卡斯?fàn)?雙

字母哥時隔十年無緣季后賽！馬刺8連勝滅雄鹿文班23+15卡斯?fàn)?雙

醉臥浮生

2026-03-29 05:19:10

1951年，戴笠的兒子戴善武被執(zhí)行死刑，被槍斃的時候才36歲

1951年，戴笠的兒子戴善武被執(zhí)行死刑，被槍斃的時候才36歲

百年歷史老號

2026-03-28 20:32:38

楊瀚森18+7+4，末節(jié)獨得12分！率隊106-101獲勝，加盟NBA真漲球了

楊瀚森18+7+4，末節(jié)獨得12分！率隊106-101獲勝，加盟NBA真漲球了

球場沒跑道

2026-03-28 10:20:12

石油大漲，全世界最難受的可能不是美國，也不是歐洲

石油大漲，全世界最難受的可能不是美國，也不是歐洲

流蘇晚晴

2026-03-28 14:13:36

46歲張柏芝三亞被拍，那一圈“軟乎乎”的肉，讓網(wǎng)友集體破防

46歲張柏芝三亞被拍，那一圈“軟乎乎”的肉，讓網(wǎng)友集體破防

手工制作阿殲

2026-03-28 11:43:19

萬人送行張雪峰，是否會淪為笑柄？

萬人送行張雪峰，是否會淪為笑柄？

朋筆生輝

2026-03-29 00:04:44

95后“掏糞男孩”結(jié)婚 9輛吸糞車組車隊迎親新娘：這是我們專屬的浪漫

95后“掏糞男孩”結(jié)婚 9輛吸糞車組車隊迎親新娘：這是我們專屬的浪漫

紅星新聞

2026-03-28 13:41:14

全紅嬋與陳芋汐的兩組時尚大片刷屏網(wǎng)絡(luò)，評論區(qū)一邊倒

全紅嬋與陳芋汐的兩組時尚大片刷屏網(wǎng)絡(luò)，評論區(qū)一邊倒

魔都姐姐雜談

2026-03-28 10:20:56

她家這個嫁軍火商的二姐，才叫玩得花！

她家這個嫁軍火商的二姐，才叫玩得花！

BenSir本色說

2026-03-27 22:05:46

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14839文章數(shù) 66720關(guān)注度

往期回顧全部

科技要聞

馬斯克承認(rèn)xAI"建錯了"，11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話全世界不敢相信

體育要聞

全球第二大車企，也救不了這支德甲隊？

娛樂要聞

陳牧馳陳冰官宣得子曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

游戲

公開課

軍事航空

和田曦薇一樣嫩嘟嘟，這3個變美技巧你一定不能錯過！

本地新聞

在濰坊待了三天，沒遇到一個“濰坊人”

魂師對決：王林天命+婉兒煉丹系統(tǒng)該優(yōu)先培養(yǎng)哪個？真就沒啥懸念

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

軍事要聞

美軍中東基地?fù)p失最新披露

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

<cite id="usayu"><center id="usayu"></center></cite>