国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全球頂尖大模型集體翻車!ARC-AGI-3測(cè)試,人類滿分AI最高0.2%

0
分享至



就在今天,一條消息炸遍整個(gè)AI圈——全球唯一尚未飽和的智能體基準(zhǔn)測(cè)試ARC-AGI-3正式出爐,直接把全球頂尖大模型“打回原形”。人類在測(cè)試中拿下100%滿分,而最頂尖的AI模型得分普遍低于1%,曾經(jīng)的“學(xué)霸”ClaudeOpus4.6更是僅得0.2%。這場(chǎng)測(cè)試像一面照妖鏡,戳破了“AGI已至”的泡沫,也讓所有人看清:當(dāng)下的AI,離真正的通用智能,還差著一座珠穆朗瑪峰的距離。



一、慘烈成績(jī)單:人類滿分,AI連1分都拿不到

ARC-AGI-3的測(cè)試結(jié)果,用“慘烈”二字形容毫不為過。1200多名普通人類玩家參與測(cè)試,完成3900多場(chǎng)游戲,整體基線得分100%。大多數(shù)人不僅輕松通關(guān),還能玩出“速通”操作,甚至挑戰(zhàn)理論最優(yōu)步數(shù)——對(duì)人類而言,這些游戲更像是輕松的休閑項(xiàng)目,而非高難度測(cè)試。

反觀AI陣營(yíng),結(jié)果堪稱“集體潰敗”。在上一代ARC-AGI-2測(cè)試中拿下69.2%高分的ClaudeOpus4.6,到了ARC-AGI-3直接“現(xiàn)原形”,得分僅0.2%,是純大模型里的第一名。其余包括GPT系列、Gemini系列在內(nèi)的所有前沿大模型,得分全部低于1%,有的甚至頻繁崩潰,分?jǐn)?shù)趨近于0。



更反直覺的是,測(cè)試排行榜前三名全是非大模型方案:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的StochasticGoose、基于規(guī)則的狀態(tài)圖探索、無需訓(xùn)練的幀圖搜索。其中StochasticGoose以12.58%的得分成為預(yù)覽期冠軍,比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。但即便如此,它在一款調(diào)水位游戲中,開局仍花了近350步做無效點(diǎn)擊,而人類只需要兩三下就能摸清規(guī)則。



這組數(shù)據(jù)背后,是AI與人類智能的本質(zhì)差距——人類是“會(huì)學(xué)習(xí)的智能”,而當(dāng)下的AI,只是“會(huì)匹配模式的工具”。



二、ARC-AGI-3到底有多“變態(tài)”?從靜態(tài)題到互動(dòng)游戲的維度升級(jí)

ARC-AGI系列一直是AI圈的“魔鬼測(cè)試”,前兩代ARC-AGI-1、ARC-AGI-2就以“抽象推理”難倒無數(shù)模型。而ARC-AGI-3,直接把難度拉到了全新維度:從“靜態(tài)題”變成了“無提示互動(dòng)游戲”。





測(cè)試包含150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境,1000多個(gè)關(guān)卡。每個(gè)游戲都有專屬邏輯、隱藏規(guī)則和通關(guān)條件,但沒有任何說明文檔、沒有自然語言提示、沒有任何操作指引——AI不知道“左邊按鈕會(huì)開門”,也不知道“收集三個(gè)紅色方塊能過關(guān)”,只能像盲人摸象一樣,通過觀察畫面、執(zhí)行動(dòng)作、反饋結(jié)果,一步步拼湊對(duì)世界的認(rèn)知。





ARCPrize基金會(huì)設(shè)計(jì)這套測(cè)試,核心是測(cè)AI的四大核心能力:

探索:能否主動(dòng)與環(huán)境互動(dòng),獲取關(guān)鍵信息?

建模:能否把零散觀察,凝聚成可預(yù)測(cè)未來的世界模型?

目標(biāo)獲取:無人下達(dá)指令,能否自主判斷“該以什么為目標(biāo)”?

規(guī)劃與執(zhí)行:能否規(guī)劃行動(dòng)路徑,并根據(jù)反饋隨時(shí)修正?

這四項(xiàng)能力,恰恰是人類與生俱來的本能,卻是當(dāng)下AI的致命短板。



更“殘忍”的是它的評(píng)分標(biāo)準(zhǔn)——不看“是否通關(guān)”,只看“效率”,且直接對(duì)標(biāo)人類效率。評(píng)分公式為:(人類步數(shù)/AI步數(shù))2。比如人類10步解決的問題,AI用了100步,得分僅1%;用了200步,得分0.25%;用了500步,得分僅0.04%。這種規(guī)則直接堵死了AI的“蠻力窮舉”之路——多試一步,分?jǐn)?shù)就斷崖式下跌。Opus4.6的0.2%,換算下來意味著它解決人類10步的問題,需要走約224步,完全是在迷宮里原地轉(zhuǎn)圈。

三、AI為何慘敗?缺的不是算力,是“元認(rèn)知”

ARC團(tuán)隊(duì)在測(cè)試中發(fā)現(xiàn)一個(gè)關(guān)鍵現(xiàn)象:AI的主要失敗模式,是“以為自己在玩另一個(gè)游戲”。就像一個(gè)人被蒙眼扔進(jìn)廚房,摸到圓形物體就斷定是籃球,開始瘋狂“投籃”——AI在全新環(huán)境中,看到初始視覺信息,會(huì)迅速“腦補(bǔ)”一個(gè)熟悉的游戲框架,然后沿著錯(cuò)誤假設(shè)死磕到底,越走越偏,卻從不停下來反思:“我的假設(shè)是不是錯(cuò)了?”

這背后,是當(dāng)下AI缺乏元認(rèn)知能力——它不知道自己不知道,更不會(huì)主動(dòng)修正錯(cuò)誤認(rèn)知。參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的大模型,反而越容易陷入這個(gè)陷阱。它們被海量數(shù)據(jù)“喂”出了強(qiáng)烈的“先入為主”,遇到陌生場(chǎng)景,第一反應(yīng)是匹配已知模式,而非從零探索;而輕量級(jí)CNN、圖搜索系統(tǒng),因?yàn)闆]有“知識(shí)包袱”,反而能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí),成績(jī)反而更好。



反觀人類,面對(duì)全新游戲時(shí),會(huì)本能地完成“探索-建模-驗(yàn)證-修正”的循環(huán):

先觀察,幾分鐘內(nèi)搭建粗糙但可用的“世界模型”;

再驗(yàn)證,根據(jù)結(jié)果強(qiáng)化或修正模型;

最后快速迭代,錯(cuò)了就改,改了再試。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的,而AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。ARC-AGI-3沒有“題海戰(zhàn)術(shù)”可依賴,考的正是“如何學(xué)習(xí)”——這恰恰是目前AI最弱的一環(huán)。

四、AGI之爭(zhēng):黃仁勛說“已實(shí)現(xiàn)”,測(cè)試說“還差99%”

就在ARC-AGI-3發(fā)布前,英偉達(dá)CEO黃仁勛在采訪中直言“我們已經(jīng)實(shí)現(xiàn)了AGI”,引發(fā)行業(yè)熱議。但ARC-AGI-3的結(jié)果,無疑給這一觀點(diǎn)潑了一盆冷水——當(dāng)下的AI,或許連1%的AGI都沒實(shí)現(xiàn)。





關(guān)于AGI的定義,學(xué)界和產(chǎn)業(yè)界一直存在分歧。黃仁勛的定義偏向?qū)嵱弥髁x:“AI能否啟動(dòng)、運(yùn)營(yíng)一家價(jià)值超10億美元的公司”,大幅降低了AGI門檻。而學(xué)界主流觀點(diǎn),如Bengio團(tuán)隊(duì)提出的定義,將AGI視為“能匹配或超越受過良好教育成年人的認(rèn)知廣度和熟練度”,涵蓋推理、記憶、感知等10項(xiàng)核心能力,總分100分才算達(dá)標(biāo)。

ARC-AGI-3的測(cè)試邏輯,更貼合學(xué)界對(duì)AGI的核心要求——通用學(xué)習(xí)能力。它不考AI記住了多少知識(shí),而考AI能否在無提示、無經(jīng)驗(yàn)的全新環(huán)境中,自主探索、建模、規(guī)劃并高效解決問題。從這個(gè)角度看,當(dāng)下所有大模型都遠(yuǎn)未達(dá)標(biāo),它們只是在特定任務(wù)上表現(xiàn)出色的“窄AI”,而非真正的“通用智能”。

目前,ARC-AGI-3挑戰(zhàn)賽獎(jiǎng)金池高達(dá)85萬美元,其中70萬美元留給“滿分通關(guān)者”,且要求參賽者完全開源代碼、在無網(wǎng)環(huán)境下評(píng)估——杜絕了調(diào)用云端大模型、聯(lián)網(wǎng)查資料的“作弊”可能。



這場(chǎng)測(cè)試撕開了AI行業(yè)的“遮羞布”,也讓所有人清醒:AGI不是靠堆算力、擴(kuò)參數(shù)就能實(shí)現(xiàn)的,它需要突破“元認(rèn)知”“自主學(xué)習(xí)”等底層認(rèn)知瓶頸。人類與AI的差距,從來不是算力,而是“會(huì)思考、會(huì)學(xué)習(xí)、會(huì)反思”的本能。

ARC-AGI-3的出現(xiàn),不是否定AI的進(jìn)步,而是為AGI研究指明了更清晰的方向——未來的AI,不能再做“只會(huì)刷題的應(yīng)試高手”,而要成為“會(huì)學(xué)習(xí)、會(huì)探索、會(huì)修正”的真正智能體。至于這座天塹何時(shí)能被跨越,我們只能靜待時(shí)間給出答案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
格拉維納:我后悔沒有早點(diǎn)辭職,我無法接受自己被說成不稱職

格拉維納:我后悔沒有早點(diǎn)辭職,我無法接受自己被說成不稱職

懂球帝
2026-04-16 01:11:47
起拍價(jià)34萬!一輛滬A牌照摩托車將被司法拍賣:車牌估值48萬,已有3人報(bào)名

起拍價(jià)34萬!一輛滬A牌照摩托車將被司法拍賣:車牌估值48萬,已有3人報(bào)名

紅星新聞
2026-04-15 12:35:19
感人!歐冠外援:成都蓉城堪比皇馬,這是我效力過的最好球隊(duì)!

感人!歐冠外援:成都蓉城堪比皇馬,這是我效力過的最好球隊(duì)!

邱澤云
2026-04-15 21:18:44
男子騎摩托闖高速被攔,交警質(zhì)問“是不是張雪機(jī)車給你打雞血了”,張雪回應(yīng)視頻已刪除;當(dāng)?shù)兀航K禁止摩托上高速,正核查

男子騎摩托闖高速被攔,交警質(zhì)問“是不是張雪機(jī)車給你打雞血了”,張雪回應(yīng)視頻已刪除;當(dāng)?shù)兀航K禁止摩托上高速,正核查

山西晚報(bào)
2026-04-15 18:16:50
伊朗革命衛(wèi)隊(duì):霍爾木茲海峽允許非軍事船只通過

伊朗革命衛(wèi)隊(duì):霍爾木茲海峽允許非軍事船只通過

每日經(jīng)濟(jì)新聞
2026-04-13 07:38:50
被扔燃燒瓶后,凌晨再遭槍擊!知名巨頭CEO在美高檔社區(qū)住宅48小時(shí)內(nèi)連續(xù)遭襲,其中一名嫌疑人稱:人工智能將導(dǎo)致人類“即將滅絕”

被扔燃燒瓶后,凌晨再遭槍擊!知名巨頭CEO在美高檔社區(qū)住宅48小時(shí)內(nèi)連續(xù)遭襲,其中一名嫌疑人稱:人工智能將導(dǎo)致人類“即將滅絕”

每日經(jīng)濟(jì)新聞
2026-04-14 20:48:49
皇馬球迷意難平!不止因?yàn)?-6拜仁慘遭淘汰,更多在于以下五點(diǎn)!

皇馬球迷意難平!不止因?yàn)?-6拜仁慘遭淘汰,更多在于以下五點(diǎn)!

球場(chǎng)新視角1號(hào)
2026-04-16 06:30:02
善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
賭博輸?shù)羰鄡|、導(dǎo)致公司破產(chǎn),消失8年的金立手機(jī)創(chuàng)始人重出江湖了

賭博輸?shù)羰鄡|、導(dǎo)致公司破產(chǎn),消失8年的金立手機(jī)創(chuàng)始人重出江湖了

南財(cái)社V
2026-04-15 19:34:40
硬核新人!下一個(gè)環(huán)神!

硬核新人!下一個(gè)環(huán)神!

貴圈真亂
2026-04-15 13:35:22
卡馬溫加紅牌逆轉(zhuǎn)準(zhǔn)逆轉(zhuǎn),皇馬魂斷安聯(lián)燃盡出局

卡馬溫加紅牌逆轉(zhuǎn)準(zhǔn)逆轉(zhuǎn),皇馬魂斷安聯(lián)燃盡出局

體壇周報(bào)
2026-04-16 07:46:15
“中方要求兩大航運(yùn)公司立即停止巴拿馬港口運(yùn)營(yíng)”

“中方要求兩大航運(yùn)公司立即停止巴拿馬港口運(yùn)營(yíng)”

觀察者網(wǎng)
2026-04-15 16:28:22
“水果皇后”藍(lán)莓跌下神壇:曾經(jīng)上百元一斤,如今可全年供應(yīng),街頭低至9.9元一斤

“水果皇后”藍(lán)莓跌下神壇:曾經(jīng)上百元一斤,如今可全年供應(yīng),街頭低至9.9元一斤

紅星新聞
2026-04-15 16:39:54
骨科醫(yī)生警告:最傷膝蓋的不是爬樓,是老人天天做的 5 件事

骨科醫(yī)生警告:最傷膝蓋的不是爬樓,是老人天天做的 5 件事

高中醫(yī)健康說
2026-04-15 14:20:03
馬筱梅吐槽婆婆別墅沒處下腳,背刺蘭姐,可見,她是真的壞

馬筱梅吐槽婆婆別墅沒處下腳,背刺蘭姐,可見,她是真的壞

魔都姐姐雜談
2026-04-16 04:42:28
東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
長(zhǎng)沙正在流行“新型出軌”:不開房、不暖昧,卻比肉體背叛更誅心

長(zhǎng)沙正在流行“新型出軌”:不開房、不暖昧,卻比肉體背叛更誅心

風(fēng)起見你
2026-04-16 02:29:16
瀏覽器原地變龍蝦!Chrome上線Skills,技能一鍵復(fù)用幫你干活

瀏覽器原地變龍蝦!Chrome上線Skills,技能一鍵復(fù)用幫你干活

量子位
2026-04-15 13:44:27
當(dāng)年害得游戲廳倒閉的罪魁禍?zhǔn)?,麻將BUG的使用者早已不在人世

當(dāng)年害得游戲廳倒閉的罪魁禍?zhǔn)祝閷UG的使用者早已不在人世

小怪吃美食
2026-04-11 00:12:11
八旗中的“正”“鑲”旗有什么區(qū)別?進(jìn)來看看,別再鬧笑話了!

八旗中的“正”“鑲”旗有什么區(qū)別?進(jìn)來看看,別再鬧笑話了!

凡人侃史
2026-04-15 23:19:03
2026-04-16 08:23:01
魏家東 incentive-icons
魏家東
一個(gè)人的營(yíng)銷商學(xué)院!
2645文章數(shù) 12236關(guān)注度
往期回顧 全部

科技要聞

小鵬最貴SUV預(yù)售39.98萬!L4架構(gòu)3000TOPS算力

頭條要聞

歐洲100萬人請(qǐng)?jiān)敢笾撇靡陨?以總理:歐洲道德軟弱

頭條要聞

歐洲100萬人請(qǐng)?jiān)敢笾撇靡陨?以總理:歐洲道德軟弱

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

房產(chǎn)
游戲
數(shù)碼
時(shí)尚
公開課

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

天才!修車模擬器撞檔《地平線6》:賽完車去修車

數(shù)碼要聞

“真銅實(shí)料”表述起爭(zhēng)議!格力海信回應(yīng)

赫本愛穿的傘裙,好優(yōu)雅!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版