谷歌DeepMind發(fā)布AGI終極評分！20萬全球懸賞，撕下所有大模型偽裝

2026-03-18 12:21:51　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困 Aeneas

【新智元導讀】AGI，究竟如何評判？剛剛，谷歌DeepMind發(fā)出重磅論文，直接從認知科學「借」了一套度量衡——把通用智能拆成10大認知能力，配一套三階段評估協(xié)議，還聯(lián)合Kaggle砸了20萬美金，向全球研究者懸賞：誰能測出真正的AGI？

如今的AGI，究竟到達哪一站了？

就在剛剛，谷歌DeepMind給出了AGI的終極度量衡！

這篇名為《Measuring Progress Toward AGI: A Cognitive Framework》的論文，核心主張只有一句話：別再爭AGI是什么了，先把怎么測這件事搞清楚。

論文地址：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf

具體來說，AGI的評估被細化為10個關鍵的認知領域，包括感知、生成、注意力、學習、記憶、推理、元認知、執(zhí)行功能、問題解決以及社會認知。

同時，谷歌DeepMind還想全球開發(fā)者，發(fā)起一場20萬美元的Kaggle黑客松。

黑客松則是把出題權直接交給全球研究者——框架我搭好了，你們來幫忙造考卷。

從「AGI分級」到「AGI體檢」

這不是DeepMind第一次嘗試給AGI畫路線圖。

2023年，同一個團隊發(fā)表了著名的「Levels of AGI」框架，把通往AGI的路拆成了5個性能等級。

從「新手」（Emerging）到「超人」（Superhuman），同時定義了6個自主性等級，從「純工具」到「完全自主」。

那篇論文的影響力很大，它給了整個行業(yè)一套共同語言，就像自動駕駛領域的L1到L5一樣，讓大家至少能在同一個坐標系里對話。

但它留下了一個巨大的空白：臺階畫好了，怎么測每一級？

新論文就是來補這個缺口的。

10大認知能力：給通用智能畫一張地圖

它的核心，是一套把通用智能拆解為10種關鍵認知能力的「認知分類法」（Cognitive Taxonomy）。

具體來說，要想評估AI和人類認知能力之間到底差多少，第一步就是要搞清楚：人類的認知都包括哪些關鍵過程。

過去很多年里，心理學、神經(jīng)科學和認知科學通過做實驗、腦成像、研究病例、以及建立模型等方式，已經(jīng)積累了大量相關成果。

正是基于這些研究，團隊整理出了一套認知分類體系，用來描述實現(xiàn)AGI所需要的核心能力。

先看8種基礎能力。

1. 感知（Perception）

從環(huán)境中提取和處理感官信息。包括視覺感知（從低級的邊緣檢測到高級的場景理解）、聽覺感知（從音高辨別到語音理解）、以及AI獨有的文本感知。

LLM通過token化直接處理文本，本質上是一種人類不具備的獨特感知模態(tài)。這種「超能力」繞過了視覺，徑直抵達語言。

2. 生成（Generation）

產(chǎn)生文本、語音、動作（機器人控制、計算機操作）等輸出。

其中最耐人尋味的是「思維生成」，也就是產(chǎn)生內(nèi)部思考來指導決策。

DeepMind把這一項和OpenAI的o1式推理能力掛鉤，并指出由于思維本質上是「內(nèi)部的」，評估起來可能極其困難。

3. 注意力（Attention）

在信息過載時，就需要把認知資源集中到關鍵事物上。

這里有個微妙的平衡：既要專注于當前目標不被干擾，又要對環(huán)境中的意外變化保持警覺。太專注會錯過危險信號，太分散又做不成事。

4. 學習（Learning）

通過經(jīng)驗獲取新知識和技能。

包括概念形成、聯(lián)想學習、強化學習、觀察學習、程序性學習、語言學習六大類。

關鍵在于，真正的AGI應該能在部署后持續(xù)學習并保留新知識，而不僅僅是在訓練階段或上下文窗口內(nèi)「臨時抱佛腳」。

5. 記憶（Memory）

存儲和檢索信息的能力。

包括語義記憶（世界知識）、情景記憶（特定事件）、程序性記憶（技能）、前瞻性記憶（記住未來某個時刻該做的事），以及一個容易被忽視的能力——遺忘。

沒錯，能夠主動清除過時或錯誤信息，也是智能的重要組成部分。

6. 推理（Reasoning）

通過邏輯原則得出有效結論。

涵蓋演繹、歸納、溯因、類比和數(shù)學推理五種。

值得注意的是，自動模式匹配不算推理。

7. 元認知（Metacognition）

這可能是10項能力中最能拉開差距的一項。

它要求系統(tǒng)：

知道自己知道什么、不知道什么（元認知知識）；
能實時監(jiān)測自己的認知狀態(tài)，比如對答案的置信度是否準確（元認知監(jiān)控）；
以及根據(jù)監(jiān)控結果調(diào)整策略，比如發(fā)現(xiàn)自己在犯錯時主動切換方法（元認知控制）。

說得直白一點：一個不知道自己在胡說八道的AI，談什么可靠性？

8. 執(zhí)行功能（Executive Functions）

支撐目標導向行為的高階能力集合。

包括目標設定、規(guī)劃、抑制控制（抵制習慣性反應，選擇更合適的行動）、認知靈活性（在不同思維方式間切換）、沖突解決、以及工作記憶。

除了以上8種「基礎構件」，框架還定義了2種「復合能力」：

9. 問題解決（Problem Solving）

綜合運用感知、推理、規(guī)劃、學習等能力來解決具體問題。

下分流體推理、數(shù)學問題解決、算法問題解決、常識問題解決（包括時間推理、空間推理、因果推理、直覺物理）和知識發(fā)現(xiàn)。

10. 社會認知（Social Cognition）

處理和解讀社會信息、在社交場景中做出恰當反應的能力。

包括社會感知、心智理論（推斷他人的信念和意圖），以及合作、談判、說服甚至欺騙等社交技能。

值得注意的是，說服和欺騙在某些語境下，也可能構成危險能力。

總的來說，根據(jù)DeepMind的核心假設，如果一個系統(tǒng)在這10個維度中存在任何明顯短板，它就無法完成大多數(shù)人類能完成的現(xiàn)實任務。

那么，它就不是真正的「通用」智能。

三步驗出AI的真實成色

有了分類法，接下來的問題是怎么評估。

對此，谷歌提出了三階段評估協(xié)議。

第一步：認知評測。

讓AI完成覆蓋全部10種認知能力的任務。

任務設計有嚴格要求：

必須針對具體認知能力（不能一個任務混測一堆東西）；
必須使用保密題庫；必須經(jīng)獨立第三方審計；
難度要有梯度（既有對人類容易但對AI難的題，也有挑戰(zhàn)人類極限的題）；
格式要多樣（選擇題、開放問答、多模態(tài)、多步驟）。

第二步：收集人類基線。

讓大量人類在完全相同的條件下做同樣的題。

相同的指令、相同的回答格式、相同的工具訪問權限。

對此DeepMind建議，樣本應該是「具有人口統(tǒng)計學代表性的、至少完成了高中教育的成年人」。

第三步：構建認知畫像。

把AI的表現(xiàn)放到人類表現(xiàn)的分布中定位——計算這個系統(tǒng)超過了多少比例的人類被試，在10個維度上畫出一張雷達圖。

為什么一定要畫雷達圖？

因為AI能力的一個核心特征是「鋸齒狀」（Jagged）的。這也是DeepMind在另一項研究中反復驗證的現(xiàn)象：

一個模型可能在邏輯推理上碾壓99%的人類，卻在社會認知或常識推理上連人類中位數(shù)都不如。

只看一個總分，根本看不出這種致命的偏科。而雷達圖就是用來撕下這層偽裝的。

DeepMind展示了三種假想場景：

A. 某系統(tǒng)在部分維度上低于人類中位數(shù)，這樣的系統(tǒng)在某些真實場景中必然「掉鏈子」。

B. 全部10項都超過人類中位數(shù)，至少能匹配50%的人類。

C. 全部達到第99百分位，幾乎能匹配任何人。

同時，DeepMind也沒有回避不確定性的三大來源：（1）任務本身的質量是否過關、（2）測試是否真的在測目標能力（構念效度）、（3）生成式AI固有的隨機性——同一個問題問兩次，可能得到截然不同的答案。

舊尺子為什么廢了

谷歌DeepMind的這項研究，意義究竟在哪里？

為什么以前衡量AGI的尺度，現(xiàn)在已經(jīng)不行了？

原因就在于，現(xiàn)在根本無法判斷什么是AGI：GPT-4能考律師資格證，Gemini能讀十萬token的論文，Claude寫代碼比程序員還快。

但究竟哪個才叫AGI？現(xiàn)有的評測體系不僅接不住這個問題，而且有兩個底層邏輯已經(jīng)崩了。

第一個是「小鎮(zhèn)做題家」困境：數(shù)據(jù)污染。

如果一個AI系統(tǒng)在訓練階段就已經(jīng)從海量互聯(lián)網(wǎng)數(shù)據(jù)里「見過」了測試題的答案或解題策略，那它拿高分根本無法證明它具備通用智能，頂多算個記憶力超群的復讀機。

第二個更棘手：到底是評「模型」還是評「系統(tǒng)」？

以前我們測的是一個孤立的模型，但今天的AI是一個完整的系統(tǒng)。它帶著系統(tǒng)提示，能調(diào)用計算器，能執(zhí)行代碼，能聯(lián)網(wǎng)搜索，甚至能調(diào)用其他AI模型。

比如你想測一個AI的歷史知識儲備，但這個系統(tǒng)卻可以隨時搜索互聯(lián)網(wǎng)。那你測出來的到底是它的「記憶力」還是「搜索技能」？

題庫泄漏、評測對象模糊——舊體系千瘡百孔，這正是DeepMind要從認知科學重新建一套評估框架，并把出題權交給全世界的原因。

20萬美金黑客松：全球極客集結

DeepMind坦承，在問題解決和世界知識等領域，現(xiàn)有的benchmark尚可一用；但在元認知、注意力、學習和社會認知這幾個深水區(qū)，幾乎是一片評測荒地。

與論文同步推出的Kaggle黑客松，精準瞄向評估缺口最大的5種認知能力：學習、元認知、注意力、執(zhí)行功能、社會認知。

參賽者可以利用Kaggle新推出的Community Benchmarks平臺來構建自己的評估方案，直接在一系列前沿大模型上驗證效果。

項目地址：https://www.kaggle.com/competitions/kaggle-measuring-agi

獎金總計20萬美元。

5個賽道各設2個一等獎，每個1萬美元，這是對單項深度的獎勵。

另外還有4個2.5萬美元的全場特等獎，頒給最優(yōu)秀的跨賽道提交。以此鼓勵參賽者做出具有「通用性」的評估工具，而不是只在一個領域里精耕。

時間線：3月17日開放提交，4月16日截止，6月1日公布結果。

如果運轉良好，這套認知評估體系有機會成為AGI領域的公共基礎設施——就像ImageNet之于計算機視覺那樣。

框架之外：那些更棘手的問題

此外，在討論章節(jié)，團隊還主動列出了幾個認知評估「管不到」但同樣重要的維度。

處理速度。

答對是一回事，答得快又是另一回事。一個能修bug但要6小時的系統(tǒng)和一個1分鐘搞定的系統(tǒng)，實用價值天差地別。

系統(tǒng)傾向性。

不僅要看系統(tǒng)「能做什么」，還要看它「傾向于做什么」。它的風險偏好如何？價值觀是否與人類對齊？這些行為特征深刻影響系統(tǒng)部署后的安全性。

創(chuàng)造力。

創(chuàng)造力的核心組件（認知靈活性、世界知識、問題解決）已被分類法覆蓋，但「創(chuàng)造力」作為一個整體，目前很難客觀地隔離和評估。

端到端部署評估。

認知評測不能替代應用場景的實測。認知評估幫你解釋模型「為什么在這里失敗了」，部署評估幫你預測「上線后會不會出事」，兩者互補。

評估AGI，只是起點

DeepMind在最后說了一句很關鍵的話：這套框架是一個「起點」。

AI系統(tǒng)幾乎可以確定會發(fā)展出人類認知分類法無法完全覆蓋的能力，比如LiDAR感知、原生圖像生成這類人類根本不具備的能力。分類法本身也需要迭代。

每種認知能力和現(xiàn)實世界表現(xiàn)之間的具體關系，目前只有理論推測。

DeepMind這篇論文的意義，在于——

從今天起，AGI評估這件事從主管判斷，開始走向有理論基礎、可操作、可迭代的科學軌道。

接下來的問題只有一個，第一個在所有維度上點亮的，會是誰？

參考資料：

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/

https://storage.googleapis.com/deepmind-

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.