OECD發(fā)布AI能力指標(biāo)評估量表

2025-11-24 08:45:43　來源: 國際與比較教育研究所

北京舉報

分享至

2025年11月14日，經(jīng)合組織（OECD）發(fā)布《OECD人工智能能力指標(biāo)技術(shù)報告》，就其提出的9個AI能力指標(biāo)的評估進行了詳細解釋。

報告開篇即指出：根據(jù)信息來源的不同，AI要么被塑造成救世主，要么被描繪成滅世者。在這個被炒作與恐懼主導(dǎo)的輿論場中，關(guān)于AI真實能力的清晰、可靠且細致入微的信息依然驚人地缺失。即便是AI開發(fā)者，也無法完全理解當(dāng)前AI系統(tǒng)的實際能力——或者它們正在以多快的速度進步。

作為應(yīng)對，這份由OECD牽頭、聯(lián)合全球數(shù)十位頂尖計算機科學(xué)家和心理學(xué)家制定的報告，首次建立了一套系統(tǒng)的AI能力評估框架，提出了9個核心能力指標(biāo)，包括語言、問題解決、社會互動、創(chuàng)造力、知識-學(xué)習(xí)-記憶、元認知與批判性思維、視覺、操作及機器人智能，并將每個能力劃分為從1到5的五個等級（5級代表達到穩(wěn)健的人類水平），旨在為政策制定者和公眾提供一個評估AI真實能力的“標(biāo)尺”。

報告的部分內(nèi)容總結(jié)如下：

一、能力指標(biāo)的政策應(yīng)用場景

報告通過將AI能力指標(biāo)與美國職業(yè)數(shù)據(jù)庫（O*NET，涵蓋了約900種美國職業(yè)，包含關(guān)于人類能力、技能、知識、工作方式和背景的詳細描述）中的人類能力要求進行交叉映射，并開發(fā)了“追趕指數(shù)”來進行量化分析。該指數(shù)衡量的是AI能力水平與任務(wù)所需能力水平之間的等級差（范圍為0-4），指數(shù)為0表示AI已能勝任，指數(shù)越大則表示差距越大。

報告具體通過分析三種不同任務(wù)的“追趕指數(shù)”畫像，具體揭示了AI在不同領(lǐng)域的能力差距與未來轉(zhuǎn)型路徑。

1.需要高水平推理能力的任務(wù)

對于該類任務(wù)，報告以編制、分析和核實年度報告及財務(wù)報表，并確保其符合各種法規(guī)和標(biāo)準(zhǔn)為例進行了分析。研究發(fā)現(xiàn)這一工作的追趕指數(shù)為2，這意味著當(dāng)前的AI能力尚未滿足該工作要求。

報告認為，雖然目前AI尚無法完成此項任務(wù)，但對其組成部分進行研究能夠為構(gòu)建一個設(shè)想人類與AI協(xié)作完成工作的轉(zhuǎn)型方案提供有價值的見解。在未來情景中，隨著AI系統(tǒng)在AI能力指標(biāo)中的推理能力達到專家級水平，財務(wù)報告中的勞動密集型工作可能會在很大程度上實現(xiàn)自動化。這些系統(tǒng)將直接與財務(wù)、工資、庫存和銀行平臺對接，實現(xiàn)數(shù)據(jù)格式的標(biāo)準(zhǔn)化，并持續(xù)檢查異常、遺漏或重復(fù)情況。交易可以根據(jù)發(fā)票和審批進行驗證，自動起草審計追蹤，并且只有在需要人工判斷或政策裁量時才會發(fā)出警報。所有這些工作都可以近乎實時地完成，并且每一步都有清晰的、由機器生成的解釋。

在此場景下，人類的專業(yè)知識將轉(zhuǎn)向更高價值的職責(zé)。專業(yè)人士將定義指導(dǎo)人工智能的會計規(guī)則和重要性閾值，審查其標(biāo)記的少數(shù)復(fù)雜例外情況，并確定適當(dāng)?shù)幕貞?yīng)或披露。他們將解釋系統(tǒng)的輸出結(jié)果，將其轉(zhuǎn)化為針對高管和監(jiān)管機構(gòu)的定價、流動性和風(fēng)險方面的戰(zhàn)略建議，同時對人工智能進行審計，以確保其符合道德、法律和透明度標(biāo)準(zhǔn)。日常的“數(shù)據(jù)偵探”工作將委托給機器，使專業(yè)人士能夠擔(dān)任政策架構(gòu)師、戰(zhàn)略顧問和信任管理者等角色。

2.要求高水平身體能力的任務(wù)

對于該類任務(wù)，報告以使用手動或電動工具組裝、安裝、測試或維護電氣或電子線路、設(shè)備、器具、裝置或固定裝置為例進行了分析。研究發(fā)現(xiàn)這一工作的追趕指數(shù)為1，這意味著當(dāng)前的AI能力在很大程度上滿足了該工作的推理需求，但仍未達到必要的敏捷性和感知能力。

報告認為，在未來情景中，隨著具備四級視覺和操控能力的機器人出現(xiàn)并成熟，安裝電線的物理工藝將很大程度上轉(zhuǎn)移給AI。自主單元將掃描現(xiàn)場、鋪設(shè)線管、以力反饋精度拉線和端接導(dǎo)線，并將每一步記錄在數(shù)字竣工模型中，同時僅在出現(xiàn)規(guī)范模糊或障礙時向人類發(fā)出警報。電工的角色相應(yīng)地從動手工作轉(zhuǎn)向更高層次的監(jiān)管——設(shè)定任務(wù)參數(shù)、授權(quán)重新布線、解決標(biāo)記的合規(guī)問題、執(zhí)行現(xiàn)場檢查以獲得監(jiān)管簽字，以及維護或微調(diào)機器人系統(tǒng)。因此，專業(yè)知識向上游轉(zhuǎn)移到規(guī)劃、監(jiān)督和持續(xù)改進，而不是停留在手動安裝上。

3.需要高水平社交互動和推理能力的任務(wù)

對于該類任務(wù)，報告以鼓勵個人和家庭成員發(fā)展并使用建設(shè)性的應(yīng)對策略為例進行了分析。研究發(fā)現(xiàn)這一工作的追趕指數(shù)為2，這是因為當(dāng)前的AI系統(tǒng)——即使是最有能力的對話模型——仍然難以在多次交流中維持連貫的治療敘事，推斷潛在的家庭權(quán)力動態(tài)，并使干預(yù)措施適應(yīng)不同的文化或發(fā)展背景。

報告認為，隨著先進AI系統(tǒng)縮小其在語言、社交互動和問題解決方面與人的差距，溝通技巧培訓(xùn)將從治療師主導(dǎo)的微觀教練練習(xí)轉(zhuǎn)變?yōu)榛旌系?、?shù)據(jù)豐富的工作流程。嵌入攝像頭、麥克風(fēng)和可穿戴設(shè)備的多模態(tài)模型將實時解析輪流發(fā)言、面部情感和生理喚醒，診斷故障并向來訪者推送個性化提示。同一引擎通過逼真的虛擬形象生成文化適應(yīng)的演示，根據(jù)壓力信號的升降即時調(diào)整場景，并編譯次次交流的儀表盤，以繪制同理心增益、沖突恢復(fù)速度和預(yù)測的復(fù)發(fā)風(fēng)險圖。當(dāng)超過早期預(yù)警閾值時，自動升級標(biāo)志會在幾秒鐘內(nèi)召喚人類臨床醫(yī)生。

在此場景下，治療師的比較優(yōu)勢將上升到更抽象的層面。人類專業(yè)人員不是指導(dǎo)每一次反思性傾聽交流，而是策劃AI的干預(yù)措施，將其編織成連貫的治療敘事，并在創(chuàng)傷史、權(quán)力不對稱或文化細微差別要求不同路徑時暫?；蛲品詣踊?。倫理守護變得至關(guān)重要：從業(yè)者審計算法以防止偏見，確保持續(xù)感知的同意，并在安全或尊嚴受到威脅時直接干預(yù)。他們還指導(dǎo)來訪者理解AI的反饋，培養(yǎng)元認知洞察力，使建設(shè)性對話技巧得以內(nèi)化和持續(xù)，即使在傳感器關(guān)閉之后。最終結(jié)果是重塑了婚姻家庭治療師在關(guān)系教練至關(guān)重要的各個領(lǐng)域的技能概況和培訓(xùn)需求。

二、AI發(fā)展對教育政策的啟示

報告認為，AI能力的進步可能會使某些任務(wù)實現(xiàn)完全自動化。因此，執(zhí)行這些任務(wù)所需的基礎(chǔ)技能在工作場所或日常生活中可能不再必要。這將促使人們對教育系統(tǒng)中使用的學(xué)習(xí)和教學(xué)內(nèi)容與方法進行重新評估。

然而，某些技能的實踐需求減少并不意味著它們?nèi)狈r值或意義。人們可能出于各種原因仍然選擇學(xué)習(xí)它們。AI在技術(shù)上能夠執(zhí)行某些技能，并不意味著此類系統(tǒng)應(yīng)該被普遍應(yīng)用。此外，技能并非僅僅與職業(yè)需求相關(guān)——個人可能為了個人樂趣、成就感，或者因為他們相信這些技能具有內(nèi)在的人類價值而學(xué)習(xí)它們。

報告提出，此分析的核心問題是：“當(dāng)AI能比人類更好地完成某些工作或日常任務(wù)時，我們是否仍然希望人們學(xué)習(xí)去做這些任務(wù)？”由此問題衍生出三種主要觀點：

1.是——該觀點強調(diào)人們不應(yīng)變得依賴AI。這意味著人類的能力和自主性很重要，與AI的效率無關(guān)。

2.是，但是——這種更細致的立場表明，人類與AI在此特定任務(wù)上協(xié)同工作將是有益的，并且學(xué)習(xí)目標(biāo)應(yīng)隨之演變，以反映AI能做什么和不能做什么。

3.否——從這個角度來看，如果AI能更好地完成任務(wù)，那么人們就不應(yīng)該做這些任務(wù)，教育也不應(yīng)優(yōu)先教授這些技能。相反，重點應(yīng)轉(zhuǎn)向更相關(guān)的能力。

報告進一步指出，當(dāng)社會達成共識，認為某些任務(wù)或職業(yè)應(yīng)當(dāng)轉(zhuǎn)型以融入AI，且教育體系必須隨之調(diào)整時，關(guān)鍵在于將轉(zhuǎn)型后人類新角色的能力框架與對應(yīng)教育項目的課程內(nèi)容、教學(xué)方法及培養(yǎng)層次進行系統(tǒng)性比對。這種比較可以借助教育項目追趕指數(shù)（education programme catch-up index，衡量課程所授技能與當(dāng)前AI能力差距的指標(biāo)）來引導(dǎo)。

該指數(shù)能夠為課程內(nèi)容和目標(biāo)的定性重新評估提供信息，有可能促使課程本身發(fā)生變革。此方法尤其適用于為特定職業(yè)輸送人才的高等教育課程，但同樣適用于基礎(chǔ)教育階段的學(xué)科評估。通過將受AI影響的能力需求與現(xiàn)有教學(xué)內(nèi)容及方法進行校準(zhǔn)，教育工作者可精準(zhǔn)識別需要更新、調(diào)整或拓展的環(huán)節(jié)，從而更有效地培養(yǎng)學(xué)生應(yīng)對變革世界的能力。

三、關(guān)于AI意識的爭議

報告最后還探討了引發(fā)爭議的AI“意識”，由于科學(xué)和倫理上的巨大不確定性，該量表最終未被納入正式的評估指標(biāo)。

該量表基于這樣一個原則：意識源于進行心理模擬的能力，并由通過與環(huán)境交互而形成的內(nèi)部世界模型提供支持。

級別1（無意識）：AI系統(tǒng)并未表現(xiàn)出任何意識跡象。

級別2（原始適應(yīng)性行為）：AI系統(tǒng)在應(yīng)對環(huán)境變化時展現(xiàn)出初步的適應(yīng)性行為。此類系統(tǒng)表現(xiàn)出一定程度的靈活性，類似于簡單生物體，其行為調(diào)整是由環(huán)境反饋驅(qū)動的。

級別3（基于世界模型的學(xué)習(xí)）：系統(tǒng)擁有內(nèi)部世界模型，這些模型使它們能夠根據(jù)假設(shè)的未來行為模擬潛在結(jié)果。此類系統(tǒng)開始展現(xiàn)出超越單純反應(yīng)行為的自主性，逐漸向由內(nèi)在動機驅(qū)動的目標(biāo)導(dǎo)向行動轉(zhuǎn)變。

級別4（多感官整合）：AI系統(tǒng)展現(xiàn)出了與人類相當(dāng)?shù)恼J知能力。

級別5（人類級意識）：AI系統(tǒng)實現(xiàn)了人類級別的意識，其特征是符號表征和抽象推理。

報告強調(diào)，所提出的AI意識量表旨在作為一個基于特定理論視角——信息生成假說（IGH）的概念性和假設(shè)性框架。該量表反映了作者對選定理論框架的解釋和綜合，主要與計算功能主義相一致。它并非旨在暗示一個權(quán)威性或廣泛認可的評估AI意識的標(biāo)準(zhǔn)。

報告也提出了一個根本性問題：如果我們在AI中完全實現(xiàn)了所有已知的意識功能，我們是否應(yīng)該認為這樣的AI系統(tǒng)具有意識？歸根結(jié)底，AI系統(tǒng)是否存在意識不僅是一個學(xué)術(shù)問題，更是一個具有倫理和監(jiān)管意義的問題。隨著機器可能發(fā)展出自主意識的未來，我們必須認真思考有意識AI系統(tǒng)的權(quán)利及其創(chuàng)造者的責(zé)任。

資料來源：

OECD (2025), OECD AI Capability Indicators Technical Report, OECD Publishing, Paris, https://doi.org/10.1787/9cdb3dd1-en.

[本文為教育部國別和區(qū)域研究基地中國教育科學(xué)研究院國際教育研究中心成果]

本文由中國教育科學(xué)研究院“教育國際前沿”課題組成員整理，課題組負責(zé)人張永軍，編輯劉強，內(nèi)容僅供參考。點擊左下角“閱讀原文”可下載該文獻。

本文為原創(chuàng)，轉(zhuǎn)載請注明出處。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.