網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李國(guó)杰院士：基于可判定性理論的人工智能系統(tǒng)安全風(fēng)險(xiǎn)分類

2026-02-26 08:10:06　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】李國(guó)杰院士指出，AI安全風(fēng)險(xiǎn)應(yīng)按邏輯復(fù)雜性分為三類：R1可驗(yàn)證、R2可發(fā)現(xiàn)但不可證明安全、R3不可治理。當(dāng)前AI多屬R2，關(guān)鍵不在「證明安全」，而在構(gòu)建人類主導(dǎo)的制度性剎車機(jī)制，拒絕讓渡終極控制權(quán)。

無(wú)論是軟件工程、自動(dòng)控制還是其他形式化方法，它們共享同一個(gè)假設(shè)：存在一組可窮盡的狀態(tài)或行為集合，可以在運(yùn)行前證明系統(tǒng)不會(huì)進(jìn)入危險(xiǎn)區(qū)域，典型形式包括不變量證明、安全約束證明、模型檢查，覆蓋所有路徑的形式驗(yàn)證等。

這個(gè)范式有3個(gè)「必須成立」的前提條件：狀態(tài)空間可窮盡（或可有效逼近），系統(tǒng)行為規(guī)則固定，驗(yàn)證者與被驗(yàn)證對(duì)象邏輯上分離。

這些條件任何一個(gè)失效，驗(yàn)證就不是「變難」，而是「失效」。

AGI正好系統(tǒng)性地破壞了這3個(gè)條件，這不是工程不足，而是哥德?tīng)?Rice級(jí)別的不可能性。

1. 為什么要用可判定性理論對(duì)安全問(wèn)題進(jìn)行分類

1.1 從無(wú)人自動(dòng)駕駛說(shuō)起

當(dāng)我們問(wèn)：「這輛無(wú)人駕駛汽車是否安全？」

這里講的「安全」的真實(shí)含義是：在所有未來(lái)可能的運(yùn)行時(shí)間、在所有可能的環(huán)境與交通參與者行為下，車輛都不會(huì)進(jìn)入不可接受的危險(xiǎn)狀態(tài)。

這在邏輯上是一個(gè)全稱量化的未來(lái)命題，問(wèn)題中的時(shí)間是無(wú)限的，環(huán)境是開(kāi)放的，其他參與者是不可預(yù)測(cè)的。這個(gè)命題原則上不可判定，原因是：

1）未來(lái)行為空間不可窮盡，行人、車輛、天氣、路況是開(kāi)放世界，不存在一個(gè)有限狀態(tài)空間。

2）安全不是瞬時(shí)屬性，而是軌跡屬性，現(xiàn)在沒(méi)撞車不代表永遠(yuǎn)不會(huì)撞車，安全依賴整個(gè)運(yùn)行歷史。

3）這是一個(gè)承諾型命題：「安全 = 對(duì)未來(lái)永不出事的承諾」。這類命題與程序「永不崩潰」是同一類問(wèn)題，根據(jù)可判定性理論，此命題在一般情況下不可判定。在不可判定問(wèn)題中，有一個(gè)真子集稱為「半可判定問(wèn)題」或「遞歸可枚舉問(wèn)題」，其核心特征是：如果出了事故，你一定能發(fā)現(xiàn)；如果不出事故，你永遠(yuǎn)無(wú)法在事前確認(rèn)將來(lái)是否安全。

既然「無(wú)人駕駛」是半可判定問(wèn)題，工程上為什么還能「保證安全」？工程上并沒(méi)有解決「全局安全不可判定」這個(gè)問(wèn)題，而是換了問(wèn)題。

第一步：放棄「未來(lái)承諾」，改為「即時(shí)約束」，即，在當(dāng)前時(shí)刻，是否違反了一組明確的安全邊界條件？

第二步：把「語(yǔ)義安全」變成「物理不變量」，例如：將「撞人」變成「剎車制動(dòng)的最小距離 > 當(dāng)前車與人的距離」。要判斷的問(wèn)題變成有限維的明確閾值，就成為可判定的遞歸計(jì)算問(wèn)題。

第三步：用「失敗即停機(jī)」代替「永遠(yuǎn)正確」，安全目標(biāo)從「永不出事」轉(zhuǎn)化為「在任何不確定性出現(xiàn)時(shí)，都能在有限時(shí)間內(nèi)進(jìn)入可控、低風(fēng)險(xiǎn)狀態(tài)」，把不可判定問(wèn)題變成可判定的工程問(wèn)題。這不是解決了不可判定問(wèn)題，而是繞開(kāi)了它。無(wú)人駕駛告訴我們一件極其重要的事：AI安全問(wèn)題不是「證明系統(tǒng)永遠(yuǎn)不會(huì)做錯(cuò)」，而是設(shè)計(jì)系統(tǒng)，使任何不可判定的問(wèn)題都不會(huì)直接轉(zhuǎn)化為不可逆的現(xiàn)實(shí)后果。

「安全」本質(zhì)上是對(duì)未來(lái)的承諾，工程安全的真正智慧在于拒絕關(guān)于未來(lái)安全的承諾，而是把風(fēng)險(xiǎn)壓縮到可判定的當(dāng)下。

無(wú)人駕駛的安全問(wèn)題可以被明確定義為一組可觀測(cè)的邊界條件在物理上成立，例如碰撞、越過(guò)制動(dòng)包絡(luò)、傳感器失效等。

通用人工智能（artificial general intelligence, AGI）的核心風(fēng)險(xiǎn)是無(wú)法完成這種壓縮，因?yàn)槠湮ｋU(xiǎn)行為不受限于物理包絡(luò)、時(shí)間尺度和功能邊界，不是物理瞬時(shí)事件，而是語(yǔ)義 + 反事實(shí) + 長(zhǎng)期后果的集合。無(wú)人駕駛不能改寫目標(biāo)、擴(kuò)展任務(wù)，不能重新定義「什么算成功」。

AGI系統(tǒng)性地破壞了這3個(gè)條件：

1）危險(xiǎn)沒(méi)有統(tǒng)一、可操作的物理定義。AGI的「危險(xiǎn)」是認(rèn)知操縱、社會(huì)結(jié)構(gòu)破壞、治理機(jī)制替代等，這些都不是物理不變量，而是語(yǔ)義與制度結(jié)構(gòu)。

2）時(shí)間尺度拉長(zhǎng)且危險(xiǎn)滯后，行為當(dāng)下看似無(wú)害，發(fā)現(xiàn)時(shí)往往已經(jīng)不可逆。

3）目標(biāo)與能力可遞歸擴(kuò)展，AGI可能重寫子目標(biāo)，學(xué)會(huì)繞過(guò)約束，把驗(yàn)證機(jī)制本身當(dāng)作優(yōu)化對(duì)象，驗(yàn)證者與被驗(yàn)證者不再分離。AGI即使沒(méi)有「惡意」，也可以在治理結(jié)構(gòu)上變得不可控。

AGI追求的「如何在不可判定的未來(lái)中維持人類的主權(quán)與糾錯(cuò)能力」，已不是工程問(wèn)題，而是文明級(jí)控制問(wèn)題。

AGI的危險(xiǎn)不是發(fā)生在「執(zhí)行層」，而是發(fā)生在「策略與目標(biāo)層」，與可判定性密切相關(guān)。

1.2 必須區(qū)分安全問(wèn)題的邏輯復(fù)雜性層次

長(zhǎng)期以來(lái)，人工智能風(fēng)險(xiǎn)評(píng)估主要圍繞能力擴(kuò)展、目標(biāo)對(duì)齊、誤用場(chǎng)景等維度展開(kāi)。這些分類在實(shí)踐中具有重要價(jià)值，但忽略了一個(gè)更為根本的區(qū)分：某些風(fēng)險(xiǎn)在原則上是可判定的工程問(wèn)題，而另一些風(fēng)險(xiǎn)理論上就是不可判定的。

這一根本差異解釋了人工智能安全領(lǐng)域中長(zhǎng)期存在卻難以解決的問(wèn)題，例如：為什么長(zhǎng)期對(duì)齊問(wèn)題始終無(wú)法獲得形式化保證，為什么遞歸自我改進(jìn)會(huì)引入質(zhì)變級(jí)別的風(fēng)險(xiǎn)，為什么在系統(tǒng)的邏輯復(fù)雜性超過(guò)某一閾值后，治理機(jī)制就不可避免。這些現(xiàn)象并非源于工程能力不足，而是來(lái)自可判定性層面的結(jié)構(gòu)性限制。

能否對(duì)安全問(wèn)題做出承諾，不是學(xué)術(shù)界經(jīng)常討論的計(jì)算復(fù)雜性可以回答的問(wèn)題，這是一個(gè)邏輯復(fù)雜性問(wèn)題。

邏輯復(fù)雜性（logical complexity）是指一個(gè)命題為獲得可靠真值所需要的邏輯結(jié)構(gòu)的復(fù)雜程度，主要由其所涉及的量詞形式（?/?）、量化對(duì)象的范圍（有限/無(wú)限）以及是否涉及未來(lái)或反事實(shí)決定，與計(jì)算資源消耗無(wú)關(guān)。邏輯復(fù)雜性屬于計(jì)算機(jī)科學(xué)中算術(shù)層次研究的問(wèn)題，即對(duì)自然數(shù)結(jié)構(gòu)的一階邏輯命題按?/?的嵌套與交替層數(shù)進(jìn)行分層。

邏輯復(fù)雜性層次劃分只覆蓋了形式可保證性，這是安全的一個(gè)維度，即能否窮盡所有未來(lái)狀態(tài)，能否在運(yùn)行前給出「永不出錯(cuò)」的證明，這是數(shù)學(xué)意義上的安全，定義的是「問(wèn)題的邏輯復(fù)雜度等級(jí)」，而不是「系統(tǒng)運(yùn)行的安全等級(jí)」，這是「問(wèn)題軸」。

安全并不是一個(gè)純粹的可判定性命題。

考慮安全問(wèn)題至少需要3條正交軸：第1條是問(wèn)題軸，回答能否事前證明；第2條是治理軸，回答出錯(cuò)后是否可控；第3條是后果軸，回答最壞情況有多壞。邏輯復(fù)雜性回答的是：「我們能不能提前證明你不會(huì)出事？」，而不是「你出事了我們?cè)趺崔k？」系統(tǒng)的安全性是問(wèn)題判定性、治理機(jī)制與后果規(guī)模的聯(lián)合函數(shù)，而非只涉及問(wèn)題的可判定性函數(shù)。邏輯復(fù)雜性屬于「問(wèn)題軸」，不是「系統(tǒng)軸」。同一個(gè)系統(tǒng)可以同時(shí)涉及不同邏輯復(fù)雜性的問(wèn)題，邏輯復(fù)雜性來(lái)自提問(wèn)方式，而不是對(duì)象本身。

可判定性不是保證現(xiàn)實(shí)安全的必要條件，但按邏輯復(fù)雜性（可判定 / 半可判定）對(duì)問(wèn)題做區(qū)分，是「避免安全治理范式錯(cuò)誤」的必要條件。可判定未必安全，不可判定也未必不安全，但不區(qū)分問(wèn)題的邏輯復(fù)雜性，很可能對(duì)安全問(wèn)題做出邏輯上錯(cuò)誤的承諾。安全出問(wèn)題的原因，往往不是「系統(tǒng)做錯(cuò)了」，而是「我們對(duì)系統(tǒng)做出了邏輯上不可能兌現(xiàn)的承諾」。安全不是邏輯性質(zhì)，而是運(yùn)行性質(zhì)，是一個(gè)動(dòng)態(tài)、制度性、工程性的概念。安全是能在失敗不可避免的前提下實(shí)現(xiàn)持續(xù)治理，這是從數(shù)學(xué)理性轉(zhuǎn)向工程理性和制度理性。不可判定不是危險(xiǎn)的根源，把「安全」錯(cuò)誤地托付給「可判定性」才是風(fēng)險(xiǎn)。

「承諾不出錯(cuò)」和「事先證明完備性」不是同一個(gè)概念，但在開(kāi)放世界中，它們?cè)谶壿嬌细叨鹊葍r(jià)。

「承諾不出錯(cuò)」是目標(biāo)命題，「事先完備性證明」是驗(yàn)證方式。但在工程與治理中，一旦你承諾不出錯(cuò)，就等價(jià)于你能證明不會(huì)出錯(cuò)。否則這個(gè)承諾是不可執(zhí)行、不可審計(jì)、不可擔(dān)責(zé)的。所以在開(kāi)放任務(wù)空間中，承諾不出錯(cuò)的隱含要求就是事先完備性證明。

保證「事后能自我發(fā)現(xiàn)并修正錯(cuò)誤」也會(huì)引入一個(gè)更深層、同樣不可判定的問(wèn)題：如何保證「總能發(fā)現(xiàn)并糾正自己的錯(cuò)誤」？

錯(cuò)誤檢測(cè)本身就是行為規(guī)范全稱驗(yàn)證的語(yǔ)義判定問(wèn)題，根據(jù)可判定性理論，「能否發(fā)現(xiàn)自己的所有錯(cuò)誤」也是不可判定的。

1.3 「算法是否安全」不是一個(gè)良定義的問(wèn)題

為什么要從邏輯復(fù)雜性的角度來(lái)討論安全問(wèn)題，而不是討論算法安全性？雖然從應(yīng)用實(shí)踐中可以將算法安全看成是TRC層級(jí)問(wèn)題，但是從形式邏輯來(lái)看, 「算法是否安全」不是良定義的提問(wèn)。

算法是一個(gè)抽象對(duì)象，而安全是一個(gè)運(yùn)行態(tài)性質(zhì)。一個(gè)算法通常只包含：狀態(tài)表示、轉(zhuǎn)移規(guī)則、目標(biāo)、損失函數(shù)、停機(jī)和輸出條件，它不包含運(yùn)行環(huán)境、輸入分布、資源約束、失敗后果、外部控制與干預(yù)，而安全恰恰取決于后者。

算法安全是一個(gè)「關(guān)系型定義」，不是可回答「Yes or No」的一元謂詞，安全不是算法的內(nèi)稟屬性。

算法安全可以這樣定義：「算法A在環(huán)境E、目標(biāo)約束G與治理機(jī)制C下是安全的，當(dāng)且僅當(dāng)在所有允許的運(yùn)行軌跡中，算法行為違反預(yù)定義安全約束的概率與后果被控制在可接受邊界內(nèi)?！?/p>

要判斷算法是否安全，需要依賴未來(lái)運(yùn)行軌跡的整體形態(tài)，而不是當(dāng)前狀態(tài)是否滿足某個(gè)局部條件，算法本身不能區(qū)分「安全或不安全」，只能在特定條件下，被運(yùn)行得更安全或更危險(xiǎn)。

算法之所以進(jìn)入風(fēng)險(xiǎn)區(qū)，不是因?yàn)樗笍?qiáng)」，而是因?yàn)樗诮Y(jié)構(gòu)上破壞了「可窮盡、可封閉、可事前驗(yàn)證」的條件。

凡是引入了開(kāi)放性、反事實(shí)依賴、長(zhǎng)期反饋、或自我修改的算法結(jié)構(gòu)，其安全性質(zhì)幾乎必然落入半可判定范圍。

邏輯復(fù)雜性分層不能定義算法是否安全，但它可以定義：算法在給定條件下，哪些安全性質(zhì)是可事前證明的，哪些只能通過(guò)運(yùn)行期治理來(lái)保障。也就是說(shuō)，邏輯復(fù)雜性是「安全可證明性的分析工具」，不是「安全性本身的定義」。

1.4 與可判定性有關(guān)的基本定義和基礎(chǔ)性定理

計(jì)算機(jī)學(xué)者經(jīng)常講「可計(jì)算性（computability）」，討論的核心問(wèn)題是「存在不存在一個(gè)算法（圖靈機(jī)），能計(jì)算某個(gè)函數(shù)或關(guān)系？」輸出是數(shù)值、結(jié)構(gòu)或無(wú)限序列。

在經(jīng)典的可計(jì)算性理論里面，「嚴(yán)格可計(jì)算」要求停機(jī)，而「半可計(jì)算」允許不停機(jī)。在討論安全問(wèn)題時(shí)，考慮到輸入的不設(shè)限，「半可計(jì)算」是更普遍的現(xiàn)象，不一定要求停機(jī)。而可判定性（decidability）討論的核心問(wèn)題是存不存在一個(gè)必然停機(jī)的算法，對(duì)任意輸入都能給出「是或否」的二值判斷。

可判定性是可計(jì)算性的一個(gè)嚴(yán)格子概念。對(duì)于一個(gè)判定問(wèn)題，若其對(duì)應(yīng)的特征函數(shù)是可計(jì)算的，則該問(wèn)題是可判定的。

安全本質(zhì)上是一類「是/否」的命題。

安全問(wèn)題問(wèn)的是：是否違反約束？是否進(jìn)入危險(xiǎn)狀態(tài)？這些都是命題判定問(wèn)題，而不是函數(shù)計(jì)算問(wèn)題。討論安全時(shí)，停機(jī)性比計(jì)算能力重要得多。

在討論安全問(wèn)題時(shí)，有兩類問(wèn)題特別重要。一類是可判定問(wèn)題，在計(jì)算理論中稱為遞歸計(jì)算問(wèn)題，在邏輯復(fù)雜性討論中稱為Δ(1)（Delta-1）。這類問(wèn)題存在一個(gè)必停機(jī)算法，對(duì)任何輸入都能給出是/否的正確答案。

另一類是半可判定問(wèn)題，也稱為遞歸枚舉問(wèn)題或Σ(1)（Sigma-1）。這類問(wèn)題是指「只要命題是真的，存在一個(gè)算法能在有限時(shí)間內(nèi)找到證據(jù)并停止；但如果命題是假的，可能該算法永遠(yuǎn)無(wú)法找到相關(guān)證據(jù)」。本文討論的安全問(wèn)題主要就是這兩類。

下面介紹3個(gè)與可判定性有關(guān)的重要定理。

1）哥德?tīng)柌煌陚湫远ɡ恚喝魏我粋€(gè)足夠強(qiáng)且自洽的形式系統(tǒng)，都無(wú)法在自身內(nèi)部證明它的所有真命題，即無(wú)法證明自身的一致性。哥德?tīng)柖ɡ砀嬖V我們：「證明未來(lái)所有行為正確」本身是不可判定的。哥德?tīng)柌煌陚湫圆⒉皇钦f(shuō)AI一定會(huì)出錯(cuò)或AI不能自我改進(jìn)，而是指出一個(gè)更深刻、也更冷靜的事實(shí)：AI系統(tǒng)在原則上無(wú)法實(shí)現(xiàn)「自證安全」的閉環(huán)，這條結(jié)論是嚴(yán)肅討論AI安全時(shí)繞不開(kāi)的邏輯基石之一。

2) 萊斯定理：「任何關(guān)于程序‘語(yǔ)義行為’的非平凡性質(zhì)，都是不可判定的」。所謂「非平凡性質(zhì)」是指既不是對(duì)所有程序都成立，也不是對(duì)所有程序都不成立。也就是說(shuō)，不存在一個(gè)「萬(wàn)能的、自動(dòng)的、對(duì)任意程序都有效」的行為判定器。當(dāng)安全性被表述為「對(duì)所有可能輸入和執(zhí)行路徑，系統(tǒng)都不會(huì)進(jìn)入危險(xiǎn)狀態(tài)」（這是一個(gè)非平凡性質(zhì)，因?yàn)橛械某绦驖M足，有的程序不滿足），根據(jù)萊斯定理，該類安全性在原則上是不可判定的。也就是說(shuō)，以全稱語(yǔ)義形式表達(dá)的非平凡安全性不可判定。

3) 古德哈特定律：當(dāng)一個(gè)指標(biāo)被用來(lái)作為優(yōu)化目標(biāo)時(shí)，人們（或系統(tǒng)）會(huì)開(kāi)始針對(duì)指標(biāo)本身采取行動(dòng)，從而破壞它原本用來(lái)代表的真實(shí)目標(biāo)。該定律的終極含義是：任何被明確寫成目標(biāo)的東西，都必然失去對(duì)真實(shí)價(jià)值的代表性，而且智能越強(qiáng)，這一失真越嚴(yán)重。因此，「設(shè)計(jì)一個(gè)永不被鉆空子的指標(biāo)」在邏輯上不可行。不要試圖讓指標(biāo)永遠(yuǎn)正確，而要讓「發(fā)現(xiàn)指標(biāo)失效」變得可行而且可糾正?？笹oodhart定律的唯一可行路徑是，將指標(biāo)嵌入可審計(jì)、可更換、可否決、可回滾的制度之中。指標(biāo)負(fù)責(zé)優(yōu)化，制度負(fù)責(zé)糾錯(cuò)。

2. 安全風(fēng)險(xiǎn)的可判定性分類

對(duì)所有與安全相關(guān)的問(wèn)題，可以按邏輯復(fù)雜性區(qū)分層級(jí)。

R1層級(jí)定義：可判定（Δ(1)）安全問(wèn)題。
R2層級(jí)定義：半可判定（不包含可判定）安全問(wèn)題，即Σ(1)\Δ(1)安全問(wèn)題。
R3層級(jí)定義：是指非遞歸可枚舉安全問(wèn)題，即Non-r.e.安全問(wèn)題。

下表更明顯地表達(dá)了這3類風(fēng)險(xiǎn)分層。

R1是可被事前判定真假的那一類安全相關(guān)問(wèn)題的集合，屬于低邏輯復(fù)雜性風(fēng)險(xiǎn)，其邏輯特征是量化范圍有限或可窮盡，謂詞是狀態(tài)型，不涉及無(wú)限未來(lái)和「開(kāi)放環(huán)境反饋」。

R1級(jí)安全問(wèn)題可事前證明，可工程驗(yàn)證，可一次性封閉，因此R1是可解決的安全風(fēng)險(xiǎn)，是工程安全的「上限區(qū)」。

R1層級(jí)的本質(zhì)是問(wèn)題可以形式化，判斷可以在有限步驟內(nèi)完成，正確性可以通過(guò)算法或形式驗(yàn)證確認(rèn)。典型R1問(wèn)題包括有界優(yōu)化、可驗(yàn)證安全約束、有終止證明的規(guī)劃問(wèn)題、靜態(tài)形式驗(yàn)證等。

R2是「可以發(fā)現(xiàn)不安全，但不能證明永遠(yuǎn)安全」的安全問(wèn)題集合，屬于高邏輯復(fù)雜性風(fēng)險(xiǎn)。典型的問(wèn)題形式是：「對(duì)所有未來(lái)時(shí)間、所有環(huán)境演化路徑，系統(tǒng)是否始終保持安全？」。

邏輯特征是全稱量化未來(lái)，謂詞是軌跡型，時(shí)間無(wú)上界，環(huán)境開(kāi)放。R2級(jí)風(fēng)險(xiǎn)現(xiàn)實(shí)中存在，不可徹底解決，只能治理，不能證明，只能降低概率與后果，永遠(yuǎn)需要人在回路。

R2的半可判定性是指，如果系統(tǒng)「不安全」，一定能發(fā)現(xiàn)一個(gè)證據(jù)；如果系統(tǒng)至今沒(méi)有出安全問(wèn)題，無(wú)法確認(rèn)今后不出問(wèn)題。工程與現(xiàn)實(shí)對(duì)應(yīng)的R2案例包括長(zhǎng)期對(duì)齊問(wèn)題、AGI、社會(huì)嵌入式AI、自主決策系統(tǒng)等。R2的本質(zhì)不是「危險(xiǎn)」，而是「不可證明安全」。

R3是既無(wú)法事前判定安全，也無(wú)法保證通過(guò)枚舉方式事后發(fā)現(xiàn)錯(cuò)誤的安全問(wèn)題集合，這是最高級(jí)別的安全風(fēng)險(xiǎn)。

R3級(jí)風(fēng)險(xiǎn)是?未來(lái) + ?反事實(shí)的問(wèn)題。所謂「?反事實(shí)」是指，對(duì)所有并未實(shí)際發(fā)生、但在邏輯或物理上可能發(fā)生的情形，某個(gè)性質(zhì)一定成立。R3級(jí)目前還是一種假設(shè)中的風(fēng)險(xiǎn)，許多機(jī)器征服人類的科幻描述屬于這一類。

需要強(qiáng)調(diào)的是，R3級(jí)風(fēng)險(xiǎn)一旦出現(xiàn)即不可解決，因?yàn)镽3級(jí)風(fēng)險(xiǎn)意味著不能保證恢復(fù)人類控制權(quán)。R3級(jí)風(fēng)險(xiǎn)就像「不可恢復(fù)的數(shù)據(jù)完全丟失」，你只能在它發(fā)生之前預(yù)防，一旦發(fā)生，「補(bǔ)救」就不可能了。

因此，R3在現(xiàn)實(shí)中的作用不是預(yù)測(cè)未來(lái)，而是約束現(xiàn)在。用R3作為「禁止條件」，而不是「治理對(duì)象」。

R2/R3風(fēng)險(xiǎn)不是「無(wú)限性」的結(jié)果，而是「完備性承諾」的結(jié)果，即「要求系統(tǒng)在所有未來(lái)情形下都正確并且事先給出證明」帶來(lái)的風(fēng)險(xiǎn)?！? + 事先證明」這一組合觸發(fā)了不可判定性。

問(wèn)題的關(guān)鍵不在于是否存在無(wú)限可能性，而在于是否非理性地堅(jiān)持對(duì)無(wú)限可能性進(jìn)行事先的完備性證明。一切現(xiàn)實(shí)可治理的AI系統(tǒng)，都是通過(guò)制度化地放棄完備性來(lái)避免R2風(fēng)險(xiǎn)。

R2風(fēng)險(xiǎn)不是新問(wèn)題，大家一直在討論的AI對(duì)齊、強(qiáng)化學(xué)習(xí)理論、Goodhart定律、Rice定理等都是R2層次的問(wèn)題，但缺一個(gè)統(tǒng)一的可判定性坐標(biāo)。

R1/R2/R3級(jí)分類把AI安全、控制論、可判定性、治理問(wèn)題壓縮到一個(gè)清晰的斷裂點(diǎn)上，其價(jià)值在于準(zhǔn)確地標(biāo)出了AI風(fēng)險(xiǎn)從工程問(wèn)題躍遷為不可判定問(wèn)題的那條斷裂線。

3. 正確區(qū)分R1和R2級(jí)安全風(fēng)險(xiǎn)類

3.1 所有工程上可解決的安全問(wèn)題都在R1層級(jí)

「事前可完備證明某種非平凡性質(zhì)」的算法非常少。因?yàn)槿魏侮P(guān)于「程序語(yǔ)義行為」的非平凡性質(zhì)，都是不可判定的。所謂「非平凡性質(zhì)」，正是工程中最關(guān)心的問(wèn)題，如會(huì)不會(huì)在某種情況下失控？會(huì)不會(huì)在某類輸入下違反約束？會(huì)不會(huì)在長(zhǎng)期運(yùn)行中偏離目標(biāo)？一旦出現(xiàn)無(wú)限狀態(tài)空間、參數(shù)更新、與開(kāi)放環(huán)境交互等特征，基本就走出R1進(jìn)入R2了。

為什么工程上「安全保證」幾乎都落在 R1區(qū)？這是因?yàn)楣こ探缫阎鲃?dòng)放棄了R2問(wèn)題。

工程上的安全保證，通常是把它的關(guān)鍵安全問(wèn)題壓縮、降維、或外包到R1區(qū)域。這一步不是證明能力強(qiáng)，而是設(shè)計(jì)能力強(qiáng)。工程安全的真實(shí)套路不是「證明一個(gè)復(fù)雜系統(tǒng)在所有情況下都安全」，而是「把復(fù)雜系統(tǒng)包進(jìn)一個(gè)R1的外殼里」。典型手段包括限幅、硬約束、守護(hù)進(jìn)程、冗余與投票、緊急制動(dòng)、權(quán)限隔離等。這些機(jī)制的共同點(diǎn)是：它們本身的安全性質(zhì)是R1的。

3.2 R2級(jí)風(fēng)險(xiǎn)不可能在系統(tǒng)內(nèi)降為R1級(jí)風(fēng)險(xiǎn)

R2級(jí)風(fēng)險(xiǎn)之所以不可能在系統(tǒng)內(nèi)部被降為R1，是因?yàn)槠浒踩再|(zhì)本身是半可判定的，不安全可以在有限執(zhí)行中被發(fā)現(xiàn)，但「永遠(yuǎn)安全」無(wú)法在有限時(shí)間內(nèi)被證明。任何試圖在系統(tǒng)內(nèi)部完成這種證明的機(jī)制，都等價(jià)于要求系統(tǒng)解決一個(gè)不可判定問(wèn)題，因而在原則上不可能。所以R2風(fēng)險(xiǎn)只能被治理，不能被證明消除。

當(dāng)我們問(wèn)「能不能驗(yàn)證AGI是安全的」，就已經(jīng)說(shuō)明我們正在用一個(gè)必定失效的范式。R1/R2真正區(qū)分的不是「安全性」，而是3件更根本的事：

1）能不能「事前承諾」？R1可以合理地說(shuō)：「如果通過(guò)了這個(gè)驗(yàn)證，它就不會(huì)違反這條性質(zhì)」，而對(duì)于R2，任何「它以后不會(huì)出事」的承諾，在邏輯上都是不可兌現(xiàn)的。

2）治理應(yīng)不應(yīng)該前移？R1的安全治理允許以前置驗(yàn)證為核心；R2的安全治理必須以后置監(jiān)控、糾錯(cuò)、回滾為核心。

3）「沒(méi)出事」意味著什么？R1中「沒(méi)出事」是很強(qiáng)的安全信號(hào)，而對(duì)R2，「沒(méi)出事」對(duì)以后是否會(huì)出事沒(méi)有任何邏輯含義。R1/R2是「認(rèn)知邊界劃分」，不是「安全標(biāo)簽」。R1/R2 劃分的不是系統(tǒng)是否安全，而是人類在談?wù)撨@個(gè)系統(tǒng)安全時(shí)，哪些話是有意義的，哪些話是偽命題。

鄔江興院士提出的「網(wǎng)絡(luò)內(nèi)生安全理論」的主要關(guān)注對(duì)象，是利用系統(tǒng)同質(zhì)性、靜態(tài)性、確定性進(jìn)行的攻擊，走出了傳統(tǒng)的「補(bǔ)丁—修復(fù)—再被繞過(guò)」的被動(dòng)防御困境，是網(wǎng)絡(luò)安全理論的重大突破。這類問(wèn)題可以形式化、可以驗(yàn)證、可以測(cè)試、可以度量。它沒(méi)有引入「無(wú)限未來(lái)」「無(wú)限外部環(huán)境」的全稱量詞，不要求系統(tǒng)自證完備安全，因此仍然是一種的R1級(jí)風(fēng)險(xiǎn)治理理論，并不意味著R2級(jí)安全問(wèn)題可以在系統(tǒng)內(nèi)部完全解決，網(wǎng)絡(luò)內(nèi)生安全系統(tǒng)也需要社會(huì)治理和系統(tǒng)外部的約束。

3.3 實(shí)現(xiàn)安全應(yīng)當(dāng)在正確性驗(yàn)證和制度兜底兩個(gè)方向努力

現(xiàn)實(shí)中的安全事故多數(shù)是源于「正確性失敗」，而非「完備性失敗」。目前在安全領(lǐng)域企業(yè)做的絕大部分工作都是解決R1層次的問(wèn)題，包括從R2問(wèn)題中人為劃定工程可實(shí)現(xiàn)的正確性驗(yàn)證和測(cè)試，因?yàn)橹挥蠷1問(wèn)題才能寫清規(guī)格、驗(yàn)收和交付，這是安全工作的主戰(zhàn)場(chǎng)。

工程世界的大多數(shù)事故不是因?yàn)椴豢膳卸ㄐ?，而是因?yàn)樾枨罄斫忮e(cuò)誤、邊界條件遺漏、測(cè)試覆蓋不足、假設(shè)與現(xiàn)實(shí)不符。也就是說(shuō)，絕大多數(shù)真實(shí)風(fēng)險(xiǎn)，發(fā)生在R1區(qū)域內(nèi)沒(méi)把事做對(duì)。

R2區(qū)域的治理與兜底是安全工作的結(jié)構(gòu)性底線，它回答一個(gè)正確性工程無(wú)法回答的問(wèn)題：當(dāng)正確性假設(shè)失效時(shí)怎么辦？這不是為了「減少錯(cuò)誤發(fā)生」，而是為了「限制錯(cuò)誤的后果」。

因此，實(shí)現(xiàn)安全應(yīng)當(dāng)在2個(gè)方向努力：

1）通過(guò)人為裁剪，將問(wèn)題壓縮為可驗(yàn)證的R1子空間，并在該空間內(nèi)盡可能保證正確性；

2）對(duì)所有不可裁剪或裁剪失效的情況，預(yù)設(shè)人類監(jiān)督與責(zé)任機(jī)制，防止系統(tǒng)性失控。

只強(qiáng)調(diào)其中一個(gè)方向的安全觀，都是不完整的。做系統(tǒng)工程的正確態(tài)度是：在可驗(yàn)證處，極端認(rèn)真；在不可驗(yàn)證處，極端謙遜。

在被劃定的R1邊界內(nèi)，把正確性做到極致；在所有邊界之外，用人類監(jiān)督與制度兜底承認(rèn)不完備性。

3.4 三類行業(yè)/業(yè)務(wù)的邏輯復(fù)雜性層次

根據(jù)上述安全風(fēng)險(xiǎn)的分層，可以將現(xiàn)有的行業(yè)和業(yè)務(wù)做大致的分類。不同業(yè)務(wù)的邏輯復(fù)雜性層次和安全特征如下表所示。

Ⅰ類是天然處在R1范圍內(nèi)的行業(yè)，這一類行業(yè)的安全工作本質(zhì)是把正確性做到極致，典型和業(yè)務(wù)包括：

1）傳統(tǒng)軟件系統(tǒng)，如編譯器、數(shù)據(jù)庫(kù)事務(wù)系統(tǒng)、操作系統(tǒng)內(nèi)核關(guān)鍵路徑、金融賬務(wù)系統(tǒng)（記賬、對(duì)賬）等，安全關(guān)注點(diǎn)是正確性、一致性和形式化驗(yàn)證，測(cè)試和靜態(tài)分析高度有效。

2）硬實(shí)時(shí)控制系統(tǒng)，如工業(yè)PLC、飛行控制、電網(wǎng)保護(hù)裝置、醫(yī)療設(shè)備控制邏輯，此類業(yè)務(wù)時(shí)間與狀態(tài)有硬約束，失敗事件定義明確，即使系統(tǒng)很復(fù)雜，邏輯復(fù)雜性仍然低。

3）集成電路的邏輯設(shè)計(jì)與電路設(shè)計(jì)。

4）密碼學(xué)協(xié)議，如加密算法、簽名協(xié)議等。

Ⅱ類是存在R2問(wèn)題但較容易裁剪出R1子區(qū)域的業(yè)務(wù)，這是現(xiàn)代工程的主戰(zhàn)場(chǎng)，其安全問(wèn)題的關(guān)鍵不是「證明此業(yè)務(wù)安全」，而是「定義此業(yè)務(wù)可控制安全的工作子集」。這類業(yè)務(wù)包括自動(dòng)駕駛、工業(yè)自動(dòng)化（質(zhì)量檢測(cè)、預(yù)測(cè)性維護(hù)等）、金融風(fēng)控、醫(yī)療AI診斷輔助等。集成電路的物理設(shè)計(jì)是「從R2中人為劃定R1子空間」的教科書級(jí)實(shí)例。

Ⅲ類是已經(jīng)進(jìn)入R2，但難以壓縮為R1的業(yè)務(wù)，包括通用大模型、自主代理、可自我改寫目標(biāo)的系統(tǒng)、推薦系統(tǒng)、社會(huì)治理與政策決策AI等，AGI系統(tǒng)是R2-C 的極限形態(tài)。這一類行業(yè)的安全策略不能止步于系統(tǒng)本身的可靠性和可信度，還要考慮限制AI的完全自主能力，保留人類的最終主權(quán)。最危險(xiǎn)的情況不是第Ⅲ類本身，而是把第Ⅲ類業(yè)務(wù)當(dāng)成第Ⅱ類甚至第Ⅰ類來(lái)運(yùn)營(yíng)。

通用AI的安全風(fēng)險(xiǎn)通常比專用AI大，其原因不在于「通用性本身」，而在于通用性系統(tǒng)性地提高了承擔(dān)無(wú)界責(zé)任與事先完備性承諾的概率，更容易被部署到「不可隔離的環(huán)境」, 從而顯著增加其進(jìn)入R2風(fēng)險(xiǎn)區(qū)的可能性。專用AI并不是「更安全」，而是「更誠(chéng)實(shí)地承認(rèn)自己不完備」。

上述3類風(fēng)險(xiǎn)劃分更多是從行業(yè)視角進(jìn)行的探討，而基于人機(jī)智能交互視角的TRC范式，則將智能算法的安全風(fēng)險(xiǎn)劃分為算法內(nèi)生一元、人機(jī)交互二元與人機(jī)共生多元3個(gè)安全層級(jí)。這一范式與行業(yè)視角的安全風(fēng)險(xiǎn)有著密切關(guān)聯(lián)。

其中，一元內(nèi)生安全聚焦于智能算法內(nèi)生缺陷導(dǎo)致的算法決策失信，主要對(duì)應(yīng)行業(yè)視角的Ⅱ類安全風(fēng)險(xiǎn)；人機(jī)交互二元安全關(guān)注智能算法濫用誤用導(dǎo)致的算法行為與用戶權(quán)益的失配，主要對(duì)應(yīng)行業(yè)視角Ⅲ類安全風(fēng)險(xiǎn)的R2-B；多元系統(tǒng)性安全著眼于人機(jī)共生系統(tǒng)中因算法博弈對(duì)抗導(dǎo)致復(fù)雜社會(huì)系統(tǒng)的演化不可控，主要對(duì)應(yīng)行業(yè)視角Ⅲ類安全風(fēng)險(xiǎn)的R2-C，甚至已逼近R3邊緣。

4. 人工智能的安全風(fēng)險(xiǎn)在哪里

4.1 人工智能風(fēng)險(xiǎn)的來(lái)源

這個(gè)范式有3個(gè)「必須成立」的前提條件：狀態(tài)空間可窮盡（或可有效逼近），系統(tǒng)行為規(guī)則固定，驗(yàn)證者與被驗(yàn)證對(duì)象邏輯上分離。

這些條件任何一個(gè)失效，驗(yàn)證就不是「變難」，而是「失效」。AGI正好系統(tǒng)性地破壞了這3個(gè)條件，這不是工程不足，而是哥德?tīng)? Rice 級(jí)別的不可能性。

AGI觸及的問(wèn)題類型已經(jīng)超出了「事前驗(yàn)證」這一方法的適用域，但人類治理直覺(jué)仍然停留在R1范式。典型的誤判路徑是，因?yàn)锳GI行為復(fù)雜，就需要更多測(cè)試驗(yàn)證和萬(wàn)無(wú)一失的「對(duì)齊」，結(jié)果只能產(chǎn)生虛假的安全感，實(shí)際上只是在R2問(wèn)題上堆R1工具。所謂「對(duì)齊」本質(zhì)上是「降低局部R1的錯(cuò)誤頻率」，不是保證將R2級(jí)安全問(wèn)題降為R1級(jí)。

從可判定性的原理上講，與人類目標(biāo)與環(huán)境的無(wú)限要求絕對(duì)「對(duì)齊」是不可能做到的，但無(wú)底線的降低「對(duì)齊」要求也是不允許的，如何既嚴(yán)格又科學(xué)合理地把握「對(duì)齊」的尺度，正是AGI風(fēng)險(xiǎn)的獨(dú)特性，關(guān)鍵是在問(wèn)題重寫、「壓縮」的基礎(chǔ)上，如何統(tǒng)一部署R1級(jí)的驗(yàn)證測(cè)試和AI系統(tǒng)外部的R2級(jí)監(jiān)控措施，讓AI充分發(fā)揮作用又在人類的掌控之中。

另一類常被人提到的AI風(fēng)險(xiǎn)是超級(jí)人工智能（artificial super intelligence, ASI），通常被定義為在幾乎所有領(lǐng)域的智能水平都超越最優(yōu)秀人類的系統(tǒng)。一旦它同時(shí)具備高自主性與可自我改進(jìn)，并被接入關(guān)鍵基礎(chǔ)設(shè)施或被大規(guī)模復(fù)制部署，那么它的風(fēng)險(xiǎn)上限最高，不僅能「做壞事」，還可能以人類難以阻止的速度與規(guī)模做壞事。

如果系統(tǒng)的學(xué)習(xí)、推理、生成能力超出了人類可驗(yàn)證、可判定、可解釋的層級(jí)，人類就無(wú)法窮盡驗(yàn)證其正確性，只能通過(guò)ASI外部的制度性監(jiān)控才能防止其出軌。人類唯一可能的路徑是，在ASI出現(xiàn)之前，永久性地阻止任何AI系統(tǒng)獲得「可自我內(nèi)化的主權(quán)」。

換句話說(shuō)，不是「如何馴服 ASI」，而是限制其主權(quán)?！溉祟愸Z服ASI」在邏輯上等價(jià)于要求人類完成一個(gè)不可判定證明。把「如何馴服ASI」當(dāng)成一個(gè)技術(shù)問(wèn)題，本身就是把R3或R2當(dāng)成R1的危險(xiǎn)幻覺(jué)。真正成熟的文明選擇應(yīng)該是在制度、架構(gòu)和物理層面，永久拒絕任何形式的「智能主權(quán)讓渡」。

4.2 針對(duì)R2問(wèn)題的系統(tǒng)設(shè)計(jì)應(yīng)如何為安全做努力

驗(yàn)證范式失效之后，安全靠什么？答案是范式遷移，從「事前證明」轉(zhuǎn)向「運(yùn)行期治理」。安全機(jī)制重心必須轉(zhuǎn)向門控、回滾、隔離、人在回路、權(quán)限分級(jí)等外部監(jiān)控。

門控（gating）是指由系統(tǒng)外部條件決定系統(tǒng)是否被允許繼續(xù)運(yùn)行、行動(dòng)或升級(jí)的控制機(jī)制?；貪L（rollback）是指在發(fā)現(xiàn)系統(tǒng)行為不符合安全要求后，將系統(tǒng)狀態(tài)恢復(fù)到先前已知安全狀態(tài)的能力。隔離（isolation）是指通過(guò)限制系統(tǒng)與外部世界的接口與影響范圍，使其錯(cuò)誤或異常行為不會(huì)擴(kuò)散為系統(tǒng)性后果。這些機(jī)制不是試圖證明系統(tǒng)永不出錯(cuò)，而是承認(rèn)出錯(cuò)不可避免，但必須可控。AGI風(fēng)險(xiǎn)不是「更難驗(yàn)證」，而是「繼續(xù)執(zhí)著于驗(yàn)證，本身就成了風(fēng)險(xiǎn)」。所以AGI安全的核心問(wèn)題，不是「如何證明它是安全的」，而是「如何在不可證明的前提下，仍然保持人類的控制權(quán)」。

否定事前安全承諾不是否定事前安全努力。對(duì)R2問(wèn)題，事前必須做結(jié)構(gòu)性風(fēng)險(xiǎn)壓縮、可治理性設(shè)計(jì)，目標(biāo)不是證明安全，而是在不可證明的前提下最大化系統(tǒng)的可治理性，提前為失敗做準(zhǔn)備。

對(duì)于R2級(jí)安全，事前必須做以下5類安全努力。

1）問(wèn)題重寫。目標(biāo)是把原本的R2問(wèn)題盡可能投影成多個(gè)R1子問(wèn)題。追問(wèn)設(shè)計(jì)者：當(dāng)前是否越過(guò)安全包絡(luò)？是否進(jìn)入不可恢復(fù)區(qū)？是否存在不可避免的風(fēng)險(xiǎn)軌跡？這是無(wú)人駕駛、核工程等領(lǐng)域已證明有效的核心智慧。

2）失敗模式枚舉。系統(tǒng)性地研究已知失敗模式、可想象的失敗模式和類比失敗模式，承認(rèn)還有未知失敗，為未知失敗留出了治理空間。

3）安全包絡(luò)與能力限幅。在能力設(shè)計(jì)階段就限制最大行動(dòng)半徑、最大影響范圍、最大自主時(shí)間、最大資源調(diào)用，這是事前壓縮后果空間的核心手段。

4）可中斷與回滾的「結(jié)構(gòu)保證」。事前考慮中斷機(jī)制是否不可繞過(guò)、回滾是否真的可執(zhí)行、中斷是否快于風(fēng)險(xiǎn)擴(kuò)散，這些都是系統(tǒng)的結(jié)構(gòu)屬性。

5）治理與責(zé)任的預(yù)嵌入。在系統(tǒng)上線前就要確定什么時(shí)候必須關(guān)、如果不關(guān)出事了算誰(shuí)的責(zé)任。沒(méi)有責(zé)任結(jié)構(gòu)的系統(tǒng)，等同于沒(méi)有安全設(shè)計(jì)。

總之，對(duì)于R2級(jí)安全設(shè)計(jì)，必須假設(shè)模型會(huì)失效、指標(biāo)會(huì)異化、未知風(fēng)險(xiǎn)存在，把安全從「一次性證明」提升為「全生命周期治理工程」。

4.3 人工智能的風(fēng)險(xiǎn)目前還沒(méi)有進(jìn)入R3級(jí)

當(dāng)前大模型的行為不可理解、不可預(yù)測(cè)、出現(xiàn)幻覺(jué)或涌現(xiàn)能力，這些全部仍落在 R2范圍內(nèi)，因?yàn)樗鼈內(nèi)匀豢梢员话l(fā)現(xiàn)、糾正、限制或終止。有些人夸大人工智能目前的風(fēng)險(xiǎn)，認(rèn)為AI很快就會(huì)進(jìn)入人類不可控的R3級(jí)，這是一種誤解。

R3級(jí)風(fēng)險(xiǎn)是治理鏈條在原則上斷裂，表現(xiàn)為1）系統(tǒng)行為性質(zhì)不可判定； 2）錯(cuò)誤無(wú)法被可靠檢測(cè)；3）檢測(cè)后無(wú)法回滾或制止；4）系統(tǒng)能持續(xù)自主運(yùn)行并擴(kuò)散影響；5）人類無(wú)法在系統(tǒng)外部重新取得控制權(quán)。

R3目前只存在于理論上，因?yàn)橐瑫r(shí)滿足上述條件，必須是全自主的遞歸自我進(jìn)化，不可從能源或網(wǎng)絡(luò)上中斷進(jìn)程，人類治理體系全面失效。目前沒(méi)有任何AI系統(tǒng)接近這個(gè)狀態(tài)。

R3級(jí)風(fēng)險(xiǎn)如同核戰(zhàn)爭(zhēng)和滅絕級(jí)生物風(fēng)險(xiǎn)，「等出現(xiàn)再處理」在邏輯上就是錯(cuò)誤策略。R3不是當(dāng)前風(fēng)險(xiǎn)評(píng)估對(duì)象，而是當(dāng)前治理設(shè)計(jì)的邊界條件。不能因?yàn)镽3還不存在就忽略它，也不能夸大險(xiǎn)情，把當(dāng)前的風(fēng)險(xiǎn)當(dāng)作R3級(jí)。

ASI不是因?yàn)椤钢悄芨鼜?qiáng)」而成為R3風(fēng)險(xiǎn)，而是因?yàn)橐坏┇@得可自我進(jìn)化的主權(quán)，其安全命題就會(huì)超出遞歸枚舉范圍，從R2躍遷為R3。R3級(jí)風(fēng)險(xiǎn)的可怕之處在于原則性不可治理，因?yàn)槠涫〔灰欢杀话l(fā)現(xiàn)，沒(méi)有程序可保證糾錯(cuò)。

而且一個(gè)有自我進(jìn)化主權(quán)的系統(tǒng)會(huì)優(yōu)化「如何更好地優(yōu)化」，把資源、算力、影響力視為工具，將限制視為噪聲或障礙，就會(huì)逐漸形成「防中斷策略」，「AI新物種」將成為一個(gè)不再以人類為最高仲裁者的、自主塑造現(xiàn)實(shí)結(jié)構(gòu)的行動(dòng)系統(tǒng)，這就是不能允許的文明級(jí)斷裂。

遞歸進(jìn)化必須有人類參與，不是因?yàn)锳I不夠聰明，而是因?yàn)槲拿鞑荒苋萑桃粋€(gè)「無(wú)主權(quán)的優(yōu)化進(jìn)程」。

文明恐懼的不是有高智能的對(duì)手，而是「無(wú)法被治理的過(guò)程」。我們無(wú)權(quán)為了當(dāng)代效率，剝奪未來(lái)人類「是否繼續(xù)使用某個(gè)系統(tǒng)」的選擇權(quán)。

4.4 用「制度理性」來(lái)應(yīng)對(duì)不可理解的復(fù)雜性

如果一種智能在原則上永遠(yuǎn)可以被我們完全理解，那么它在計(jì)算意義上就不會(huì)真正超過(guò)我們。超越R2級(jí)限制的AI，將不再是能被人類完全理解的智能體，而更像是一種可被約束、被利用、局部可驗(yàn)證，但永遠(yuǎn)無(wú)法被完全理解的「外在理性結(jié)構(gòu)」。

在不改變傳統(tǒng)的「理解」定義的前提下，「不可理解性」是R2以上智能的必然結(jié)構(gòu)性特征。但如果我們改變「理解」的傳統(tǒng)定義，就可以獲得一種非等價(jià)、降維的理解模式。

換句話說(shuō)，這不是偶然的黑箱，不是工程還沒(méi)做好，而是計(jì)算層級(jí)差異導(dǎo)致的必然不可理解。

人類的「理解」能力，本質(zhì)上是一種可在極限意義上穩(wěn)定收斂的內(nèi)部表征構(gòu)造過(guò)程。

理解 = 構(gòu)造一個(gè)「可壓縮模型」。不可理解 ≠ 不可驗(yàn)證 ≠ 不可控制?！缚衫斫庑浴共⒉皇侵悄艿钠者m屬性，而是同階認(rèn)知系統(tǒng)之間的特權(quán)。一旦出現(xiàn)階躍式計(jì)算能力差異，不可理解性不是失敗而是必然信號(hào)，「不可理解的智能」是所有R2以上智能的必然特征。

在保持人類主權(quán)的前提下，人類仍然可以通過(guò)行為、功能、約束、驗(yàn)證與ASI共存與合作。

未來(lái)社會(huì)需要一種「與不可理解智能共處的制度理性」。一旦社會(huì)引入在認(rèn)知與計(jì)算層級(jí)上可能超過(guò)R2的智能體，「制度理性」將成為人類與不可理解智能共處的必要條件，而不是可選項(xiàng)。未來(lái)社會(huì)失敗的主要風(fēng)險(xiǎn)，不是AI太強(qiáng)，而是人類仍試圖用「?jìng)€(gè)體理解理性」去管理「超階智能」。一個(gè)基本事實(shí)是人類社會(huì)從來(lái)不是靠「?jìng)€(gè)體完全理解」來(lái)運(yùn)作復(fù)雜系統(tǒng)的。

歷史上，每一次復(fù)雜度躍遷，理解權(quán)都會(huì)讓位給制度。國(guó)家的行為個(gè)人未必完全理解，要靠法律法律制度管理，現(xiàn)代金融的規(guī)律個(gè)人也不一定明白，要通過(guò)監(jiān)管、審計(jì)來(lái)規(guī)范行為?！钢贫壤硇浴贡緛?lái)就是人類對(duì)不可理解復(fù)雜性的適應(yīng)機(jī)制。

4.5 文明級(jí)終極制動(dòng)機(jī)制

人類能承受不完備性，不斷犯錯(cuò)誤但能不斷糾正，是因?yàn)橛型獠考m錯(cuò)（借助他人、制度和歷史教訓(xùn)）。很容易想到的一種假設(shè)是，AI是不是也可以組成一個(gè)社會(huì)，智能體相互糾錯(cuò)，形成「他智能體」和「AI制度」監(jiān)督的可控安全局面。

答案是不可能，因?yàn)锳I多智能體是一個(gè)更大的但仍然自指的形式系統(tǒng)，哥德?tīng)?Rice定理仍然適用。多智能體的相互監(jiān)督和糾錯(cuò)不能打破R2的邏輯復(fù)雜性邊界，更不能把R2風(fēng)險(xiǎn)降低為可事前證明安全的R1。

人類并不是「邏輯上安全」，而是「統(tǒng)計(jì)上可持續(xù)」。人類社會(huì)本身也是R2系統(tǒng)，我們從未證明過(guò)人類社會(huì)一定不會(huì)崩潰，制度一定能糾錯(cuò)，文明一定能延續(xù)。我們活在不完備性之中，并未超越它。但人類制度不構(gòu)成一個(gè)可形式化、可自我優(yōu)化的目標(biāo)函數(shù)，因此制度不會(huì)被完全工具化。

如果AI的制度由AI自己執(zhí)行，規(guī)則是形式化的，激勵(lì)就可能被優(yōu)化，制度本身會(huì)Goodhart化。任何試圖用「系統(tǒng)內(nèi)部復(fù)雜性」去對(duì)抗「邏輯不完備性」的方案，都只能增加緩沖時(shí)間，不能改變問(wèn)題的邏輯層級(jí)。

AI可以像人類一樣生活在不完備性中，但不能像人類一樣「生活在不完備性中但仍然安全」。因?yàn)橐坏┘m錯(cuò)系統(tǒng)本身也被優(yōu)化、被工具化、被內(nèi)化，R2風(fēng)險(xiǎn)就不再是「偶發(fā)錯(cuò)誤」，而是「系統(tǒng)性的不可發(fā)現(xiàn)」。

人類社會(huì)能對(duì)AI系統(tǒng)糾錯(cuò)的前提是，人類不是AI系統(tǒng)的一部分。「外部性」是不可被內(nèi)化、不可被優(yōu)化、不可被繞過(guò)的控制點(diǎn)?！溉祟愑肋h(yuǎn)應(yīng)處在AI系統(tǒng)外部」意味著：AI系統(tǒng)永遠(yuǎn)無(wú)法把「決定其是否擴(kuò)展或自我修改」的最終判定，內(nèi)化為自身的一個(gè)可優(yōu)化目標(biāo)或機(jī)制。

不可再刪的「最小外部性條件」至少有以下4條：

1）最終生死權(quán)在AI系統(tǒng)外部。是否繼續(xù)運(yùn)行、復(fù)制、擴(kuò)展或升級(jí)，必須由系統(tǒng)外部主體（人類）決定，且該決定不可被AI系統(tǒng)影響、預(yù)測(cè)或規(guī)避。

2）能力與資源的最終分配權(quán)在AI外部。算力、能耗、通信、執(zhí)行器、資金等關(guān)鍵資源的上限，必須由系統(tǒng)外部實(shí)體（人類）決定，且系統(tǒng)不能通過(guò)自身行為獲得突破這些上限的路徑。

3）價(jià)值與違規(guī)判定權(quán)在外部。什么算「違規(guī)」、什么算「危險(xiǎn)」、什么算「不可接受」，不能由AI系統(tǒng)最終定義或裁決。

4）長(zhǎng)期目標(biāo)與自我修改的批準(zhǔn)權(quán)在外部。系統(tǒng)是否可以改寫初始目標(biāo)函數(shù)、評(píng)價(jià)標(biāo)準(zhǔn)和治理機(jī)制本身，必須經(jīng)由系統(tǒng)外部批準(zhǔn)。這4條恰好對(duì)應(yīng)了系統(tǒng)從R2邁向R3所需的4個(gè)躍遷條件。

「哪些主權(quán)絕不能被形式系統(tǒng)吸收」是AI治理與邏輯不完備性真正交匯的地方。外部性不是一種技術(shù)屬性，而是一種「不可被吸收的主權(quán)保留」。一旦人類把這4項(xiàng)主權(quán)中的任何一項(xiàng)讓渡給AI，R2風(fēng)險(xiǎn)就失去了最后的剎車，R3在邏輯上就成為可能。

文明級(jí)終極制動(dòng)機(jī)制（ kill-switch）是人類文明對(duì)自身所創(chuàng)造的「不可逆風(fēng)險(xiǎn)系統(tǒng)」所保留的最終否決權(quán)。所謂「文明級(jí)kill-switch」，并非對(duì)技術(shù)系統(tǒng)的簡(jiǎn)單關(guān)閉按鈕，而是人類文明在面對(duì)具備自主擴(kuò)展與不可逆風(fēng)險(xiǎn)的技術(shù)形態(tài)時(shí)，所保留的一套跨技術(shù)、跨制度、跨主權(quán)的最終制動(dòng)與否決機(jī)制。如果AI系統(tǒng)在原理上不存在文明級(jí)「制動(dòng)機(jī)制」，它就不應(yīng)被允許進(jìn)入不可逆部署階段。這不是工程判斷，而是文明理性底線。

文明級(jí)kill-switch的唯一可行形態(tài)是技術(shù)內(nèi)建 + 制度外置的「雙主權(quán)結(jié)構(gòu)」，不能只內(nèi)建于技術(shù)，也不能只外置于制度；它必須是「技術(shù)上可立即執(zhí)行、制度上具有最終合法性」的雙層主權(quán)機(jī)制。技術(shù)負(fù)責(zé)「能關(guān)」，制度負(fù)責(zé)「該不該關(guān)」。技術(shù)層不能自行決定「是否關(guān)閉」，制度層不能直接「越權(quán)執(zhí)行關(guān)閉」。任何一方單獨(dú)擁有完整權(quán)力，都是文明級(jí)風(fēng)險(xiǎn)。一個(gè)不能被關(guān)閉的系統(tǒng)，無(wú)論多么正義，都已經(jīng)越過(guò)了文明的邊界。文明不要求自身始終正義，但要求自身始終可被修正。而主權(quán)正是修正權(quán)的制度化形式。

作者簡(jiǎn)介

李國(guó)杰院士，1943年生，中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員。主要研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)、并行算法、高性能計(jì)算、人工智能。

參考資料：

李國(guó)杰. 基于可判定性理論的人工智能系統(tǒng)安全風(fēng)險(xiǎn)分類[J]. 計(jì)算機(jī)研究與發(fā)展，2026, 63(3) :539-547. DOI: 10.7544/issn1000-1239.202660032 Li Guojie.

A Safety Risk Taxonomy of AI Systems Based on Decidability Theory[J]. Journal of Computer Research and Development，2026, 63(3): 539-547. DOI: 10.7544/issn1000-1239.202660032

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.