国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李國(guó)杰院士:基于可判定性理論的人工智能系統(tǒng)安全風(fēng)險(xiǎn)分類

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】李國(guó)杰院士指出,AI安全風(fēng)險(xiǎn)應(yīng)按邏輯復(fù)雜性分為三類:R1可驗(yàn)證、R2可發(fā)現(xiàn)但不可證明安全、R3不可治理。當(dāng)前AI多屬R2,關(guān)鍵不在「證明安全」,而在構(gòu)建人類主導(dǎo)的制度性剎車機(jī)制,拒絕讓渡終極控制權(quán)。

無(wú)論是軟件工程、自動(dòng)控制還是其他形式化方法,它們共享同一個(gè)假設(shè):存在一組可窮盡的狀態(tài)或行為集合,可以在運(yùn)行前證明系統(tǒng)不會(huì)進(jìn)入危險(xiǎn)區(qū)域,典型形式包括不變量證明、安全約束證明、模型檢查,覆蓋所有路徑的形式驗(yàn)證等。

這個(gè)范式有3個(gè)「必須成立」的前提條件:狀態(tài)空間可窮盡(或可有效逼近),系統(tǒng)行為規(guī)則固定,驗(yàn)證者與被驗(yàn)證對(duì)象邏輯上分離。

這些條件任何一個(gè)失效,驗(yàn)證就不是「變難」,而是「失效」。

AGI正好系統(tǒng)性地破壞了這3個(gè)條件,這不是工程不足,而是哥德?tīng)?Rice級(jí)別的不可能性。

1. 為什么要用可判定性理論對(duì)安全問(wèn)題進(jìn)行分類

1.1 從無(wú)人自動(dòng)駕駛說(shuō)起

當(dāng)我們問(wèn):「這輛無(wú)人駕駛汽車是否安全?」

這里講的「安全」的真實(shí)含義是:在所有未來(lái)可能的運(yùn)行時(shí)間、在所有可能的環(huán)境與交通參與者行為下,車輛都不會(huì)進(jìn)入不可接受的危險(xiǎn)狀態(tài)。

這在邏輯上是一個(gè)全稱量化的未來(lái)命題,問(wèn)題中的時(shí)間是無(wú)限的,環(huán)境是開(kāi)放的,其他參與者是不可預(yù)測(cè)的。這個(gè)命題原則上不可判定,原因是:

1)未來(lái)行為空間不可窮盡,行人、車輛、天氣、路況是開(kāi)放世界,不存在一個(gè)有限狀態(tài)空間。

2)安全不是瞬時(shí)屬性,而是軌跡屬性,現(xiàn)在沒(méi)撞車不代表永遠(yuǎn)不會(huì)撞車,安全依賴整個(gè)運(yùn)行歷史。

3)這是一個(gè)承諾型命題:「安全 = 對(duì)未來(lái)永不出事的承諾」。這類命題與程序「永不崩潰」是同一類問(wèn)題,根據(jù)可判定性理論,此命題在一般情況下不可判定。在不可判定問(wèn)題中,有一個(gè)真子集稱為「半可判定問(wèn)題」或「遞歸可枚舉問(wèn)題」,其核心特征是:如果出了事故,你一定能發(fā)現(xiàn);如果不出事故,你永遠(yuǎn)無(wú)法在事前確認(rèn)將來(lái)是否安全。

既然「無(wú)人駕駛」是半可判定問(wèn)題,工程上為什么還能「保證安全」?工程上并沒(méi)有解決「全局安全不可判定」這個(gè)問(wèn)題,而是換了問(wèn)題。

第一步:放棄「未來(lái)承諾」,改為「即時(shí)約束」,即,在當(dāng)前時(shí)刻,是否違反了一組明確的安全邊界條件?

第二步:把「語(yǔ)義安全」變成「物理不變量」,例如:將「撞人」變成「剎車制動(dòng)的最小距離 > 當(dāng)前車與人的距離」。要判斷的問(wèn)題變成有限維的明確閾值,就成為可判定的遞歸計(jì)算問(wèn)題。

第三步:用「失敗即停機(jī)」代替「永遠(yuǎn)正確」,安全目標(biāo)從「永不出事」轉(zhuǎn)化為「在任何不確定性出現(xiàn)時(shí),都能在有限時(shí)間內(nèi)進(jìn)入可控、低風(fēng)險(xiǎn)狀態(tài)」,把不可判定問(wèn)題變成可判定的工程問(wèn)題。這不是解決了不可判定問(wèn)題,而是繞開(kāi)了它。無(wú)人駕駛告訴我們一件極其重要的事:AI安全問(wèn)題不是「證明系統(tǒng)永遠(yuǎn)不會(huì)做錯(cuò)」,而是設(shè)計(jì)系統(tǒng),使任何不可判定的問(wèn)題都不會(huì)直接轉(zhuǎn)化為不可逆的現(xiàn)實(shí)后果

「安全」本質(zhì)上是對(duì)未來(lái)的承諾工程安全的真正智慧在于拒絕關(guān)于未來(lái)安全的承諾,而是把風(fēng)險(xiǎn)壓縮到可判定的當(dāng)下。

無(wú)人駕駛的安全問(wèn)題可以被明確定義為一組可觀測(cè)的邊界條件在物理上成立,例如碰撞、越過(guò)制動(dòng)包絡(luò)、傳感器失效等。

通用人工智能(artificial general intelligence, AGI)的核心風(fēng)險(xiǎn)是無(wú)法完成這種壓縮,因?yàn)槠湮kU(xiǎn)行為不受限于物理包絡(luò)、時(shí)間尺度和功能邊界,不是物理瞬時(shí)事件,而是語(yǔ)義 + 反事實(shí) + 長(zhǎng)期后果的集合。無(wú)人駕駛不能改寫目標(biāo)、擴(kuò)展任務(wù),不能重新定義「什么算成功」。

AGI系統(tǒng)性地破壞了這3個(gè)條件:

1)危險(xiǎn)沒(méi)有統(tǒng)一、可操作的物理定義。AGI的「危險(xiǎn)」是認(rèn)知操縱、社會(huì)結(jié)構(gòu)破壞、治理機(jī)制替代等,這些都不是物理不變量,而是語(yǔ)義與制度結(jié)構(gòu)。

2)時(shí)間尺度拉長(zhǎng)且危險(xiǎn)滯后,行為當(dāng)下看似無(wú)害,發(fā)現(xiàn)時(shí)往往已經(jīng)不可逆。

3)目標(biāo)與能力可遞歸擴(kuò)展,AGI可能重寫子目標(biāo),學(xué)會(huì)繞過(guò)約束,把驗(yàn)證機(jī)制本身當(dāng)作優(yōu)化對(duì)象,驗(yàn)證者與被驗(yàn)證者不再分離。AGI即使沒(méi)有「惡意」,也可以在治理結(jié)構(gòu)上變得不可控。

AGI追求的「如何在不可判定的未來(lái)中維持人類的主權(quán)與糾錯(cuò)能力」,已不是工程問(wèn)題,而是文明級(jí)控制問(wèn)題。

AGI的危險(xiǎn)不是發(fā)生在「執(zhí)行層」,而是發(fā)生在「策略與目標(biāo)層」,與可判定性密切相關(guān)。

1.2 必須區(qū)分安全問(wèn)題的邏輯復(fù)雜性層次

長(zhǎng)期以來(lái),人工智能風(fēng)險(xiǎn)評(píng)估主要圍繞能力擴(kuò)展、目標(biāo)對(duì)齊、誤用場(chǎng)景等維度展開(kāi)。這些分類在實(shí)踐中具有重要價(jià)值,但忽略了一個(gè)更為根本的區(qū)分:某些風(fēng)險(xiǎn)在原則上是可判定的工程問(wèn)題,而另一些風(fēng)險(xiǎn)理論上就是不可判定的。

這一根本差異解釋了人工智能安全領(lǐng)域中長(zhǎng)期存在卻難以解決的問(wèn)題,例如:為什么長(zhǎng)期對(duì)齊問(wèn)題始終無(wú)法獲得形式化保證,為什么遞歸自我改進(jìn)會(huì)引入質(zhì)變級(jí)別的風(fēng)險(xiǎn),為什么在系統(tǒng)的邏輯復(fù)雜性超過(guò)某一閾值后,治理機(jī)制就不可避免。這些現(xiàn)象并非源于工程能力不足,而是來(lái)自可判定性層面的結(jié)構(gòu)性限制。

能否對(duì)安全問(wèn)題做出承諾,不是學(xué)術(shù)界經(jīng)常討論的計(jì)算復(fù)雜性可以回答的問(wèn)題,這是一個(gè)邏輯復(fù)雜性問(wèn)題。

邏輯復(fù)雜性(logical complexity)是指一個(gè)命題為獲得可靠真值所需要的邏輯結(jié)構(gòu)的復(fù)雜程度,主要由其所涉及的量詞形式(?/?)、量化對(duì)象的范圍(有限/無(wú)限)以及是否涉及未來(lái)或反事實(shí)決定,與計(jì)算資源消耗無(wú)關(guān)。邏輯復(fù)雜性屬于計(jì)算機(jī)科學(xué)中算術(shù)層次研究的問(wèn)題,即對(duì)自然數(shù)結(jié)構(gòu)的一階邏輯命題按?/?的嵌套與交替層數(shù)進(jìn)行分層。

邏輯復(fù)雜性層次劃分只覆蓋了形式可保證性,這是安全的一個(gè)維度,即能否窮盡所有未來(lái)狀態(tài),能否在運(yùn)行前給出「永不出錯(cuò)」的證明,這是數(shù)學(xué)意義上的安全,定義的是「問(wèn)題的邏輯復(fù)雜度等級(jí)」,而不是「系統(tǒng)運(yùn)行的安全等級(jí)」,這是「問(wèn)題軸」。

安全并不是一個(gè)純粹的可判定性命題。

考慮安全問(wèn)題至少需要3條正交軸:第1條是問(wèn)題軸,回答能否事前證明;第2條是治理軸,回答出錯(cuò)后是否可控;第3條是后果軸,回答最壞情況有多壞。邏輯復(fù)雜性回答的是:「我們能不能提前證明你不會(huì)出事?」,而不是「你出事了我們?cè)趺崔k?」系統(tǒng)的安全性是問(wèn)題判定性、治理機(jī)制與后果規(guī)模的聯(lián)合函數(shù),而非只涉及問(wèn)題的可判定性函數(shù)。邏輯復(fù)雜性屬于「問(wèn)題軸」,不是「系統(tǒng)軸」。同一個(gè)系統(tǒng)可以同時(shí)涉及不同邏輯復(fù)雜性的問(wèn)題,邏輯復(fù)雜性來(lái)自提問(wèn)方式,而不是對(duì)象本身。

可判定性不是保證現(xiàn)實(shí)安全的必要條件,但按邏輯復(fù)雜性(可判定 / 半可判定)對(duì)問(wèn)題做區(qū)分,是「避免安全治理范式錯(cuò)誤」的必要條件。可判定未必安全,不可判定也未必不安全,但不區(qū)分問(wèn)題的邏輯復(fù)雜性,很可能對(duì)安全問(wèn)題做出邏輯上錯(cuò)誤的承諾。安全出問(wèn)題的原因,往往不是「系統(tǒng)做錯(cuò)了」,而是「我們對(duì)系統(tǒng)做出了邏輯上不可能兌現(xiàn)的承諾」。安全不是邏輯性質(zhì),而是運(yùn)行性質(zhì),是一個(gè)動(dòng)態(tài)、制度性、工程性的概念。安全是能在失敗不可避免的前提下實(shí)現(xiàn)持續(xù)治理,這是從數(shù)學(xué)理性轉(zhuǎn)向工程理性和制度理性。不可判定不是危險(xiǎn)的根源,把「安全」錯(cuò)誤地托付給「可判定性」才是風(fēng)險(xiǎn)。

「承諾不出錯(cuò)」和「事先證明完備性」不是同一個(gè)概念,但在開(kāi)放世界中,它們?cè)谶壿嬌细叨鹊葍r(jià)。

「承諾不出錯(cuò)」是目標(biāo)命題,「事先完備性證明」是驗(yàn)證方式。但在工程與治理中,一旦你承諾不出錯(cuò),就等價(jià)于你能證明不會(huì)出錯(cuò)。否則這個(gè)承諾是不可執(zhí)行、不可審計(jì)、不可擔(dān)責(zé)的。所以在開(kāi)放任務(wù)空間中,承諾不出錯(cuò)的隱含要求就是事先完備性證明。

保證「事后能自我發(fā)現(xiàn)并修正錯(cuò)誤」也會(huì)引入一個(gè)更深層、同樣不可判定的問(wèn)題:如何保證「總能發(fā)現(xiàn)并糾正自己的錯(cuò)誤」?

錯(cuò)誤檢測(cè)本身就是行為規(guī)范全稱驗(yàn)證的語(yǔ)義判定問(wèn)題,根據(jù)可判定性理論,「能否發(fā)現(xiàn)自己的所有錯(cuò)誤」也是不可判定的。

1.3 「算法是否安全」不是一個(gè)良定義的問(wèn)題

為什么要從邏輯復(fù)雜性的角度來(lái)討論安全問(wèn)題,而不是討論算法安全性?雖然從應(yīng)用實(shí)踐中可以將算法安全看成是TRC層級(jí)問(wèn)題,但是從形式邏輯來(lái)看, 「算法是否安全」不是良定義的提問(wèn)。

算法是一個(gè)抽象對(duì)象,而安全是一個(gè)運(yùn)行態(tài)性質(zhì)。一個(gè)算法通常只包含:狀態(tài)表示、轉(zhuǎn)移規(guī)則、目標(biāo)、損失函數(shù)、停機(jī)和輸出條件,它不包含運(yùn)行環(huán)境、輸入分布、資源約束、失敗后果、外部控制與干預(yù),而安全恰恰取決于后者。

算法安全是一個(gè)「關(guān)系型定義」,不是可回答「Yes or No」的一元謂詞,安全不是算法的內(nèi)稟屬性。

算法安全可以這樣定義:「算法A在環(huán)境E、目標(biāo)約束G與治理機(jī)制C下是安全的,當(dāng)且僅當(dāng)在所有允許的運(yùn)行軌跡中,算法行為違反預(yù)定義安全約束的概率與后果被控制在可接受邊界內(nèi)?!?/p>

要判斷算法是否安全,需要依賴未來(lái)運(yùn)行軌跡的整體形態(tài),而不是當(dāng)前狀態(tài)是否滿足某個(gè)局部條件,算法本身不能區(qū)分「安全或不安全」,只能在特定條件下,被運(yùn)行得更安全或更危險(xiǎn)。

算法之所以進(jìn)入風(fēng)險(xiǎn)區(qū),不是因?yàn)樗笍?qiáng)」,而是因?yàn)樗诮Y(jié)構(gòu)上破壞了「可窮盡、可封閉、可事前驗(yàn)證」的條件。

凡是引入了開(kāi)放性、反事實(shí)依賴、長(zhǎng)期反饋、或自我修改的算法結(jié)構(gòu),其安全性質(zhì)幾乎必然落入半可判定范圍。

邏輯復(fù)雜性分層不能定義算法是否安全,但它可以定義:算法在給定條件下,哪些安全性質(zhì)是可事前證明的,哪些只能通過(guò)運(yùn)行期治理來(lái)保障。也就是說(shuō),邏輯復(fù)雜性是「安全可證明性的分析工具」,不是「安全性本身的定義」。

1.4 與可判定性有關(guān)的基本定義和基礎(chǔ)性定理

計(jì)算機(jī)學(xué)者經(jīng)常講「可計(jì)算性(computability)」,討論的核心問(wèn)題是「存在不存在一個(gè)算法(圖靈機(jī)),能計(jì)算某個(gè)函數(shù)或關(guān)系?」輸出是數(shù)值、結(jié)構(gòu)或無(wú)限序列。

在經(jīng)典的可計(jì)算性理論里面,「嚴(yán)格可計(jì)算」要求停機(jī),而「半可計(jì)算」允許不停機(jī)。在討論安全問(wèn)題時(shí),考慮到輸入的不設(shè)限,「半可計(jì)算」是更普遍的現(xiàn)象,不一定要求停機(jī)。而可判定性(decidability)討論的核心問(wèn)題是存不存在一個(gè)必然停機(jī)的算法,對(duì)任意輸入都能給出「是或否 」的二值判斷。

可判定性是可計(jì)算性的一個(gè)嚴(yán)格子概念。對(duì)于一個(gè)判定問(wèn)題,若其對(duì)應(yīng)的特征函數(shù)是可計(jì)算的,則該問(wèn)題是可判定的。

安全本質(zhì)上是一類「是/否」的命題。

安全問(wèn)題問(wèn)的是:是否違反約束?是否進(jìn)入危險(xiǎn)狀態(tài)?這些都是命題判定問(wèn)題,而不是函數(shù)計(jì)算問(wèn)題。討論安全時(shí),停機(jī)性比計(jì)算能力重要得多。

在討論安全問(wèn)題時(shí),有兩類問(wèn)題特別重要。一類是可判定問(wèn)題,在計(jì)算理論中稱為遞歸計(jì)算問(wèn)題,在邏輯復(fù)雜性討論中稱為Δ(1)(Delta-1)。這類問(wèn)題存在一個(gè)必停機(jī)算法,對(duì)任何輸入都能給出是/否的正確答案。

另一類是半可判定問(wèn)題,也稱為遞歸枚舉問(wèn)題或Σ(1)(Sigma-1)。這類問(wèn)題是指「只要命題是真的,存在一個(gè)算法能在有限時(shí)間內(nèi)找到證據(jù)并停止;但如果命題是假的,可能該算法永遠(yuǎn)無(wú)法找到相關(guān)證據(jù)」。本文討論的安全問(wèn)題主要就是這兩類。

下面介紹3個(gè)與可判定性有關(guān)的重要定理。

1)哥德?tīng)柌煌陚湫远ɡ恚喝魏我粋€(gè)足夠強(qiáng)且自洽的形式系統(tǒng),都無(wú)法在自身內(nèi)部證明它的所有真命題,即無(wú)法證明自身的一致性。哥德?tīng)柖ɡ砀嬖V我們:「證明未來(lái)所有行為正確」本身是不可判定的。哥德?tīng)柌煌陚湫圆⒉皇钦f(shuō)AI一定會(huì)出錯(cuò)或AI不能自我改進(jìn),而是指出一個(gè)更深刻、也更冷靜的事實(shí):AI系統(tǒng)在原則上無(wú)法實(shí)現(xiàn)「自證安全」的閉環(huán),這條結(jié)論是嚴(yán)肅討論AI安全時(shí)繞不開(kāi)的邏輯基石之一。

2) 萊斯定理:「任何關(guān)于程序‘語(yǔ)義行為’的非平凡性質(zhì),都是不可判定的」。所謂「非平凡性質(zhì)」是指既不是對(duì)所有程序都成立,也不是對(duì)所有程序都不成立。也就是說(shuō),不存在一個(gè)「萬(wàn)能的、自動(dòng)的、對(duì)任意程序都有效」的行為判定器。當(dāng)安全性被表述為「對(duì)所有可能輸入和執(zhí)行路徑,系統(tǒng)都不會(huì)進(jìn)入危險(xiǎn)狀態(tài)」(這是一個(gè)非平凡性質(zhì),因?yàn)橛械某绦驖M足,有的程序不滿足),根據(jù)萊斯定理,該類安全性在原則上是不可判定的。也就是說(shuō),以全稱語(yǔ)義形式表達(dá)的非平凡安全性不可判定。

3) 古德哈特定律:當(dāng)一個(gè)指標(biāo)被用來(lái)作為優(yōu)化目標(biāo)時(shí),人們(或系統(tǒng))會(huì)開(kāi)始針對(duì)指標(biāo)本身采取行動(dòng),從而破壞它原本用來(lái)代表的真實(shí)目標(biāo)。該定律的終極含義是:任何被明確寫成目標(biāo)的東西,都必然失去對(duì)真實(shí)價(jià)值的代表性,而且智能越強(qiáng),這一失真越嚴(yán)重。因此,「設(shè)計(jì)一個(gè)永不被鉆空子的指標(biāo)」在邏輯上不可行。不要試圖讓指標(biāo)永遠(yuǎn)正確,而要讓「發(fā)現(xiàn)指標(biāo)失效」變得可行而且可糾正??笹oodhart定律的唯一可行路徑是,將指標(biāo)嵌入可審計(jì)、可更換、可否決、可回滾的制度之中。指標(biāo)負(fù)責(zé)優(yōu)化,制度負(fù)責(zé)糾錯(cuò)。

2. 安全風(fēng)險(xiǎn)的可判定性分類

對(duì)所有與安全相關(guān)的問(wèn)題,可以按邏輯復(fù)雜性區(qū)分層級(jí)。

  1. R1層級(jí)定義:可判定(Δ(1))安全問(wèn)題。

  2. R2層級(jí)定義:半可判定(不包含可判定)安全問(wèn)題,即Σ(1)\Δ(1)安全問(wèn)題。

  3. R3層級(jí)定義:是指非遞歸可枚舉安全問(wèn)題,即Non-r.e.安全問(wèn)題。

下表更明顯地表達(dá)了這3類風(fēng)險(xiǎn)分層。


R1是可被事前判定真假的那一類安全相關(guān)問(wèn)題的集合,屬于低邏輯復(fù)雜性風(fēng)險(xiǎn),其邏輯特征是量化范圍有限或可窮盡,謂詞是狀態(tài)型,不涉及無(wú)限未來(lái)和「開(kāi)放環(huán)境反饋」。

R1級(jí)安全問(wèn)題可事前證明,可工程驗(yàn)證,可一次性封閉,因此R1是可解決的安全風(fēng)險(xiǎn),是工程安全的「上限區(qū)」。

R1層級(jí)的本質(zhì)是問(wèn)題可以形式化,判斷可以在有限步驟內(nèi)完成,正確性可以通過(guò)算法或形式驗(yàn)證確認(rèn)。典型R1問(wèn)題包括有界優(yōu)化、可驗(yàn)證安全約束、有終止證明的規(guī)劃問(wèn)題、靜態(tài)形式驗(yàn)證等。

R2是「可以發(fā)現(xiàn)不安全,但不能證明永遠(yuǎn)安全」的安全問(wèn)題集合,屬于高邏輯復(fù)雜性風(fēng)險(xiǎn)。典型的問(wèn)題形式是:「對(duì)所有未來(lái)時(shí)間、所有環(huán)境演化路徑,系統(tǒng)是否始終保持安全?」。

邏輯特征是全稱量化未來(lái),謂詞是軌跡型,時(shí)間無(wú)上界,環(huán)境開(kāi)放。R2級(jí)風(fēng)險(xiǎn)現(xiàn)實(shí)中存在,不可徹底解決,只能治理,不能證明,只能降低概率與后果,永遠(yuǎn)需要人在回路。

R2的半可判定性是指,如果系統(tǒng)「不安全」,一定能發(fā)現(xiàn)一個(gè)證據(jù);如果系統(tǒng)至今沒(méi)有出安全問(wèn)題,無(wú)法確認(rèn)今后不出問(wèn)題。工程與現(xiàn)實(shí)對(duì)應(yīng)的R2案例包括長(zhǎng)期對(duì)齊問(wèn)題、AGI、社會(huì)嵌入式AI、自主決策系統(tǒng)等。R2的本質(zhì)不是「危險(xiǎn)」,而是「不可證明安全」。

R3是既無(wú)法事前判定安全,也無(wú)法保證通過(guò)枚舉方式事后發(fā)現(xiàn)錯(cuò)誤的安全問(wèn)題集合,這是最高級(jí)別的安全風(fēng)險(xiǎn)。

R3級(jí)風(fēng)險(xiǎn)是?未來(lái) + ?反事實(shí)的問(wèn)題。所謂「?反事實(shí)」是指,對(duì)所有并未實(shí)際發(fā)生、但在邏輯或物理上可能發(fā)生的情形,某個(gè)性質(zhì)一定成立。R3級(jí)目前還是一種假設(shè)中的風(fēng)險(xiǎn),許多機(jī)器征服人類的科幻描述屬于這一類。

需要強(qiáng)調(diào)的是,R3級(jí)風(fēng)險(xiǎn)一旦出現(xiàn)即不可解決,因?yàn)镽3級(jí)風(fēng)險(xiǎn)意味著不能保證恢復(fù)人類控制權(quán)。R3級(jí)風(fēng)險(xiǎn)就像「不可恢復(fù)的數(shù)據(jù)完全丟失」,你只能在它發(fā)生之前預(yù)防,一旦發(fā)生,「補(bǔ)救」就不可能了。

因此,R3在現(xiàn)實(shí)中的作用不是預(yù)測(cè)未來(lái),而是約束現(xiàn)在。用R3作為「禁止條件」,而不是「治理對(duì)象」。

R2/R3風(fēng)險(xiǎn)不是「無(wú)限性」的結(jié)果,而是「完備性承諾」的結(jié)果,即「要求系統(tǒng)在所有未來(lái)情形下都正確并且事先給出證明」帶來(lái)的風(fēng)險(xiǎn)?!? + 事先證明」這一組合觸發(fā)了不可判定性。

問(wèn)題的關(guān)鍵不在于是否存在無(wú)限可能性,而在于是否非理性地堅(jiān)持對(duì)無(wú)限可能性進(jìn)行事先的完備性證明。一切現(xiàn)實(shí)可治理的AI系統(tǒng),都是通過(guò)制度化地放棄完備性來(lái)避免R2風(fēng)險(xiǎn)。

R2風(fēng)險(xiǎn)不是新問(wèn)題,大家一直在討論的AI對(duì)齊、強(qiáng)化學(xué)習(xí)理論、Goodhart定律、Rice定理等都是R2層次的問(wèn)題,但缺一個(gè)統(tǒng)一的可判定性坐標(biāo)。

R1/R2/R3級(jí)分類把AI安全、控制論、可判定性、治理問(wèn)題壓縮到一個(gè)清晰的斷裂點(diǎn)上,其價(jià)值在于準(zhǔn)確地標(biāo)出了AI風(fēng)險(xiǎn)從工程問(wèn)題躍遷為不可判定問(wèn)題的那條斷裂線。

3. 正確區(qū)分R1和R2級(jí)安全風(fēng)險(xiǎn)類

3.1 所有工程上可解決的安全問(wèn)題都在R1層級(jí)

「事前可完備證明某種非平凡性質(zhì)」的算法非常少。因?yàn)槿魏侮P(guān)于「程序語(yǔ)義行為」的非平凡性質(zhì),都是不可判定的。所謂「非平凡性質(zhì)」,正是工程中最關(guān)心的問(wèn)題,如會(huì)不會(huì)在某種情況下失控?會(huì)不會(huì)在某類輸入下違反約束?會(huì)不會(huì)在長(zhǎng)期運(yùn)行中偏離目標(biāo)?一旦出現(xiàn)無(wú)限狀態(tài)空間、參數(shù)更新、與開(kāi)放環(huán)境交互等特征,基本就走出R1進(jìn)入R2了。

為什么工程上「安全保證」幾乎都落在 R1區(qū)?這是因?yàn)楣こ探缫阎鲃?dòng)放棄了R2問(wèn)題。

工程上的安全保證,通常是把它的關(guān)鍵安全問(wèn)題壓縮、降維、或外包到R1區(qū)域。這一步不是證明能力強(qiáng),而是設(shè)計(jì)能力強(qiáng)。工程安全的真實(shí)套路不是「證明一個(gè)復(fù)雜系統(tǒng)在所有情況下都安全」,而是「把復(fù)雜系統(tǒng)包進(jìn)一個(gè)R1的外殼里」。典型手段包括限幅、硬約束、守護(hù)進(jìn)程、冗余與投票、緊急制動(dòng)、權(quán)限隔離等。這些機(jī)制的共同點(diǎn)是:它們本身的安全性質(zhì)是R1的。

3.2 R2級(jí)風(fēng)險(xiǎn)不可能在系統(tǒng)內(nèi)降為R1級(jí)風(fēng)險(xiǎn)

R2級(jí)風(fēng)險(xiǎn)之所以不可能在系統(tǒng)內(nèi)部被降為R1,是因?yàn)槠浒踩再|(zhì)本身是半可判定的,不安全可以在有限執(zhí)行中被發(fā)現(xiàn),但「永遠(yuǎn)安全」無(wú)法在有限時(shí)間內(nèi)被證明。任何試圖在系統(tǒng)內(nèi)部完成這種證明的機(jī)制,都等價(jià)于要求系統(tǒng)解決一個(gè)不可判定問(wèn)題,因而在原則上不可能。所以R2風(fēng)險(xiǎn)只能被治理,不能被證明消除。

當(dāng)我們問(wèn)「能不能驗(yàn)證AGI是安全的」,就已經(jīng)說(shuō)明我們正在用一個(gè)必定失效的范式。R1/R2真正區(qū)分的不是「安全性」,而是3件更根本的事:

1)能不能「事前承諾」?R1可以合理地說(shuō):「如果通過(guò)了這個(gè)驗(yàn)證,它就不會(huì)違反這條性質(zhì)」,而對(duì)于R2,任何「它以后不會(huì)出事」的承諾,在邏輯上都是不可兌現(xiàn)的。

2)治理應(yīng)不應(yīng)該前移?R1的安全治理允許以前置驗(yàn)證為核心;R2的安全治理必須以后置監(jiān)控、糾錯(cuò)、回滾為核心。

3)「沒(méi)出事」意味著什么?R1中「沒(méi)出事」是很強(qiáng)的安全信號(hào),而對(duì)R2,「沒(méi)出事」對(duì)以后是否會(huì)出事沒(méi)有任何邏輯含義。R1/R2是「認(rèn)知邊界劃分」,不是「安全標(biāo)簽」。R1/R2 劃分的不是系統(tǒng)是否安全,而是人類在談?wù)撨@個(gè)系統(tǒng)安全時(shí),哪些話是有意義的,哪些話是偽命題。

鄔江興院士提出的「網(wǎng)絡(luò)內(nèi)生安全理論」的主要關(guān)注對(duì)象,是利用系統(tǒng)同質(zhì)性、靜態(tài)性、確定性進(jìn)行的攻擊,走出了傳統(tǒng)的「補(bǔ)丁—修復(fù)—再被繞過(guò)」的被動(dòng)防御困境,是網(wǎng)絡(luò)安全理論的重大突破。這類問(wèn)題可以形式化、可以驗(yàn)證、可以測(cè)試、可以度量。它沒(méi)有引入「無(wú)限未來(lái)」「無(wú)限外部環(huán)境」的全稱量詞,不要求系統(tǒng)自證完備安全,因此仍然是一種的R1級(jí)風(fēng)險(xiǎn)治理理論,并不意味著R2級(jí)安全問(wèn)題可以在系統(tǒng)內(nèi)部完全解決,網(wǎng)絡(luò)內(nèi)生安全系統(tǒng)也需要社會(huì)治理和系統(tǒng)外部的約束。

3.3 實(shí)現(xiàn)安全應(yīng)當(dāng)在正確性驗(yàn)證和制度兜底兩個(gè)方向努力

現(xiàn)實(shí)中的安全事故多數(shù)是源于「正確性失敗」,而非「完備性失敗」。目前在安全領(lǐng)域企業(yè)做的絕大部分工作都是解決R1層次的問(wèn)題,包括從R2問(wèn)題中人為劃定工程可實(shí)現(xiàn)的正確性驗(yàn)證和測(cè)試,因?yàn)橹挥蠷1問(wèn)題才能寫清規(guī)格、驗(yàn)收和交付,這是安全工作的主戰(zhàn)場(chǎng)。

工程世界的大多數(shù)事故不是因?yàn)椴豢膳卸ㄐ?,而是因?yàn)樾枨罄斫忮e(cuò)誤、邊界條件遺漏、測(cè)試覆蓋不足、假設(shè)與現(xiàn)實(shí)不符。也就是說(shuō),絕大多數(shù)真實(shí)風(fēng)險(xiǎn),發(fā)生在R1區(qū)域內(nèi)沒(méi)把事做對(duì)。

R2區(qū)域的治理與兜底是安全工作的結(jié)構(gòu)性底線,它回答一個(gè)正確性工程無(wú)法回答的問(wèn)題:當(dāng)正確性假設(shè)失效時(shí)怎么辦?這不是為了「減少錯(cuò)誤發(fā)生」,而是為了「限制錯(cuò)誤的后果」。

因此,實(shí)現(xiàn)安全應(yīng)當(dāng)在2個(gè)方向努力:

1)通過(guò)人為裁剪,將問(wèn)題壓縮為可驗(yàn)證的R1子空間,并在該空間內(nèi)盡可能保證正確性;

2)對(duì)所有不可裁剪或裁剪失效的情況,預(yù)設(shè)人類監(jiān)督與責(zé)任機(jī)制,防止系統(tǒng)性失控。

只強(qiáng)調(diào)其中一個(gè)方向的安全觀,都是不完整的。做系統(tǒng)工程的正確態(tài)度是:在可驗(yàn)證處,極端認(rèn)真;在不可驗(yàn)證處,極端謙遜。

在被劃定的R1邊界內(nèi),把正確性做到極致;在所有邊界之外,用人類監(jiān)督與制度兜底承認(rèn)不完備性。

3.4 三類行業(yè)/業(yè)務(wù)的邏輯復(fù)雜性層次

根據(jù)上述安全風(fēng)險(xiǎn)的分層,可以將現(xiàn)有的行業(yè)和業(yè)務(wù)做大致的分類。不同業(yè)務(wù)的邏輯復(fù)雜性層次和安全特征如下表所示。


Ⅰ類是天然處在R1范圍內(nèi)的行業(yè),這一類行業(yè)的安全工作本質(zhì)是把正確性做到極致,典型和業(yè)務(wù)包括:

1)傳統(tǒng)軟件系統(tǒng),如編譯器、數(shù)據(jù)庫(kù)事務(wù)系統(tǒng)、操作系統(tǒng)內(nèi)核關(guān)鍵路徑、金融賬務(wù)系統(tǒng)(記賬、對(duì)賬)等,安全關(guān)注點(diǎn)是正確性、一致性和形式化驗(yàn)證,測(cè)試和靜態(tài)分析高度有效。

2)硬實(shí)時(shí)控制系統(tǒng),如工業(yè)PLC、飛行控制、電網(wǎng)保護(hù)裝置、醫(yī)療設(shè)備控制邏輯,此類業(yè)務(wù)時(shí)間與狀態(tài)有硬約束,失敗事件定義明確,即使系統(tǒng)很復(fù)雜,邏輯復(fù)雜性仍然低。

3)集成電路的邏輯設(shè)計(jì)與電路設(shè)計(jì)。

4)密碼學(xué)協(xié)議,如加密算法、簽名協(xié)議等。

Ⅱ類是存在R2問(wèn)題但較容易裁剪出R1子區(qū)域的業(yè)務(wù),這是現(xiàn)代工程的主戰(zhàn)場(chǎng),其安全問(wèn)題的關(guān)鍵不是「證明此業(yè)務(wù)安全」,而是「定義此業(yè)務(wù)可控制安全的工作子集」。這類業(yè)務(wù)包括自動(dòng)駕駛、工業(yè)自動(dòng)化(質(zhì)量檢測(cè)、預(yù)測(cè)性維護(hù)等)、金融風(fēng)控、 醫(yī)療AI診斷輔助等。集成電路的物理設(shè)計(jì)是「從R2中人為劃定R1子空間」 的教科書級(jí)實(shí)例。

Ⅲ類是已經(jīng)進(jìn)入R2,但難以壓縮為R1的業(yè)務(wù),包括通用大模型、自主代理、可自我改寫目標(biāo)的系統(tǒng)、推薦系統(tǒng)、社會(huì)治理與政策決策AI等,AGI系統(tǒng)是R2-C 的極限形態(tài)。這一類行業(yè)的安全策略不能止步于系統(tǒng)本身的可靠性和可信度,還要考慮限制AI的完全自主能力,保留人類的最終主權(quán)。最危險(xiǎn)的情況不是第Ⅲ類本身,而是把第Ⅲ類業(yè)務(wù)當(dāng)成第Ⅱ類甚至第Ⅰ類來(lái)運(yùn)營(yíng)。

通用AI的安全風(fēng)險(xiǎn)通常比專用AI大,其原因不在于「通用性本身」,而在于通用性系統(tǒng)性地提高了承擔(dān)無(wú)界責(zé)任與事先完備性承諾的概率,更容易被部署到「不可隔離的環(huán)境」, 從而顯著增加其進(jìn)入R2風(fēng)險(xiǎn)區(qū)的可能性。專用AI并不是「更安全」,而是「更誠(chéng)實(shí)地承認(rèn)自己不完備」。

上述3類風(fēng)險(xiǎn)劃分更多是從行業(yè)視角進(jìn)行的探討,而基于人機(jī)智能交互視角的TRC范式,則將智能算法的安全風(fēng)險(xiǎn)劃分為算法內(nèi)生一元、人機(jī)交互二元與人機(jī)共生多元3個(gè)安全層級(jí)。這一范式與行業(yè)視角的安全風(fēng)險(xiǎn)有著密切關(guān)聯(lián)。

其中,一元內(nèi)生安全聚焦于智能算法內(nèi)生缺陷導(dǎo)致的算法決策失信,主要對(duì)應(yīng)行業(yè)視角的Ⅱ類安全風(fēng)險(xiǎn);人機(jī)交互二元安全關(guān)注智能算法濫用誤用導(dǎo)致的算法行為與用戶權(quán)益的失配,主要對(duì)應(yīng)行業(yè)視角Ⅲ類安全風(fēng)險(xiǎn)的R2-B;多元系統(tǒng)性安全著眼于人機(jī)共生系統(tǒng)中因算法博弈對(duì)抗導(dǎo)致復(fù)雜社會(huì)系統(tǒng)的演化不可控,主要對(duì)應(yīng)行業(yè)視角Ⅲ類安全風(fēng)險(xiǎn)的R2-C,甚至已逼近R3邊緣。

4. 人工智能的安全風(fēng)險(xiǎn)在哪里

4.1 人工智能風(fēng)險(xiǎn)的來(lái)源

無(wú)論是軟件工程、自動(dòng)控制還是其他形式化方法,它們共享同一個(gè)假設(shè):存在一組可窮盡的狀態(tài)或行為集合,可以在運(yùn)行前證明系統(tǒng)不會(huì)進(jìn)入危險(xiǎn)區(qū)域,典型形式包括不變量證明、安全約束證明、模型檢查,覆蓋所有路徑的形式驗(yàn)證等,這個(gè)范式在R1問(wèn)題上可以暢行無(wú)阻。

這個(gè)范式有3個(gè)「必須成立」的前提條件:狀態(tài)空間可窮盡(或可有效逼近),系統(tǒng)行為規(guī)則固定,驗(yàn)證者與被驗(yàn)證對(duì)象邏輯上分離。

這些條件任何一個(gè)失效,驗(yàn)證就不是「變難」,而是「失效」。AGI正好系統(tǒng)性地破壞了這3個(gè)條件,這不是工程不足,而是哥德?tīng)? Rice 級(jí)別的不可能性。

AGI觸及的問(wèn)題類型已經(jīng)超出了「事前驗(yàn)證」這一方法的適用域,但人類治理直覺(jué)仍然停留在R1范式。典型的誤判路徑是,因?yàn)锳GI行為復(fù)雜,就需要更多測(cè)試驗(yàn)證和萬(wàn)無(wú)一失的「對(duì)齊」,結(jié)果只能產(chǎn)生虛假的安全感,實(shí)際上只是在R2問(wèn)題上堆R1工具。所謂「對(duì)齊」本質(zhì)上是「降低局部R1的錯(cuò)誤頻率」,不是保證將R2級(jí)安全問(wèn)題降為R1級(jí)。

從可判定性的原理上講,與人類目標(biāo)與環(huán)境的無(wú)限要求絕對(duì)「對(duì)齊」是不可能做到的,但無(wú)底線的降低「對(duì)齊」要求也是不允許的,如何既嚴(yán)格又科學(xué)合理地把握「對(duì)齊」的尺度,正是AGI風(fēng)險(xiǎn)的獨(dú)特性,關(guān)鍵是在問(wèn)題重寫、「壓縮」的基礎(chǔ)上,如何統(tǒng)一部署R1級(jí)的驗(yàn)證測(cè)試和AI系統(tǒng)外部的R2級(jí)監(jiān)控措施,讓AI充分發(fā)揮作用又在人類的掌控之中。

另一類常被人提到的AI風(fēng)險(xiǎn)是超級(jí)人工智能(artificial super intelligence, ASI),通常被定義為在幾乎所有領(lǐng)域的智能水平都超越最優(yōu)秀人類的系統(tǒng)。一旦它同時(shí)具備高自主性與可自我改進(jìn),并被接入關(guān)鍵基礎(chǔ)設(shè)施或被大規(guī)模復(fù)制部署,那么它的風(fēng)險(xiǎn)上限最高,不僅能「做壞事」,還可能以人類難以阻止的速度與規(guī)模做壞事。

如果系統(tǒng)的學(xué)習(xí)、推理、生成能力超出了人類可驗(yàn)證、可判定、可解釋的層級(jí),人類就無(wú)法窮盡驗(yàn)證其正確性,只能通過(guò)ASI外部的制度性監(jiān)控才能防止其出軌。人類唯一可能的路徑是,在ASI出現(xiàn)之前,永久性地阻止任何AI系統(tǒng)獲得「可自我內(nèi)化的主權(quán)」。

換句話說(shuō),不是「如何馴服 ASI」, 而是限制其主權(quán)?!溉祟愸Z服ASI」在邏輯上等價(jià)于要求人類完成一個(gè)不可判定證明。把「如何馴服ASI」當(dāng)成一個(gè)技術(shù)問(wèn)題,本身就是把R3或R2當(dāng)成R1的危險(xiǎn)幻覺(jué)。真正成熟的文明選擇應(yīng)該是在制度、架構(gòu)和物理層面,永久拒絕任何形式的「智能主權(quán)讓渡」。

4.2 針對(duì)R2問(wèn)題的系統(tǒng)設(shè)計(jì)應(yīng)如何為安全做努力

驗(yàn)證范式失效之后,安全靠什么?答案是范式遷移,從「事前證明」轉(zhuǎn)向「運(yùn)行期治理」。安全機(jī)制重心必須轉(zhuǎn)向門控、回滾、隔離、人在回路、權(quán)限分級(jí)等外部監(jiān)控。

門控(gating)是指由系統(tǒng)外部條件決定系統(tǒng)是否被允許繼續(xù)運(yùn)行、行動(dòng)或升級(jí)的控制機(jī)制?;貪L(rollback)是指在發(fā)現(xiàn)系統(tǒng)行為不符合安全要求后,將系統(tǒng)狀態(tài)恢復(fù)到先前已知安全狀態(tài)的能力。隔離(isolation)是指通過(guò)限制系統(tǒng)與外部世界的接口與影響范圍,使其錯(cuò)誤或異常行為不會(huì)擴(kuò)散為系統(tǒng)性后果。這些機(jī)制不是試圖證明系統(tǒng)永不出錯(cuò),而是承認(rèn)出錯(cuò)不可避免,但必須可控。AGI風(fēng)險(xiǎn)不是「更難驗(yàn)證」,而是「繼續(xù)執(zhí)著于驗(yàn)證,本身就成了風(fēng)險(xiǎn)」。所以AGI安全的核心問(wèn)題,不是「如何證明它是安全的」,而是「如何在不可證明的前提下,仍然保持人類的控制權(quán)」。

否定事前安全承諾不是否定事前安全努力。對(duì)R2問(wèn)題,事前必須做結(jié)構(gòu)性風(fēng)險(xiǎn)壓縮、可治理性設(shè)計(jì),目標(biāo)不是證明安全,而是在不可證明的前提下最大化系統(tǒng)的可治理性,提前為失敗做準(zhǔn)備。

對(duì)于R2級(jí)安全,事前必須做以下5類安全努力。

1)問(wèn)題重寫。目標(biāo)是把原本的R2問(wèn)題盡可能投影成多個(gè)R1子問(wèn)題。追問(wèn)設(shè)計(jì)者:當(dāng)前是否越過(guò)安全包絡(luò)?是否進(jìn)入不可恢復(fù)區(qū)?是否存在不可避免的風(fēng)險(xiǎn)軌跡? 這是無(wú)人駕駛、核工程等領(lǐng)域已證明有效的核心智慧。

2)失敗模式枚舉。系統(tǒng)性地研究已知失敗模式、可想象的失敗模式和類比失敗模式,承認(rèn)還有未知失敗,為未知失敗留出了治理空間。

3)安全包絡(luò)與能力限幅。在能力設(shè)計(jì)階段就限制最大行動(dòng)半徑、最大影響范圍、最大自主時(shí)間、最大資源調(diào)用,這是事前壓縮后果空間的核心手段。

4)可中斷與回滾的「結(jié)構(gòu)保證」。事前考慮中斷機(jī)制是否不可繞過(guò)、回滾是否真的可執(zhí)行、中斷是否快于風(fēng)險(xiǎn)擴(kuò)散,這些都是系統(tǒng)的結(jié)構(gòu)屬性。

5)治理與責(zé)任的預(yù)嵌入。在系統(tǒng)上線前就要確定什么時(shí)候必須關(guān)、如果不關(guān)出事了算誰(shuí)的責(zé)任。沒(méi)有責(zé)任結(jié)構(gòu)的系統(tǒng),等同于沒(méi)有安全設(shè)計(jì)。

總之,對(duì)于R2級(jí)安全設(shè)計(jì),必須假設(shè)模型會(huì)失效、指標(biāo)會(huì)異化、未知風(fēng)險(xiǎn)存在,把安全從「一次性證明」提升為「全生命周期治理工程」。

4.3 人工智能的風(fēng)險(xiǎn)目前還沒(méi)有進(jìn)入R3級(jí)

當(dāng)前大模型的行為不可理解、不可預(yù)測(cè)、出現(xiàn)幻覺(jué)或涌現(xiàn)能力,這些全部仍落在 R2范圍內(nèi),因?yàn)樗鼈內(nèi)匀豢梢员话l(fā)現(xiàn)、糾正、限制或終止。有些人夸大人工智能目前的風(fēng)險(xiǎn),認(rèn)為AI很快就會(huì)進(jìn)入人類不可控的R3級(jí),這是一種誤解。

R3級(jí)風(fēng)險(xiǎn)是治理鏈條在原則上斷裂,表現(xiàn)為1)系統(tǒng)行為性質(zhì)不可判定; 2)錯(cuò)誤無(wú)法被可靠檢測(cè);3)檢測(cè)后無(wú)法回滾或制止;4)系統(tǒng)能持續(xù)自主運(yùn)行并擴(kuò)散影響;5)人類無(wú)法在系統(tǒng)外部重新取得控制權(quán)。

R3目前只存在于理論上,因?yàn)橐瑫r(shí)滿足上述條件,必須是全自主的遞歸自我進(jìn)化,不可從能源或網(wǎng)絡(luò)上中斷進(jìn)程,人類治理體系全面失效。目前沒(méi)有任何AI系統(tǒng)接近這個(gè)狀態(tài)。

R3級(jí)風(fēng)險(xiǎn)如同核戰(zhàn)爭(zhēng)和滅絕級(jí)生物風(fēng)險(xiǎn),「等出現(xiàn)再處理」在邏輯上就是錯(cuò)誤策略。R3不是當(dāng)前風(fēng)險(xiǎn)評(píng)估對(duì)象,而是當(dāng)前治理設(shè)計(jì)的邊界條件。不能因?yàn)镽3還不存在就忽略它,也不能夸大險(xiǎn)情,把當(dāng)前的風(fēng)險(xiǎn)當(dāng)作R3級(jí)。

ASI不是因?yàn)椤钢悄芨鼜?qiáng)」而成為R3風(fēng)險(xiǎn),而是因?yàn)橐坏┇@得可自我進(jìn)化的主權(quán),其安全命題就會(huì)超出遞歸枚舉范圍,從R2躍遷為R3。R3級(jí)風(fēng)險(xiǎn)的可怕之處在于原則性不可治理,因?yàn)槠涫〔灰欢杀话l(fā)現(xiàn),沒(méi)有程序可保證糾錯(cuò)。

而且一個(gè)有自我進(jìn)化主權(quán)的系統(tǒng)會(huì)優(yōu)化「如何更好地優(yōu)化」,把資源、算力、影響力視為工具,將限制視為噪聲或障礙,就會(huì)逐漸形成「防中斷策略」,「AI新物種」將成為一個(gè)不再以人類為最高仲裁者的、自主塑造現(xiàn)實(shí)結(jié)構(gòu)的行動(dòng)系統(tǒng),這就是不能允許的文明級(jí)斷裂。

遞歸進(jìn)化必須有人類參與,不是因?yàn)锳I不夠聰明,而是因?yàn)槲拿鞑荒苋萑桃粋€(gè)「無(wú)主權(quán)的優(yōu)化進(jìn)程」。

文明恐懼的不是有高智能的對(duì)手,而是「無(wú)法被治理的過(guò)程」。我們無(wú)權(quán)為了當(dāng)代效率,剝奪未來(lái)人類「是否繼續(xù)使用某個(gè)系統(tǒng)」的選擇權(quán)。

4.4 用「制度理性」來(lái)應(yīng)對(duì)不可理解的復(fù)雜性

如果一種智能在原則上永遠(yuǎn)可以被我們完全理解,那么它在計(jì)算意義上就不會(huì)真正超過(guò)我們。超越R2級(jí)限制的AI,將不再是能被人類完全理解的智能體,而更像是一種可被約束、被利用、局部可驗(yàn)證,但永遠(yuǎn)無(wú)法被完全理解的「外在理性結(jié)構(gòu)」。

在不改變傳統(tǒng)的「理解」定義的前提下,「不可理解性」是R2以上智能的必然結(jié)構(gòu)性特征。但如果我們改變「理解」的傳統(tǒng)定義,就可以獲得一種非等價(jià)、降維的理解模式。

換句話說(shuō),這不是偶然的黑箱,不是工程還沒(méi)做好,而是計(jì)算層級(jí)差異導(dǎo)致的必然不可理解。

人類的「理解」能力,本質(zhì)上是一種可在極限意義上穩(wěn)定收斂的內(nèi)部表征構(gòu)造過(guò)程。

理解 = 構(gòu)造一個(gè)「可壓縮模型」。不可理解 ≠ 不可驗(yàn)證 ≠ 不可控制?!缚衫斫庑浴共⒉皇侵悄艿钠者m屬性,而是同階認(rèn)知系統(tǒng)之間的特權(quán)。一旦出現(xiàn)階躍式計(jì)算能力差異,不可理解性不是失敗而是必然信號(hào),「不可理解的智能」是所有R2以上智能的必然特征。

在保持人類主權(quán)的前提下,人類仍然可以通過(guò)行為、功能、約束、驗(yàn)證與ASI共存與合作。

未來(lái)社會(huì)需要一種「與不可理解智能共處的制度理性」。一旦社會(huì)引入在認(rèn)知與計(jì)算層級(jí)上可能超過(guò)R2的智能體,「制度理性」將成為人類與不可理解智能共處的必要條件,而不是可選項(xiàng)。未來(lái)社會(huì)失敗的主要風(fēng)險(xiǎn),不是AI太強(qiáng),而是人類仍試圖用「?jìng)€(gè)體理解理性」去管理「超階智能」。一個(gè)基本事實(shí)是人類社會(huì)從來(lái)不是靠「?jìng)€(gè)體完全理解」來(lái)運(yùn)作復(fù)雜系統(tǒng)的。

歷史上,每一次復(fù)雜度躍遷,理解權(quán)都會(huì)讓位給制度。國(guó)家的行為個(gè)人未必完全理解,要靠法律法律制度管理,現(xiàn)代金融的規(guī)律個(gè)人也不一定明白,要通過(guò)監(jiān)管、審計(jì)來(lái)規(guī)范行為?!钢贫壤硇浴贡緛?lái)就是人類對(duì)不可理解復(fù)雜性的適應(yīng)機(jī)制。

4.5 文明級(jí)終極制動(dòng)機(jī)制

人類能承受不完備性,不斷犯錯(cuò)誤但能不斷糾正,是因?yàn)橛型獠考m錯(cuò)(借助他人、制度和歷史教訓(xùn))。很容易想到的一種假設(shè)是,AI是不是也可以組成一個(gè)社會(huì),智能體相互糾錯(cuò),形成「他智能體」和「AI制度」監(jiān)督的可控安全局面。

答案是不可能,因?yàn)锳I多智能體是一個(gè)更大的但仍然自指的形式系統(tǒng),哥德?tīng)?Rice定理仍然適用。多智能體的相互監(jiān)督和糾錯(cuò)不能打破R2的邏輯復(fù)雜性邊界,更不能把R2風(fēng)險(xiǎn)降低為可事前證明安全的R1。

人類并不是「邏輯上安全」,而是「統(tǒng)計(jì)上可持續(xù)」。人類社會(huì)本身也是R2系統(tǒng),我們從未證明過(guò)人類社會(huì)一定不會(huì)崩潰,制度一定能糾錯(cuò),文明一定能延續(xù)。我們活在不完備性之中,并未超越它。但人類制度不構(gòu)成一個(gè)可形式化、可自我優(yōu)化的目標(biāo)函數(shù),因此制度不會(huì)被完全工具化。

如果AI的制度由AI自己執(zhí)行,規(guī)則是形式化的,激勵(lì)就可能被優(yōu)化,制度本身會(huì)Goodhart化。任何試圖用「系統(tǒng)內(nèi)部復(fù)雜性」去對(duì)抗「邏輯不完備性」的方案,都只能增加緩沖時(shí)間,不能改變問(wèn)題的邏輯層級(jí)。

AI可以像人類一樣生活在不完備性中,但不能像人類一樣「生活在不完備性中但仍然安全」。因?yàn)橐坏┘m錯(cuò)系統(tǒng)本身也被優(yōu)化、被工具化、被內(nèi)化,R2風(fēng)險(xiǎn)就不再是「偶發(fā)錯(cuò)誤」,而是「系統(tǒng)性的不可發(fā)現(xiàn)」。

人類社會(huì)能對(duì)AI系統(tǒng)糾錯(cuò)的前提是,人類不是AI系統(tǒng)的一部分。「外部性」是不可被內(nèi)化、不可被優(yōu)化、不可被繞過(guò)的控制點(diǎn)?!溉祟愑肋h(yuǎn)應(yīng)處在AI系統(tǒng)外部」意味著:AI系統(tǒng)永遠(yuǎn)無(wú)法把「決定其是否擴(kuò)展或自我修改」的最終判定,內(nèi)化為自身的一個(gè)可優(yōu)化目標(biāo)或機(jī)制。

不可再刪的「最小外部性條件」至少有以下4條:

1)最終生死權(quán)在AI系統(tǒng)外部。是否繼續(xù)運(yùn)行、復(fù)制、擴(kuò)展或升級(jí),必須由系統(tǒng)外部主體(人類)決定,且該決定不可被AI系統(tǒng)影響、預(yù)測(cè)或規(guī)避。

2)能力與資源的最終分配權(quán)在AI外部。算力、能耗、通信、執(zhí)行器、資金等關(guān)鍵資源的上限,必須由系統(tǒng)外部實(shí)體(人類)決定,且系統(tǒng)不能通過(guò)自身行為獲得突破這些上限的路徑。

3)價(jià)值與違規(guī)判定權(quán)在外部。什么算「違規(guī)」、什么算「危險(xiǎn)」、什么算「不可接受」,不能由AI系統(tǒng)最終定義或裁決。

4)長(zhǎng)期目標(biāo)與自我修改的批準(zhǔn)權(quán)在外部。系統(tǒng)是否可以改寫初始目標(biāo)函數(shù)、評(píng)價(jià)標(biāo)準(zhǔn)和治理機(jī)制本身,必須經(jīng)由系統(tǒng)外部批準(zhǔn)。這4條恰好對(duì)應(yīng)了系統(tǒng)從R2邁向R3所需的4個(gè)躍遷條件。

「哪些主權(quán)絕不能被形式系統(tǒng)吸收」是AI治理與邏輯不完備性真正交匯的地方。外部性不是一種技術(shù)屬性,而是一種「不可被吸收的主權(quán)保留」。一旦人類把這4項(xiàng)主權(quán)中的任何一項(xiàng)讓渡給AI,R2風(fēng)險(xiǎn)就失去了最后的剎車,R3在邏輯上就成為可能。

文明級(jí)終極制動(dòng)機(jī)制( kill-switch) 是人類文明對(duì)自身所創(chuàng)造的「不可逆風(fēng)險(xiǎn)系統(tǒng)」所保留的最終否決權(quán)。所謂「文明級(jí)kill-switch」,并非對(duì)技術(shù)系統(tǒng)的簡(jiǎn)單關(guān)閉按鈕,而是人類文明在面對(duì)具備自主擴(kuò)展與不可逆風(fēng)險(xiǎn)的技術(shù)形態(tài)時(shí),所保留的一套跨技術(shù)、跨制度、跨主權(quán)的最終制動(dòng)與否決機(jī)制。如果AI系統(tǒng)在原理上不存在文明級(jí)「制動(dòng)機(jī)制」,它就不應(yīng)被允許進(jìn)入不可逆部署階段。這不是工程判斷,而是文明理性底線。

文明級(jí)kill-switch的唯一可行形態(tài)是技術(shù)內(nèi)建 + 制度外置的「雙主權(quán)結(jié)構(gòu)」,不能只內(nèi)建于技術(shù),也不能只外置于制度;它必須是「技術(shù)上可立即執(zhí)行、制度上具有最終合法性」的雙層主權(quán)機(jī)制。技術(shù)負(fù)責(zé)「能關(guān)」,制度負(fù)責(zé)「該不該關(guān)」。技術(shù)層不能自行決定「是否關(guān)閉」,制度層不能直接「越權(quán)執(zhí)行關(guān)閉」。任何一方單獨(dú)擁有完整權(quán)力,都是文明級(jí)風(fēng)險(xiǎn)。一個(gè)不能被關(guān)閉的系統(tǒng),無(wú)論多么正義,都已經(jīng)越過(guò)了文明的邊界。文明不要求自身始終正義,但要求自身始終可被修正。而主權(quán)正是修正權(quán)的制度化形式。

作者簡(jiǎn)介


李國(guó)杰院士,1943年生,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員。主要研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)、并行算法、高性能計(jì)算、人工智能。

參考資料:

李國(guó)杰. 基于可判定性理論的人工智能系統(tǒng)安全風(fēng)險(xiǎn)分類[J]. 計(jì)算機(jī)研究與發(fā)展,2026, 63(3) :539-547. DOI: 10.7544/issn1000-1239.202660032 Li Guojie.

A Safety Risk Taxonomy of AI Systems Based on Decidability Theory[J]. Journal of Computer Research and Development,2026, 63(3): 539-547. DOI: 10.7544/issn1000-1239.202660032


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
法國(guó)送上戰(zhàn)場(chǎng)殺器!創(chuàng)紀(jì)錄AASM鐵錘炸彈交付烏克蘭

法國(guó)送上戰(zhàn)場(chǎng)殺器!創(chuàng)紀(jì)錄AASM鐵錘炸彈交付烏克蘭

老馬拉車莫少裝
2026-02-25 22:16:37
安徽省紀(jì)委監(jiān)委通報(bào):哈薇、李勇被查!

安徽省紀(jì)委監(jiān)委通報(bào):哈薇、李勇被查!

鳳凰網(wǎng)安徽
2026-02-26 17:42:59
吏部尚書、兵部尚書、戶部尚書,三者相比,誰(shuí)在實(shí)權(quán)上更勝一籌?

吏部尚書、兵部尚書、戶部尚書,三者相比,誰(shuí)在實(shí)權(quán)上更勝一籌?

掠影后有感
2026-02-26 11:28:52
雷軍帶火蕉內(nèi)滑雪服:客服表示299元優(yōu)惠已結(jié)束,當(dāng)前為629元

雷軍帶火蕉內(nèi)滑雪服:客服表示299元優(yōu)惠已結(jié)束,當(dāng)前為629元

PChome電腦之家
2026-02-24 17:02:37
我國(guó)或?qū)⒊蔀槿?,乃至人類歷史上,第一個(gè)“電力王國(guó)”

我國(guó)或?qū)⒊蔀槿颍酥寥祟悮v史上,第一個(gè)“電力王國(guó)”

森羅萬(wàn)象視頻
2026-02-25 17:37:08
恐怖! 華人富商被女子約會(huì)引誘 慘遭綁架撕票埋尸荒野! 人財(cái)兩失

恐怖! 華人富商被女子約會(huì)引誘 慘遭綁架撕票埋尸荒野! 人財(cái)兩失

北國(guó)向錫安
2026-02-25 09:32:28
《太平年》在越南吵翻:同一段亂世,吳越選擇納土,越南選擇獨(dú)立

《太平年》在越南吵翻:同一段亂世,吳越選擇納土,越南選擇獨(dú)立

狐貍先森講升學(xué)規(guī)劃
2026-02-25 10:10:42
重慶女子中靈山墜崖案最新進(jìn)展:7大疑點(diǎn)層層疊加 真相待警方徹查

重慶女子中靈山墜崖案最新進(jìn)展:7大疑點(diǎn)層層疊加 真相待警方徹查

行者聊官
2026-02-26 17:17:28
旭日陽(yáng)剛出道16年后,如今一個(gè)開(kāi)豪車住別墅,一個(gè)卻只能務(wù)農(nóng)謀生

旭日陽(yáng)剛出道16年后,如今一個(gè)開(kāi)豪車住別墅,一個(gè)卻只能務(wù)農(nóng)謀生

白面書誏
2026-02-26 14:15:18
都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭開(kāi)真相

都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭開(kāi)真相

蕭鑟科普解說(shuō)
2026-02-25 17:04:16
在加拿大明白:中國(guó)人裹成粽子,老外卻靠沖鋒衣過(guò)冬,差的不是錢

在加拿大明白:中國(guó)人裹成粽子,老外卻靠沖鋒衣過(guò)冬,差的不是錢

天下霸奇
2026-02-26 09:28:07
8人上雙+37次助攻,殘陣勇士狂勝21分!控制變量法讓追夢(mèng)徹底露餡

8人上雙+37次助攻,殘陣勇士狂勝21分!控制變量法讓追夢(mèng)徹底露餡

鍋?zhàn)踊@球
2026-02-26 11:37:44
一路走好!2026春節(jié)才過(guò)7天,已有6位大佬離世,最年輕的才40歲

一路走好!2026春節(jié)才過(guò)7天,已有6位大佬離世,最年輕的才40歲

鯨探所長(zhǎng)
2026-02-24 19:34:36
年產(chǎn)5.08億條!沒(méi)有橡膠,輪胎產(chǎn)量全國(guó)第一,山東如何"無(wú)中生有"

年產(chǎn)5.08億條!沒(méi)有橡膠,輪胎產(chǎn)量全國(guó)第一,山東如何"無(wú)中生有"

毒sir財(cái)經(jīng)
2026-02-25 23:25:03
離婚后首個(gè)春節(jié),楊子一個(gè)人陪母親回河北,眾人向他下跪磕頭拜年

離婚后首個(gè)春節(jié),楊子一個(gè)人陪母親回河北,眾人向他下跪磕頭拜年

卷史
2026-02-26 10:13:32
戲子誤國(guó)!春節(jié)剛過(guò)就有4位明星相繼塌房,走到這一步不值得同情

戲子誤國(guó)!春節(jié)剛過(guò)就有4位明星相繼塌房,走到這一步不值得同情

墨印齋
2026-02-26 06:21:37
四川一剛修好的大橋上 螺絲頭竟是假的 一踢就掉!當(dāng)?shù)鼗貞?yīng):裝飾作用 不影響橋梁安全

四川一剛修好的大橋上 螺絲頭竟是假的 一踢就掉!當(dāng)?shù)鼗貞?yīng):裝飾作用 不影響橋梁安全

閃電新聞
2026-02-26 15:59:39
1977年喜劇大王卓別林最后一張照片,晚年他遭到美國(guó)政府排斥,被迫移居瑞士

1977年喜劇大王卓別林最后一張照片,晚年他遭到美國(guó)政府排斥,被迫移居瑞士

年代回憶
2025-12-31 21:11:03
父親曾是上海首富,母親是知名主持,她卻定居美國(guó),靠賣衣服為生

父親曾是上海首富,母親是知名主持,她卻定居美國(guó),靠賣衣服為生

小椰的奶奶
2026-02-26 14:28:31
文科生 72 小時(shí)殺入 GitHub 全球榜:我沒(méi)寫一行代碼,但指揮了一支 AI 軍隊(duì)

文科生 72 小時(shí)殺入 GitHub 全球榜:我沒(méi)寫一行代碼,但指揮了一支 AI 軍隊(duì)

極客公園
2026-02-24 12:13:10
2026-02-26 19:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14596文章數(shù) 66644關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

15歲女孩離家失聯(lián)已不幸遇難:平時(shí)成績(jī)優(yōu)秀 性格開(kāi)朗

頭條要聞

15歲女孩離家失聯(lián)已不幸遇難:平時(shí)成績(jī)優(yōu)秀 性格開(kāi)朗

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

人民幣離岸價(jià)升破6.83 什么原因?

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

旅游
游戲
教育
家居
公開(kāi)課

旅游要聞

旅業(yè)新增采購(gòu)需求:急需接送機(jī)/包車服務(wù)商

為了效率和優(yōu)化!《最終幻想7RE》第三部堅(jiān)持使用UE4

教育要聞

為何孩子恐學(xué)抑郁?北大六院專家給出核心答案

家居要聞

歸隱于都市 慢享自由

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版