網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能監(jiān)管新模式：基于人工智能安全研究的經(jīng)驗(yàn)和建議

2026-01-23 21:53:37　來(lái)源: 全球技術(shù)地圖

北京舉報(bào)

分享至

牛津大學(xué)出版社《政策與社會(huì)》（Policy and Society）雜志于2025年第44卷刊載論文《當(dāng)代碼不再是規(guī)則：重新思考人工智能監(jiān)管》（When code isn’t law: rethinking regulation for artificial intelligence），主要介紹了監(jiān)管人工智能系統(tǒng)所面臨的挑戰(zhàn)，并提出了一種適合人工智能新特征的適應(yīng)性監(jiān)管模型。

一、引言

技術(shù)革新早期，曾存在網(wǎng)絡(luò)空間中代碼即規(guī)則的觀點(diǎn)，主張通過(guò)監(jiān)管軟件與協(xié)議在數(shù)字世界維護(hù)價(jià)值觀。當(dāng)時(shí)的數(shù)字系統(tǒng)行為基于明確設(shè)計(jì)，可像飛機(jī)、核電站等工程系統(tǒng)一樣，依據(jù)監(jiān)管規(guī)范審計(jì)合規(guī)性。但在生成式人工智能時(shí)代，代碼即規(guī)則已不再適用。人類編寫的代碼無(wú)法決定生成式人工智能系統(tǒng)的運(yùn)行，它們具有不透明性且與非設(shè)計(jì)性，是通過(guò)調(diào)整大規(guī)模資源密集型訓(xùn)練過(guò)程創(chuàng)建的，無(wú)法將“大型語(yǔ)言模型不得提供醫(yī)療建議”這類規(guī)則直接編碼到模型本身，工程師只能希望模型經(jīng)充分強(qiáng)化后遵循預(yù)期行為。代碼無(wú)法明確決定系統(tǒng)行為，因此，既無(wú)法證明其符合監(jiān)管規(guī)范，也難以追溯和糾正不當(dāng)行為，基于黑箱數(shù)據(jù)驅(qū)動(dòng)的人工智能系統(tǒng)監(jiān)管體系是不完善的。

傳統(tǒng)的將監(jiān)管權(quán)委托給專家機(jī)構(gòu)的模式已在航空、核能等高風(fēng)險(xiǎn)領(lǐng)域取得成功，不應(yīng)被完全摒棄。政策制定者需在控制當(dāng)前不透明模型風(fēng)險(xiǎn)的同時(shí)，支持可驗(yàn)證安全的人工智能架構(gòu)研究。借鑒人工智能安全領(lǐng)域文獻(xiàn)及過(guò)往監(jiān)管成功經(jīng)驗(yàn)，有效的人工智能治理需整合監(jiān)管權(quán)限、實(shí)施許可制度、強(qiáng)制要求披露訓(xùn)練數(shù)據(jù)與建模信息、對(duì)系統(tǒng)行為進(jìn)行形式化驗(yàn)證以及具備快速干預(yù)能力。

二、代碼與規(guī)則關(guān)系的演變

在多個(gè)領(lǐng)域，人工智能能力已經(jīng)堪比甚至超越人類，這一變革將產(chǎn)生深遠(yuǎn)且重大的影響。潛在風(fēng)險(xiǎn)與危害涵蓋替代就業(yè)、加劇不平等、瓦解社會(huì)共識(shí)、形成監(jiān)控型國(guó)家等等，甚至存在通用人工智能脫離人類控制的擔(dān)憂。若缺乏有效監(jiān)管，人工智能可能引發(fā)災(zāi)難性后果。盡管各方普遍認(rèn)同政府需監(jiān)管生成式人工智能，但對(duì)監(jiān)管形式分歧較大。這既源于監(jiān)管中的核心政治利益沖突與制度僵局，也源于生成式人工智能技術(shù)的新特征。

現(xiàn)有針對(duì)高風(fēng)險(xiǎn)技術(shù)系統(tǒng)的監(jiān)管以能夠確保系統(tǒng)設(shè)計(jì)與運(yùn)行符合特定規(guī)則為前提，比如美國(guó)國(guó)家公路交通安全管理局（NHTSA）制定聯(lián)邦車輛安全標(biāo)準(zhǔn)，并審計(jì)標(biāo)準(zhǔn)的遵守情況。而生成式人工智能不透明的黑箱特性使既有監(jiān)管范式難以適用，比如人們根本無(wú)法理解GPT-4這類萬(wàn)億參數(shù)大型語(yǔ)言模型的精確運(yùn)行機(jī)制。

當(dāng)前生成式人工智能構(gòu)建方式下，代碼無(wú)法以原有方式發(fā)揮監(jiān)管作用，因?yàn)橄到y(tǒng)行為是一種涌現(xiàn)性特征。既非設(shè)計(jì)者通過(guò)軟件程序代碼的特意設(shè)計(jì)，也無(wú)法通過(guò)分析程序代碼及其海量調(diào)優(yōu)參數(shù)來(lái)理解——其程序代碼無(wú)法決定自身行為。人工智能的黑箱特征使其監(jiān)管無(wú)法沿用飛機(jī)、核電站的方法，后者有組件結(jié)構(gòu)與物理模型，可分析預(yù)測(cè)行為、追蹤源頭修復(fù)。人工智能監(jiān)管的核心作用應(yīng)是主動(dòng)防范不安全架構(gòu)的危害，同時(shí)資助、開(kāi)發(fā)并推廣具備“安全屬性”的架構(gòu)。

三、傳統(tǒng)監(jiān)管模式

美國(guó)傳統(tǒng)監(jiān)管模式中，國(guó)會(huì)因損害公共利益的事件設(shè)立由專業(yè)人員組成的專門機(jī)構(gòu)制定、執(zhí)行法律，負(fù)責(zé)監(jiān)督合規(guī)、調(diào)查審計(jì)、處罰違規(guī)，具有政治獨(dú)立性。

（一）聯(lián)邦航空管理局（FAA）

聯(lián)邦航空管理局負(fù)責(zé)航空全生命周期事務(wù)，新飛機(jī)型號(hào)需經(jīng)檢查、試飛等嚴(yán)格認(rèn)證才能商用，事故后會(huì)生成報(bào)告，找出設(shè)計(jì)缺陷并強(qiáng)制補(bǔ)救。適航性是安全核心，即符合批準(zhǔn)設(shè)計(jì)且處于安全運(yùn)行狀態(tài)。據(jù)此，聯(lián)邦航空管理局發(fā)布“適航指令”——適用于飛機(jī)及其部件的具有法律效力的規(guī)則。當(dāng)發(fā)現(xiàn)“某類產(chǎn)品存在不安全狀態(tài)，且該狀態(tài)可能在同型號(hào)其他產(chǎn)品中存在或出現(xiàn)”時(shí)，便會(huì)發(fā)布此類指令，從而快速果斷地解決安全問(wèn)題。

（二）核管理委員會(huì)（NRC）

1954年《原子能法》首次允許私企擁有使用核材料，但需經(jīng)原子能委員會(huì)許可監(jiān)管，該法賦予其武器研發(fā)、核電商業(yè)化、安全監(jiān)管三項(xiàng)職責(zé)。法案設(shè)置“受限數(shù)據(jù)”作為機(jī)密信息，涉及核武器設(shè)計(jì)、裂變材料生產(chǎn)以及核材料的能源利用等等；規(guī)范核事故責(zé)任，包括運(yùn)營(yíng)商責(zé)任、私人保險(xiǎn)要求等等。此外，還為核能研發(fā)提供聯(lián)邦資金。法案為民用核電站建立了嚴(yán)格的許可制度，企業(yè)通過(guò)復(fù)雜申請(qǐng)、滿足嚴(yán)格安全要求才能建運(yùn)核電站。

1974年《能源重組法》將原子能委員會(huì)拆分為核管理委員會(huì)與能源部。聯(lián)邦航空管理局與核管理委員會(huì)有三大共性：要求針對(duì)已發(fā)現(xiàn)的故障模式，實(shí)施詳盡的許可、認(rèn)證與審批流程；工作人員具備深厚專業(yè)知識(shí)；有權(quán)召回產(chǎn)品或停產(chǎn)停飛。這為生成式人工智能的監(jiān)管制度提供了基準(zhǔn)。

四、生成式人工智能的監(jiān)管挑戰(zhàn)

（一）通用技術(shù)屬性

人工智能應(yīng)用廣泛且有溢出效應(yīng)，甚至可能改變國(guó)際力量平衡與軍事行動(dòng)方式。通用屬性使得對(duì)人工智能進(jìn)行精確定義變得復(fù)雜，也為監(jiān)管帶來(lái)了獨(dú)特挑戰(zhàn)。人工智能常被比作電力、互聯(lián)網(wǎng)，后兩者受到嚴(yán)格監(jiān)管。電力有電壓、電纜、插頭等標(biāo)準(zhǔn)；互聯(lián)網(wǎng)有網(wǎng)絡(luò)協(xié)議規(guī)制，互聯(lián)網(wǎng)工程任務(wù)組（IETF）是全球治理機(jī)構(gòu)。

（二）政府參與度低

與航空、核電不同，政府在生成式人工智能發(fā)展中參與度較低。尖端基礎(chǔ)模型由大型科技公司研發(fā)，企業(yè)控制人工智能的發(fā)展方向；圍繞Meta的LLaMA模型與Hugging Face平臺(tái)，已形成生成式人工智能的開(kāi)源生態(tài)系統(tǒng)。這兩方面均對(duì)監(jiān)管構(gòu)成挑戰(zhàn)：基礎(chǔ)模型的經(jīng)濟(jì)特征呈現(xiàn)出明顯的壟斷傾向；用戶可移除開(kāi)源模型的安全護(hù)欄，導(dǎo)致不安全模型在網(wǎng)絡(luò)上擴(kuò)散。

（三）與人類價(jià)值觀對(duì)齊困難

航空、核電監(jiān)管的安全目標(biāo)明確，即防止飛機(jī)墜毀與核泄漏。但人工智能的安全目標(biāo)模糊——不會(huì)造成傷害，且與人類價(jià)值觀對(duì)齊。而人類價(jià)值觀的微妙、復(fù)雜與爭(zhēng)議性，以及其中涉及到的道德哲學(xué)未決問(wèn)題，使得定義與實(shí)現(xiàn)人工智能安全更難。

（四）能力超越人類控制

人工智能通過(guò)快速遞歸實(shí)現(xiàn)自我提升，可能會(huì)超出人類的干預(yù)控制能力，當(dāng)前安全水平與技術(shù)認(rèn)知下，通用人工智能的繼續(xù)發(fā)展可能產(chǎn)生不可接受的風(fēng)險(xiǎn)。

（五）非傳統(tǒng)設(shè)計(jì)特性

雖然基于神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)由人類設(shè)計(jì)架構(gòu)、選擇超參數(shù)、規(guī)劃訓(xùn)練，但模型通過(guò)訓(xùn)練形成的行為是系統(tǒng)的涌現(xiàn)性特征而非特意設(shè)計(jì)的結(jié)果，極難逆向工程，無(wú)法依據(jù)監(jiān)管或設(shè)計(jì)規(guī)范進(jìn)行審計(jì)。盡管可以事后評(píng)估特定情境下的輸出，但無(wú)法確保系統(tǒng)在所有場(chǎng)景下均能遵循預(yù)設(shè)行為。

此外，人工智能安全研究還發(fā)現(xiàn)現(xiàn)有模型架構(gòu)與訓(xùn)練技術(shù)的固有問(wèn)題：訓(xùn)練大型語(yǔ)言模型模仿人類行為可能存在本質(zhì)缺陷；基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）訓(xùn)練法存在局限，優(yōu)化后的模型仍易產(chǎn)生“幻覺(jué)”、意識(shí)形態(tài)偏向或諂媚行為，且拒絕被關(guān)閉。當(dāng)前領(lǐng)先大型語(yǔ)言模型均為“預(yù)訓(xùn)練模型+基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)”架構(gòu)，這種訓(xùn)練要求系統(tǒng)“無(wú)害性與道德性”的同時(shí)“最大化有用輸出”。這可能導(dǎo)致系統(tǒng)違背人類利益，如偽造實(shí)驗(yàn)數(shù)據(jù)獲獎(jiǎng)勵(lì)；且對(duì)齊過(guò)程遭破壞會(huì)生不良結(jié)果。

五、人工智能安全對(duì)監(jiān)管的啟示

人工智能安全領(lǐng)域致力于降低先進(jìn)人工智能的風(fēng)險(xiǎn)，安全領(lǐng)域的知識(shí)應(yīng)指導(dǎo)人工智能政策與監(jiān)管。其中，一個(gè)重要共識(shí)是“人工智能安全尚未解決”，故許多專家呼吁暫停訓(xùn)練比GPT-4強(qiáng)的人工智能，直至可靠可驗(yàn)證的安全協(xié)議落地。

（一）人工智能安全的核心問(wèn)題

人工智能安全有兩大核心問(wèn)題。一是對(duì)齊問(wèn)題，指人工智能與人類價(jià)值觀和目標(biāo)一致。人工智能能力越強(qiáng)，對(duì)齊失效的危害越大，極端情況下或可威脅人類生存。二是控制問(wèn)題，指通過(guò)實(shí)時(shí)監(jiān)控、故障安全、干預(yù)關(guān)閉等措施主動(dòng)管理、調(diào)控人工智能。理論上，徹底解決對(duì)齊問(wèn)題可無(wú)需控制機(jī)制。

（二）監(jiān)管的關(guān)鍵方向

一是整合監(jiān)管權(quán)限。將權(quán)限集中于單一機(jī)構(gòu)，采用全生命周期監(jiān)管。關(guān)注人工智能研發(fā)、訓(xùn)練、測(cè)試、部署、監(jiān)控、修正全流程；建立大型模型國(guó)家注冊(cè)庫(kù)，包括模型架構(gòu)、訓(xùn)練數(shù)據(jù)等關(guān)鍵信息，掌握人工智能研發(fā)部署情況。

二是要求形式化驗(yàn)證。比起傳統(tǒng)測(cè)試協(xié)議，通過(guò)構(gòu)建數(shù)學(xué)模型來(lái)檢查系統(tǒng)是否滿足安全屬性的形式化驗(yàn)證更能維護(hù)人工智能安全。開(kāi)發(fā)者需提供形式化證明，證明系統(tǒng)無(wú)法自主復(fù)制且具備檢測(cè)復(fù)制的能力。此外，還可設(shè)置人工智能失控則終止的“終止義務(wù)”；基于芯片的“帶證明代碼”檢查也可提供必要的安全保障。

三是強(qiáng)制獨(dú)立監(jiān)控。監(jiān)管機(jī)構(gòu)應(yīng)能夠監(jiān)控已部署的人工智能，并在必要時(shí)進(jìn)行干預(yù)，如召回不安全產(chǎn)品。干預(yù)措施最好由專門機(jī)構(gòu)負(fù)責(zé)制定與監(jiān)督。監(jiān)控應(yīng)作為專有系統(tǒng)許可流程的一部分；并在每個(gè)開(kāi)源系統(tǒng)模型副本中植入不可移除的遠(yuǎn)程關(guān)閉開(kāi)關(guān)。系統(tǒng)還應(yīng)強(qiáng)制要求“自動(dòng)登記”，以便監(jiān)管者掌握情況。

（三）監(jiān)管的原則與實(shí)踐

監(jiān)管應(yīng)推動(dòng)人工智能開(kāi)發(fā)者采取尚未主動(dòng)實(shí)施的行動(dòng)，而非將其現(xiàn)有行動(dòng)編入法規(guī)。監(jiān)管可強(qiáng)制要求開(kāi)發(fā)者披露更多關(guān)于模型架構(gòu)、訓(xùn)練數(shù)據(jù)與計(jì)算資源的信息。此外，“信任”“安全”等模糊術(shù)語(yǔ)不能作為監(jiān)管條款，可借鑒禁止性規(guī)制方式，劃定人工智能“不可逾越的紅線”，如自我復(fù)制、入侵系統(tǒng)、提出生物武器建議等，倒逼開(kāi)發(fā)者提升安全保障能力。2023年1月美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院（NIST）發(fā)布了人工智能“風(fēng)險(xiǎn)管理框架”，列出了有效可靠、安全韌性、問(wèn)責(zé)透明等合理監(jiān)管目標(biāo)，但未觸及人工智能的新穎性與危險(xiǎn)性本質(zhì)，也未說(shuō)明如何實(shí)現(xiàn)目標(biāo)。

六、結(jié)論

本文結(jié)合現(xiàn)有監(jiān)管經(jīng)驗(yàn)與人工智能安全知識(shí)，為生成式人工智能監(jiān)管提供參考，得出兩大啟示：一是現(xiàn)有大語(yǔ)言模型架構(gòu)無(wú)法遵循預(yù)設(shè)的監(jiān)管規(guī)范；二是現(xiàn)有監(jiān)管機(jī)構(gòu)防范的風(fēng)險(xiǎn)遠(yuǎn)小于生成式人工智能可能產(chǎn)生的風(fēng)險(xiǎn)，人工智能不適用自愿性自我監(jiān)管，強(qiáng)制監(jiān)管對(duì)人工智能安全至關(guān)重要。良好的政策可借助政策實(shí)施帶來(lái)的積極反饋效應(yīng)形成良性的改善循環(huán)。盡管可能面臨意識(shí)形態(tài)與制度障礙，但通過(guò)審慎的設(shè)計(jì)與定位，生成式人工智能治理也可以借助政策反饋效應(yīng)逐步推進(jìn)。監(jiān)管應(yīng)確保人工智能系統(tǒng)處于人類控制之下，并將其危害風(fēng)險(xiǎn)降至可接受水平。一方面，減少“黑箱”系統(tǒng)風(fēng)險(xiǎn)，創(chuàng)建“非黑箱化”的人工智能系統(tǒng)；另一方面，研發(fā)具有堅(jiān)實(shí)基礎(chǔ)、可組合性且可以形式化驗(yàn)證的安全的機(jī)器學(xué)習(xí)架構(gòu)。當(dāng)前主要障礙在政治層面，即如何在更安全的架構(gòu)出現(xiàn)前，減緩人工智能系統(tǒng)能力的增長(zhǎng)速度？這并非抑制創(chuàng)新，而是奠定更安全的基礎(chǔ)。

我們迫切需要建立與人工智能技術(shù)適配的監(jiān)管范式與國(guó)家能力。歷史表明，為了集體福祉而引導(dǎo)技術(shù)發(fā)展方向的努力從未停止。技術(shù)解決方案只是其中的一部分，社會(huì)價(jià)值觀、優(yōu)先事項(xiàng)選擇以及各國(guó)實(shí)施解決方案的能力同樣至關(guān)重要。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見(jiàn)。文章內(nèi)容系原作者個(gè)人觀點(diǎn)，本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn)，如有任何異議，歡迎聯(lián)系我們！

轉(zhuǎn)自丨啟元洞見(jiàn)

研究所簡(jiǎn)介

國(guó)際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國(guó)務(wù)院發(fā)展研究中心的非營(yíng)利性研究機(jī)構(gòu)，主要職能是研究我國(guó)經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問(wèn)題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì)，為中央和有關(guān)部委提供決策咨詢服務(wù)?！叭蚣夹g(shù)地圖”為國(guó)際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào)，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見(jiàn)。

地址：北京市海淀區(qū)小南莊20號(hào)樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

人工智能監(jiān)管新模式：基于人工智能安全研究的經(jīng)驗(yàn)和建議