国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人工智能監(jiān)管新模式:基于人工智能安全研究的經(jīng)驗(yàn)和建議

0
分享至


牛津大學(xué)出版社《政策與社會(huì)》(Policy and Society)雜志于2025年第44卷刊載論文《當(dāng)代碼不再是規(guī)則:重新思考人工智能監(jiān)管》(When code isn’t law: rethinking regulation for artificial intelligence),主要介紹了監(jiān)管人工智能系統(tǒng)所面臨的挑戰(zhàn),并提出了一種適合人工智能新特征的適應(yīng)性監(jiān)管模型。

一、引言

技術(shù)革新早期,曾存在網(wǎng)絡(luò)空間中代碼即規(guī)則的觀點(diǎn),主張通過(guò)監(jiān)管軟件與協(xié)議在數(shù)字世界維護(hù)價(jià)值觀。當(dāng)時(shí)的數(shù)字系統(tǒng)行為基于明確設(shè)計(jì),可像飛機(jī)、核電站等工程系統(tǒng)一樣,依據(jù)監(jiān)管規(guī)范審計(jì)合規(guī)性。但在生成式人工智能時(shí)代,代碼即規(guī)則已不再適用。人類編寫的代碼無(wú)法決定生成式人工智能系統(tǒng)的運(yùn)行,它們具有不透明性且與非設(shè)計(jì)性,是通過(guò)調(diào)整大規(guī)模資源密集型訓(xùn)練過(guò)程創(chuàng)建的,無(wú)法將“大型語(yǔ)言模型不得提供醫(yī)療建議”這類規(guī)則直接編碼到模型本身,工程師只能希望模型經(jīng)充分強(qiáng)化后遵循預(yù)期行為。代碼無(wú)法明確決定系統(tǒng)行為,因此,既無(wú)法證明其符合監(jiān)管規(guī)范,也難以追溯和糾正不當(dāng)行為,基于黑箱數(shù)據(jù)驅(qū)動(dòng)的人工智能系統(tǒng)監(jiān)管體系是不完善的。

傳統(tǒng)的將監(jiān)管權(quán)委托給專家機(jī)構(gòu)的模式已在航空、核能等高風(fēng)險(xiǎn)領(lǐng)域取得成功,不應(yīng)被完全摒棄。政策制定者需在控制當(dāng)前不透明模型風(fēng)險(xiǎn)的同時(shí),支持可驗(yàn)證安全的人工智能架構(gòu)研究。借鑒人工智能安全領(lǐng)域文獻(xiàn)及過(guò)往監(jiān)管成功經(jīng)驗(yàn),有效的人工智能治理需整合監(jiān)管權(quán)限、實(shí)施許可制度、強(qiáng)制要求披露訓(xùn)練數(shù)據(jù)與建模信息、對(duì)系統(tǒng)行為進(jìn)行形式化驗(yàn)證以及具備快速干預(yù)能力。

二、代碼與規(guī)則關(guān)系的演變

在多個(gè)領(lǐng)域,人工智能能力已經(jīng)堪比甚至超越人類,這一變革將產(chǎn)生深遠(yuǎn)且重大的影響。潛在風(fēng)險(xiǎn)與危害涵蓋替代就業(yè)、加劇不平等、瓦解社會(huì)共識(shí)、形成監(jiān)控型國(guó)家等等,甚至存在通用人工智能脫離人類控制的擔(dān)憂。若缺乏有效監(jiān)管,人工智能可能引發(fā)災(zāi)難性后果。盡管各方普遍認(rèn)同政府需監(jiān)管生成式人工智能,但對(duì)監(jiān)管形式分歧較大。這既源于監(jiān)管中的核心政治利益沖突與制度僵局,也源于生成式人工智能技術(shù)的新特征。

現(xiàn)有針對(duì)高風(fēng)險(xiǎn)技術(shù)系統(tǒng)的監(jiān)管以能夠確保系統(tǒng)設(shè)計(jì)與運(yùn)行符合特定規(guī)則為前提,比如美國(guó)國(guó)家公路交通安全管理局(NHTSA)制定聯(lián)邦車輛安全標(biāo)準(zhǔn),并審計(jì)標(biāo)準(zhǔn)的遵守情況。而生成式人工智能不透明的黑箱特性使既有監(jiān)管范式難以適用,比如人們根本無(wú)法理解GPT-4這類萬(wàn)億參數(shù)大型語(yǔ)言模型的精確運(yùn)行機(jī)制。

當(dāng)前生成式人工智能構(gòu)建方式下,代碼無(wú)法以原有方式發(fā)揮監(jiān)管作用,因?yàn)橄到y(tǒng)行為是一種涌現(xiàn)性特征。既非設(shè)計(jì)者通過(guò)軟件程序代碼的特意設(shè)計(jì),也無(wú)法通過(guò)分析程序代碼及其海量調(diào)優(yōu)參數(shù)來(lái)理解——其程序代碼無(wú)法決定自身行為。人工智能的黑箱特征使其監(jiān)管無(wú)法沿用飛機(jī)、核電站的方法,后者有組件結(jié)構(gòu)與物理模型,可分析預(yù)測(cè)行為、追蹤源頭修復(fù)。人工智能監(jiān)管的核心作用應(yīng)是主動(dòng)防范不安全架構(gòu)的危害,同時(shí)資助、開(kāi)發(fā)并推廣具備“安全屬性”的架構(gòu)。

三、傳統(tǒng)監(jiān)管模式

美國(guó)傳統(tǒng)監(jiān)管模式中,國(guó)會(huì)因損害公共利益的事件設(shè)立由專業(yè)人員組成的專門機(jī)構(gòu)制定、執(zhí)行法律,負(fù)責(zé)監(jiān)督合規(guī)、調(diào)查審計(jì)、處罰違規(guī),具有政治獨(dú)立性。

(一)聯(lián)邦航空管理局(FAA)

聯(lián)邦航空管理局負(fù)責(zé)航空全生命周期事務(wù),新飛機(jī)型號(hào)需經(jīng)檢查、試飛等嚴(yán)格認(rèn)證才能商用,事故后會(huì)生成報(bào)告,找出設(shè)計(jì)缺陷并強(qiáng)制補(bǔ)救。適航性是安全核心,即符合批準(zhǔn)設(shè)計(jì)且處于安全運(yùn)行狀態(tài)。據(jù)此,聯(lián)邦航空管理局發(fā)布“適航指令”——適用于飛機(jī)及其部件的具有法律效力的規(guī)則。當(dāng)發(fā)現(xiàn)“某類產(chǎn)品存在不安全狀態(tài),且該狀態(tài)可能在同型號(hào)其他產(chǎn)品中存在或出現(xiàn)”時(shí),便會(huì)發(fā)布此類指令,從而快速果斷地解決安全問(wèn)題。

(二)核管理委員會(huì)(NRC)

1954年《原子能法》首次允許私企擁有使用核材料,但需經(jīng)原子能委員會(huì)許可監(jiān)管,該法賦予其武器研發(fā)、核電商業(yè)化、安全監(jiān)管三項(xiàng)職責(zé)。法案設(shè)置“受限數(shù)據(jù)”作為機(jī)密信息,涉及核武器設(shè)計(jì)、裂變材料生產(chǎn)以及核材料的能源利用等等;規(guī)范核事故責(zé)任,包括運(yùn)營(yíng)商責(zé)任、私人保險(xiǎn)要求等等。此外,還為核能研發(fā)提供聯(lián)邦資金。法案為民用核電站建立了嚴(yán)格的許可制度,企業(yè)通過(guò)復(fù)雜申請(qǐng)、滿足嚴(yán)格安全要求才能建運(yùn)核電站。

1974年《能源重組法》將原子能委員會(huì)拆分為核管理委員會(huì)與能源部。聯(lián)邦航空管理局與核管理委員會(huì)有三大共性:要求針對(duì)已發(fā)現(xiàn)的故障模式,實(shí)施詳盡的許可、認(rèn)證與審批流程;工作人員具備深厚專業(yè)知識(shí);有權(quán)召回產(chǎn)品或停產(chǎn)停飛。這為生成式人工智能的監(jiān)管制度提供了基準(zhǔn)。

四、生成式人工智能的監(jiān)管挑戰(zhàn)

(一)通用技術(shù)屬性

人工智能應(yīng)用廣泛且有溢出效應(yīng),甚至可能改變國(guó)際力量平衡與軍事行動(dòng)方式。通用屬性使得對(duì)人工智能進(jìn)行精確定義變得復(fù)雜,也為監(jiān)管帶來(lái)了獨(dú)特挑戰(zhàn)。人工智能常被比作電力、互聯(lián)網(wǎng),后兩者受到嚴(yán)格監(jiān)管。電力有電壓、電纜、插頭等標(biāo)準(zhǔn);互聯(lián)網(wǎng)有網(wǎng)絡(luò)協(xié)議規(guī)制,互聯(lián)網(wǎng)工程任務(wù)組(IETF)是全球治理機(jī)構(gòu)。

(二)政府參與度低

與航空、核電不同,政府在生成式人工智能發(fā)展中參與度較低。尖端基礎(chǔ)模型由大型科技公司研發(fā),企業(yè)控制人工智能的發(fā)展方向;圍繞Meta的LLaMA模型與Hugging Face平臺(tái),已形成生成式人工智能的開(kāi)源生態(tài)系統(tǒng)。這兩方面均對(duì)監(jiān)管構(gòu)成挑戰(zhàn):基礎(chǔ)模型的經(jīng)濟(jì)特征呈現(xiàn)出明顯的壟斷傾向;用戶可移除開(kāi)源模型的安全護(hù)欄,導(dǎo)致不安全模型在網(wǎng)絡(luò)上擴(kuò)散。

(三)與人類價(jià)值觀對(duì)齊困難

航空、核電監(jiān)管的安全目標(biāo)明確,即防止飛機(jī)墜毀與核泄漏。但人工智能的安全目標(biāo)模糊——不會(huì)造成傷害,且與人類價(jià)值觀對(duì)齊。而人類價(jià)值觀的微妙、復(fù)雜與爭(zhēng)議性,以及其中涉及到的道德哲學(xué)未決問(wèn)題,使得定義與實(shí)現(xiàn)人工智能安全更難。

(四)能力超越人類控制

人工智能通過(guò)快速遞歸實(shí)現(xiàn)自我提升,可能會(huì)超出人類的干預(yù)控制能力,當(dāng)前安全水平與技術(shù)認(rèn)知下,通用人工智能的繼續(xù)發(fā)展可能產(chǎn)生不可接受的風(fēng)險(xiǎn)。

(五)非傳統(tǒng)設(shè)計(jì)特性

雖然基于神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)由人類設(shè)計(jì)架構(gòu)、選擇超參數(shù)、規(guī)劃訓(xùn)練,但模型通過(guò)訓(xùn)練形成的行為是系統(tǒng)的涌現(xiàn)性特征而非特意設(shè)計(jì)的結(jié)果,極難逆向工程,無(wú)法依據(jù)監(jiān)管或設(shè)計(jì)規(guī)范進(jìn)行審計(jì)。盡管可以事后評(píng)估特定情境下的輸出,但無(wú)法確保系統(tǒng)在所有場(chǎng)景下均能遵循預(yù)設(shè)行為。

此外,人工智能安全研究還發(fā)現(xiàn)現(xiàn)有模型架構(gòu)與訓(xùn)練技術(shù)的固有問(wèn)題:訓(xùn)練大型語(yǔ)言模型模仿人類行為可能存在本質(zhì)缺陷;基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練法存在局限,優(yōu)化后的模型仍易產(chǎn)生“幻覺(jué)”、意識(shí)形態(tài)偏向或諂媚行為,且拒絕被關(guān)閉。當(dāng)前領(lǐng)先大型語(yǔ)言模型均為“預(yù)訓(xùn)練模型+基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)”架構(gòu),這種訓(xùn)練要求系統(tǒng)“無(wú)害性與道德性”的同時(shí)“最大化有用輸出”。這可能導(dǎo)致系統(tǒng)違背人類利益,如偽造實(shí)驗(yàn)數(shù)據(jù)獲獎(jiǎng)勵(lì);且對(duì)齊過(guò)程遭破壞會(huì)生不良結(jié)果。

五、人工智能安全對(duì)監(jiān)管的啟示

人工智能安全領(lǐng)域致力于降低先進(jìn)人工智能的風(fēng)險(xiǎn),安全領(lǐng)域的知識(shí)應(yīng)指導(dǎo)人工智能政策與監(jiān)管。其中,一個(gè)重要共識(shí)是“人工智能安全尚未解決”,故許多專家呼吁暫停訓(xùn)練比GPT-4強(qiáng)的人工智能,直至可靠可驗(yàn)證的安全協(xié)議落地。

(一)人工智能安全的核心問(wèn)題

人工智能安全有兩大核心問(wèn)題。一是對(duì)齊問(wèn)題,指人工智能與人類價(jià)值觀和目標(biāo)一致。人工智能能力越強(qiáng),對(duì)齊失效的危害越大,極端情況下或可威脅人類生存。二是控制問(wèn)題,指通過(guò)實(shí)時(shí)監(jiān)控、故障安全、干預(yù)關(guān)閉等措施主動(dòng)管理、調(diào)控人工智能。理論上,徹底解決對(duì)齊問(wèn)題可無(wú)需控制機(jī)制。

(二)監(jiān)管的關(guān)鍵方向

一是整合監(jiān)管權(quán)限。將權(quán)限集中于單一機(jī)構(gòu),采用全生命周期監(jiān)管。關(guān)注人工智能研發(fā)、訓(xùn)練、測(cè)試、部署、監(jiān)控、修正全流程;建立大型模型國(guó)家注冊(cè)庫(kù),包括模型架構(gòu)、訓(xùn)練數(shù)據(jù)等關(guān)鍵信息,掌握人工智能研發(fā)部署情況。

二是要求形式化驗(yàn)證。比起傳統(tǒng)測(cè)試協(xié)議,通過(guò)構(gòu)建數(shù)學(xué)模型來(lái)檢查系統(tǒng)是否滿足安全屬性的形式化驗(yàn)證更能維護(hù)人工智能安全。開(kāi)發(fā)者需提供形式化證明,證明系統(tǒng)無(wú)法自主復(fù)制且具備檢測(cè)復(fù)制的能力。此外,還可設(shè)置人工智能失控則終止的“終止義務(wù)”;基于芯片的“帶證明代碼”檢查也可提供必要的安全保障。

三是強(qiáng)制獨(dú)立監(jiān)控。監(jiān)管機(jī)構(gòu)應(yīng)能夠監(jiān)控已部署的人工智能,并在必要時(shí)進(jìn)行干預(yù),如召回不安全產(chǎn)品。干預(yù)措施最好由專門機(jī)構(gòu)負(fù)責(zé)制定與監(jiān)督。監(jiān)控應(yīng)作為專有系統(tǒng)許可流程的一部分;并在每個(gè)開(kāi)源系統(tǒng)模型副本中植入不可移除的遠(yuǎn)程關(guān)閉開(kāi)關(guān)。系統(tǒng)還應(yīng)強(qiáng)制要求“自動(dòng)登記”,以便監(jiān)管者掌握情況。

(三)監(jiān)管的原則與實(shí)踐

監(jiān)管應(yīng)推動(dòng)人工智能開(kāi)發(fā)者采取尚未主動(dòng)實(shí)施的行動(dòng),而非將其現(xiàn)有行動(dòng)編入法規(guī)。監(jiān)管可強(qiáng)制要求開(kāi)發(fā)者披露更多關(guān)于模型架構(gòu)、訓(xùn)練數(shù)據(jù)與計(jì)算資源的信息。此外,“信任”“安全”等模糊術(shù)語(yǔ)不能作為監(jiān)管條款,可借鑒禁止性規(guī)制方式,劃定人工智能“不可逾越的紅線”,如自我復(fù)制、入侵系統(tǒng)、提出生物武器建議等,倒逼開(kāi)發(fā)者提升安全保障能力。2023年1月美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)發(fā)布了人工智能“風(fēng)險(xiǎn)管理框架”,列出了有效可靠、安全韌性、問(wèn)責(zé)透明等合理監(jiān)管目標(biāo),但未觸及人工智能的新穎性與危險(xiǎn)性本質(zhì),也未說(shuō)明如何實(shí)現(xiàn)目標(biāo)。

六、結(jié)論

本文結(jié)合現(xiàn)有監(jiān)管經(jīng)驗(yàn)與人工智能安全知識(shí),為生成式人工智能監(jiān)管提供參考,得出兩大啟示:一是現(xiàn)有大語(yǔ)言模型架構(gòu)無(wú)法遵循預(yù)設(shè)的監(jiān)管規(guī)范;二是現(xiàn)有監(jiān)管機(jī)構(gòu)防范的風(fēng)險(xiǎn)遠(yuǎn)小于生成式人工智能可能產(chǎn)生的風(fēng)險(xiǎn),人工智能不適用自愿性自我監(jiān)管,強(qiáng)制監(jiān)管對(duì)人工智能安全至關(guān)重要。良好的政策可借助政策實(shí)施帶來(lái)的積極反饋效應(yīng)形成良性的改善循環(huán)。盡管可能面臨意識(shí)形態(tài)與制度障礙,但通過(guò)審慎的設(shè)計(jì)與定位,生成式人工智能治理也可以借助政策反饋效應(yīng)逐步推進(jìn)。監(jiān)管應(yīng)確保人工智能系統(tǒng)處于人類控制之下,并將其危害風(fēng)險(xiǎn)降至可接受水平。一方面,減少“黑箱”系統(tǒng)風(fēng)險(xiǎn),創(chuàng)建“非黑箱化”的人工智能系統(tǒng);另一方面,研發(fā)具有堅(jiān)實(shí)基礎(chǔ)、可組合性且可以形式化驗(yàn)證的安全的機(jī)器學(xué)習(xí)架構(gòu)。當(dāng)前主要障礙在政治層面,即如何在更安全的架構(gòu)出現(xiàn)前,減緩人工智能系統(tǒng)能力的增長(zhǎng)速度?這并非抑制創(chuàng)新,而是奠定更安全的基礎(chǔ)。

我們迫切需要建立與人工智能技術(shù)適配的監(jiān)管范式與國(guó)家能力。歷史表明,為了集體福祉而引導(dǎo)技術(shù)發(fā)展方向的努力從未停止。技術(shù)解決方案只是其中的一部分,社會(huì)價(jià)值觀、優(yōu)先事項(xiàng)選擇以及各國(guó)實(shí)施解決方案的能力同樣至關(guān)重要。

免責(zé)聲明:本文轉(zhuǎn)自啟元洞見(jiàn)。文章內(nèi)容系原作者個(gè)人觀點(diǎn),本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn),如有任何異議,歡迎聯(lián)系我們!

轉(zhuǎn)自丨啟元洞見(jiàn)

研究所簡(jiǎn)介

國(guó)際技術(shù)經(jīng)濟(jì)研究所(IITE)成立于1985年11月,是隸屬于國(guó)務(wù)院發(fā)展研究中心的非營(yíng)利性研究機(jī)構(gòu),主要職能是研究我國(guó)經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問(wèn)題,跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì),為中央和有關(guān)部委提供決策咨詢服務(wù)?!叭蚣夹g(shù)地圖”為國(guó)際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào),致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見(jiàn)。

地址:北京市海淀區(qū)小南莊20號(hào)樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術(shù)地圖 incentive-icons
全球技術(shù)地圖
洞見(jiàn)前沿,引領(lǐng)未來(lái)
4190文章數(shù) 13418關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩(shī)與遠(yuǎn)方

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版