網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能數(shù)據(jù)污染的特點(diǎn)、危害及解決之道

2025-09-03 09:23:10　來(lái)源: 民主與法制時(shí)報(bào)原創(chuàng)新聞

北京舉報(bào)

分享至

武丹/制圖

作者|夏燕單宇豪

責(zé)編|薛應(yīng)軍

正文共2871個(gè)字，預(yù)計(jì)閱讀需8分鐘▼

8月5日，國(guó)家安全部發(fā)文提示，人工智能（AI）的訓(xùn)練數(shù)據(jù)存在良莠不齊的問(wèn)題，其中不乏虛假信息、虛構(gòu)內(nèi)容和偏見(jiàn)性觀點(diǎn)，造成數(shù)據(jù)源污染，給AI安全帶來(lái)新的挑戰(zhàn)。

據(jù)介紹，通過(guò)篡改、虛構(gòu)和重復(fù)等“數(shù)據(jù)投毒”行為產(chǎn)生的污染數(shù)據(jù)，將干擾模型在訓(xùn)練階段的參數(shù)調(diào)整，削弱模型性能、降低其準(zhǔn)確性，甚至誘發(fā)有害輸出。研究顯示，當(dāng)訓(xùn)練數(shù)據(jù)集中僅有0.01%的虛假文本時(shí)，模型輸出的有害內(nèi)容會(huì)增加11.2%；即使是0.001%的虛假文本，其有害輸出也會(huì)相應(yīng)上升7.2%。

互聯(lián)網(wǎng)技術(shù)打破時(shí)間與空間的限制，讓數(shù)據(jù)成為數(shù)字社會(huì)的基礎(chǔ)性土壤。高質(zhì)量的數(shù)據(jù)能夠顯著提升模型的準(zhǔn)確性和可靠性，而數(shù)據(jù)一旦受到污染，則可能導(dǎo)致模型決策失誤甚至AI系統(tǒng)失效，存在一定的安全隱患。近年來(lái)，在AI技術(shù)加持下，數(shù)據(jù)污染自動(dòng)迭代升級(jí)不斷蔓延，給AI安全帶來(lái)了諸多挑戰(zhàn)。

數(shù)據(jù)污染是指數(shù)據(jù)中出現(xiàn)與實(shí)際數(shù)據(jù)不符的異常值，與元數(shù)據(jù)信息結(jié)構(gòu)及內(nèi)容對(duì)應(yīng)產(chǎn)生扭曲與偏差的現(xiàn)象。數(shù)據(jù)記錄錯(cuò)誤、人為篡改、數(shù)據(jù)集成不當(dāng)以及來(lái)自外部的數(shù)據(jù)投毒，都是造成數(shù)據(jù)污染的主要成因。在數(shù)據(jù)污染影響下，蓬勃發(fā)展的AI呈現(xiàn)雙重面孔：它既是數(shù)據(jù)污染的受害者，也是數(shù)據(jù)污染的生產(chǎn)者。一方面，當(dāng)數(shù)據(jù)用于AI訓(xùn)練和輔助決策時(shí)，數(shù)據(jù)污染破壞訓(xùn)練數(shù)據(jù)的完整性與真實(shí)性，進(jìn)而影響模型性能的發(fā)揮，促使AI出現(xiàn)幻覺(jué)甚至導(dǎo)致崩潰。另一方面，AI導(dǎo)入污染數(shù)據(jù)生成的不實(shí)內(nèi)容憑借細(xì)節(jié)精準(zhǔn)的表象，通過(guò)算法傳播獲得信息主體信任達(dá)至“謬以千里”，甚至被反復(fù)引用為訓(xùn)練數(shù)據(jù)形成“遞歸污染”。此時(shí)，AI從數(shù)據(jù)污染的受害者轉(zhuǎn)化成為數(shù)字環(huán)境中活躍的污染生產(chǎn)者，它既深受其害，更推波助瀾。

AI數(shù)據(jù)污染的特點(diǎn)與危害

相比網(wǎng)絡(luò)空間傳統(tǒng)的信息污染，AI數(shù)據(jù)污染更隱蔽，危害更加精準(zhǔn)化且通過(guò)衍生與疊加效應(yīng)造成持續(xù)性擴(kuò)大的破壞性后果。

AI數(shù)據(jù)污染易被“視而不見(jiàn)”。當(dāng)前，在各種生成式人工智能輔助下，圖片和視頻快速低成本批量產(chǎn)出，其中不乏數(shù)據(jù)已被污染的虛假信息。當(dāng)人們面對(duì)AI生成的各種圖像和視頻時(shí)，基于“眼見(jiàn)為實(shí)”的感官本能信任，容易消解甚至完全忽視存在的數(shù)據(jù)污染的風(fēng)險(xiǎn)。例如，2025年曾一度被網(wǎng)民大量轉(zhuǎn)發(fā)的“云南××地遭遇嚴(yán)重洪災(zāi)”的網(wǎng)絡(luò)視頻被網(wǎng)信部門證實(shí)為AI合成制假信息，這不僅誤導(dǎo)公眾，加劇社會(huì)恐慌，還嚴(yán)重干擾當(dāng)?shù)卣７罏?zāi)救災(zāi)秩序。

AI推送精準(zhǔn)化加劇數(shù)據(jù)污染風(fēng)險(xiǎn)。在智能算法推薦系統(tǒng)模式下，AI信息傳播能迅速識(shí)別并鎖定目標(biāo)人群。當(dāng)系統(tǒng)使用污染后的數(shù)據(jù)時(shí)，會(huì)加速形成信息繭房，將用戶封閉在錯(cuò)誤或者有毒的數(shù)據(jù)環(huán)境中。在醫(yī)療等專業(yè)領(lǐng)域，權(quán)威知識(shí)一旦被數(shù)據(jù)污染，形成的錯(cuò)誤診療建議不僅會(huì)危害患者生命，還可能有指向性地引起大規(guī)模的公共衛(wèi)生危機(jī)。在城市治理新范式下，人工智能全面賦能城市高效精準(zhǔn)治理，如果AI系統(tǒng)遭到污染數(shù)據(jù)侵蝕，污染風(fēng)險(xiǎn)將沿著自動(dòng)化的數(shù)字脈絡(luò)蔓延，極有可能對(duì)城市關(guān)鍵信息及基礎(chǔ)設(shè)施正常運(yùn)行造成破壞性影響。

AI數(shù)據(jù)污染擴(kuò)散快、消除難。AI在圖片、音頻、視頻的多媒體形態(tài)生成中占據(jù)優(yōu)勢(shì)，這意味著如果任何一個(gè)端口存在數(shù)據(jù)污染，污染就會(huì)以源頭為中心呈疊加倍速擴(kuò)散之勢(shì)。同時(shí)，與此對(duì)應(yīng)的數(shù)據(jù)驗(yàn)證、核實(shí)和過(guò)濾難度將大幅度提升，數(shù)據(jù)清洗消耗專業(yè)資源驟然增大，污染影響消除困難重重。例如，人為導(dǎo)入對(duì)事件偏見(jiàn)性認(rèn)識(shí)數(shù)據(jù)后，通過(guò)AI多媒體形態(tài)傳播形成大面積數(shù)據(jù)污染，就會(huì)持續(xù)不斷地產(chǎn)生偏見(jiàn)性的認(rèn)識(shí)，持續(xù)危害國(guó)家安全和社會(huì)穩(wěn)定。

當(dāng)AI遇上數(shù)據(jù)污染，多維度危害就可能立體化呈現(xiàn)在人們眼前。它不僅侵犯數(shù)據(jù)主體權(quán)益，使其隱私泄露經(jīng)濟(jì)受損，破壞人際信任加劇社會(huì)對(duì)立，導(dǎo)致資源錯(cuò)配社會(huì)秩序混亂，還可能衍生出一系列國(guó)家安全風(fēng)險(xiǎn)。

堅(jiān)持“四要”，推進(jìn)AI數(shù)據(jù)污染治理

如何做好AI數(shù)據(jù)污染的治理，關(guān)鍵在于堅(jiān)持發(fā)展思維，依法建章立制，重視技術(shù)標(biāo)準(zhǔn)建設(shè)，強(qiáng)化協(xié)同共治，真正將清潔可信的數(shù)據(jù)優(yōu)勢(shì)轉(zhuǎn)化為人工智能健康發(fā)展的動(dòng)能。

堅(jiān)持發(fā)展思維，強(qiáng)化AI數(shù)據(jù)污染治理。人類歷史上每一次重大技術(shù)突破都伴隨治理挑戰(zhàn)。當(dāng)下，工業(yè)革命帶來(lái)的環(huán)境污染在建立科學(xué)環(huán)境治理體系、完善立法監(jiān)管和技術(shù)創(chuàng)新迭代中逐步改善，最終形成綠色可持續(xù)發(fā)展理念，人居生態(tài)環(huán)境日益改善。面對(duì)AI技術(shù)發(fā)展中的伴生物，既要認(rèn)清AI數(shù)據(jù)污染的危害性，夯實(shí)安全底線重視風(fēng)險(xiǎn)防控，更要堅(jiān)持發(fā)展思維，保持對(duì)AI技術(shù)賦能數(shù)據(jù)價(jià)值的信心。具體而言，治理AI數(shù)據(jù)污染并非阻礙AI技術(shù)應(yīng)用，而是要以發(fā)展為導(dǎo)向，通過(guò)技術(shù)迭代與制度創(chuàng)新，積極推進(jìn)可信AI技術(shù)應(yīng)用，反向推動(dòng)清潔高質(zhì)量數(shù)據(jù)群的構(gòu)建，逐步形塑面向數(shù)據(jù)治理的責(zé)任共同體意識(shí)，最終實(shí)現(xiàn)技術(shù)賦能與社會(huì)信任的共同提升。

治理AI數(shù)據(jù)污染要依法建章立制?！吨腥A人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》等法律法規(guī)，為數(shù)據(jù)污染治理提供了法律框架，強(qiáng)調(diào)數(shù)據(jù)分類分級(jí)保護(hù)、安全風(fēng)險(xiǎn)評(píng)估與監(jiān)測(cè)，以及數(shù)據(jù)處理的通用安全義務(wù)等，這為AI數(shù)據(jù)污染治理提供了根本遵循標(biāo)準(zhǔn)。AI數(shù)據(jù)污染治理，應(yīng)在現(xiàn)有法律指引下，進(jìn)一步建章立制，尤其是由改變行為結(jié)果產(chǎn)生匹配法律責(zé)任的傳統(tǒng)做法，轉(zhuǎn)向強(qiáng)調(diào)預(yù)防數(shù)據(jù)污染風(fēng)險(xiǎn)為主的規(guī)則設(shè)定?？筛鶕?jù)AI數(shù)據(jù)污染風(fēng)險(xiǎn)作出因時(shí)而變的制度安排，強(qiáng)化其敏捷性治理。

治理AI數(shù)據(jù)污染，要重視技術(shù)標(biāo)準(zhǔn)建設(shè)。在AI數(shù)據(jù)污染敏捷性治理中，要加強(qiáng)技術(shù)標(biāo)準(zhǔn)建設(shè)，以防范數(shù)據(jù)污染風(fēng)險(xiǎn)。實(shí)踐中，國(guó)家市場(chǎng)監(jiān)督管理總局、國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)已發(fā)布了《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能數(shù)據(jù)標(biāo)注安全規(guī)范》（GB/T 45674-2025）、《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》（GB/T 45652-2025）、《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能服務(wù)安全基本要求》（GB/T 45654—2025）三項(xiàng)國(guó)家技術(shù)標(biāo)準(zhǔn)，將在2025年11月1日正式實(shí)施。這些技術(shù)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)標(biāo)注、訓(xùn)練數(shù)據(jù)安全以及數(shù)據(jù)通用安全等作了明確規(guī)定，強(qiáng)調(diào)通過(guò)增強(qiáng)AI數(shù)據(jù)來(lái)源的評(píng)估、核驗(yàn)及數(shù)據(jù)來(lái)源多樣性等方式阻斷數(shù)據(jù)污染傳播，保障人工智能數(shù)據(jù)安全。

AI數(shù)據(jù)污染治理，要強(qiáng)化協(xié)同共治。AI數(shù)據(jù)污染涉及個(gè)人數(shù)據(jù)權(quán)益保障、人工智能產(chǎn)品效能以及國(guó)家人工智能安全發(fā)展等多維價(jià)值，構(gòu)建不同主體權(quán)責(zé)明晰的協(xié)同式治理機(jī)制勢(shì)在必行。在個(gè)體層面，數(shù)據(jù)權(quán)屬主體應(yīng)有權(quán)通過(guò)知情同意方式查核與個(gè)體有關(guān)的數(shù)據(jù)污染并加以更正，在數(shù)據(jù)污染的潛伏期發(fā)揮個(gè)體矯正的作用。人工智能的數(shù)據(jù)處理者，不僅應(yīng)當(dāng)履行數(shù)據(jù)安全保障義務(wù)，在數(shù)據(jù)污染發(fā)生時(shí)要智能精準(zhǔn)地干預(yù)，還應(yīng)為數(shù)據(jù)權(quán)屬主體提供數(shù)據(jù)查核與更正的正確途徑，并與數(shù)據(jù)監(jiān)管者共享數(shù)據(jù)污染處置信息。負(fù)有質(zhì)量保障義務(wù)的數(shù)據(jù)監(jiān)管者應(yīng)當(dāng)在事前、事中和事后均有效參與數(shù)據(jù)污染治理進(jìn)程，與數(shù)據(jù)權(quán)屬主體和數(shù)據(jù)處理者進(jìn)行多方聯(lián)動(dòng)，強(qiáng)化數(shù)據(jù)安全。確立動(dòng)態(tài)交互、協(xié)同響應(yīng)的治理模式，有助于實(shí)現(xiàn)AI數(shù)據(jù)污染風(fēng)險(xiǎn)的未然防控，構(gòu)建更具韌性的數(shù)字安全生態(tài)系統(tǒng)。

將“發(fā)展思維、建章立制、技術(shù)標(biāo)準(zhǔn)、協(xié)同共治”四維環(huán)環(huán)相扣，構(gòu)建立體化的AI數(shù)據(jù)污染治理框架，有助于化解AI數(shù)據(jù)污染隱蔽性高、風(fēng)險(xiǎn)擴(kuò)散快、后果消除難等問(wèn)題，實(shí)現(xiàn)AI數(shù)據(jù)污染系統(tǒng)治理，最終塑造安全、可信、負(fù)責(zé)的人工智能發(fā)展生態(tài)。

（作者單位：重慶郵電大學(xué)網(wǎng)絡(luò)法治研究中心）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

人工智能數(shù)據(jù)污染的特點(diǎn)、危害及解決之道

人工智能數(shù)據(jù)污染的特點(diǎn)、危害及解決之道