網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能數(shù)據(jù)的真實(shí)性、同意權(quán)與來源追蹤

2026-02-11 20:48:55　來源: 全球技術(shù)地圖

北京舉報(bào)

分享至

基礎(chǔ)模型的能力突破在很大程度上得益于規(guī)模龐大、來源廣泛且文檔記錄不足的訓(xùn)練數(shù)據(jù)集。但當(dāng)前的數(shù)據(jù)收集實(shí)踐在追蹤真實(shí)性、驗(yàn)證同意權(quán)、保護(hù)隱私、解決代表性與偏見問題、尊重版權(quán)以及整體開發(fā)符合倫理且可信的基礎(chǔ)模型等方面面臨諸多挑戰(zhàn)。對(duì)此，監(jiān)管層面正強(qiáng)調(diào)訓(xùn)練數(shù)據(jù)透明度的重要性，以明確基礎(chǔ)模型的局限性?；趯?duì)基礎(chǔ)模型訓(xùn)練數(shù)據(jù)現(xiàn)狀及現(xiàn)有解決方案的大規(guī)模分析，本文揭示了支撐負(fù)責(zé)任基礎(chǔ)模型開發(fā)所缺失的關(guān)鍵基礎(chǔ)設(shè)施，分析了現(xiàn)有數(shù)據(jù)真實(shí)性、同意權(quán)與文檔記錄追蹤工具的局限性，并闡述了政策制定者、開發(fā)者和數(shù)據(jù)創(chuàng)作者如何通過采用統(tǒng)一的數(shù)據(jù)來源標(biāo)準(zhǔn)來促進(jìn)負(fù)責(zé)任的基礎(chǔ)模型開發(fā)。

一、數(shù)據(jù)來源追蹤的必要性

過去十年間，來自網(wǎng)絡(luò)新聞、社交媒體、百科全書等數(shù)據(jù)，已成為GPT-4、Whisper等通用生成式智能消費(fèi)技術(shù)的關(guān)鍵資源。這些模型的訓(xùn)練數(shù)據(jù)多樣，涵蓋從網(wǎng)絡(luò)爬取、人工生成或手動(dòng)整理的文本、圖像和音頻數(shù)據(jù)。然而，這種大規(guī)模爬取、獲取和批量生產(chǎn)松散結(jié)構(gòu)化數(shù)據(jù)的競(jìng)賽帶來了一系列后果。當(dāng)前的數(shù)據(jù)收集實(shí)踐普遍存在來源廣泛且打包使用的情況，卻未追蹤或?qū)彶樵紒碓?、?chuàng)作者意圖、版權(quán)和許可狀態(tài)，甚至基本的構(gòu)成和屬性。元數(shù)據(jù)缺乏透明度，且缺乏可追蹤這些元數(shù)據(jù)的公共基礎(chǔ)設(shè)施，導(dǎo)致開發(fā)者陷入倫理和法律困境。未經(jīng)充分調(diào)查就用于訓(xùn)練的數(shù)據(jù)已引發(fā)諸多現(xiàn)實(shí)問題。例如，LAION-5B數(shù)據(jù)集曾是Hugging Face平臺(tái)上最廣泛使用的文本到圖像數(shù)據(jù)集之一，但在被報(bào)告包含數(shù)千張兒童性虐待材料（CSAM）圖像后被下架。部分?jǐn)?shù)據(jù)源的使用引發(fā)了知識(shí)產(chǎn)權(quán)糾紛，最終導(dǎo)致Stability AI、OpenAI等公司面臨訴訟。此外，有證據(jù)表明，基礎(chǔ)模型可能泄露個(gè)人身份信息（PII）、生成非自愿私密圖像（NCII）、制造虛假信息或深度偽造內(nèi)容，并放大偏見或歧視。訓(xùn)練完成后從模型中撤回或“遺忘”數(shù)據(jù)的相關(guān)方法，當(dāng)前仍存在可靠性不足的問題。這類方法往往難以徹底清除目標(biāo)數(shù)據(jù)對(duì)應(yīng)的信息殘留，且在數(shù)據(jù)撤回過程中，可能對(duì)生產(chǎn)模型的既有性能、泛化能力等其他關(guān)鍵維度造成負(fù)面影響，進(jìn)而顯著制約了其在實(shí)際場(chǎng)景中的推廣應(yīng)用價(jià)值。因此，關(guān)于訓(xùn)練數(shù)據(jù)的早期選擇具有長(zhǎng)期影響，迫切需要相關(guān)資源幫助開發(fā)者發(fā)現(xiàn)并充分了解不同訓(xùn)練數(shù)據(jù)集的收益與風(fēng)險(xiǎn)。這些問題推動(dòng)了新的數(shù)據(jù)基礎(chǔ)設(shè)施和框架的發(fā)展，以克服負(fù)責(zé)任地獲取訓(xùn)練數(shù)據(jù)所面臨的挑戰(zhàn)。現(xiàn)有生態(tài)系統(tǒng)中存在一些用于基礎(chǔ)模型數(shù)據(jù)管理的工具，但這些工具往往忽略了問題的關(guān)鍵方面，與并行標(biāo)準(zhǔn)或工具缺乏互操作性，或尚未實(shí)現(xiàn)廣泛采用。本文認(rèn)為，盡管針對(duì)該問題的不同要素存在多種解決方案，但完整的數(shù)據(jù)來源追蹤系統(tǒng)尚未形成，亟需一個(gè)致力于數(shù)據(jù)屬性結(jié)構(gòu)化文檔記錄的統(tǒng)一框架，這需要多個(gè)利益相關(guān)者共同采取行動(dòng)。

二、數(shù)據(jù)來源追蹤的關(guān)注度與監(jiān)管動(dòng)向

現(xiàn)有追蹤人工智能數(shù)據(jù)來源的規(guī)范存在顯著缺陷，熱門智能系統(tǒng)甚至不披露其訓(xùn)練數(shù)據(jù)的基本信息。業(yè)界呼吁進(jìn)行更系統(tǒng)、更全面的數(shù)據(jù)文檔記錄體系，然而從實(shí)際落地情況來看，這些呼吁的采納程度與執(zhí)行標(biāo)準(zhǔn)存在顯著差異。對(duì)于所謂的“數(shù)據(jù)集的數(shù)據(jù)集”，其文檔記錄問題尤為突出，這類大規(guī)模集合包含數(shù)百個(gè)數(shù)據(jù)集，由于缺乏標(biāo)準(zhǔn)結(jié)構(gòu)，原始來源信息往往被忽視或丟失。同時(shí)，從業(yè)者呼吁提高數(shù)據(jù)透明度、加強(qiáng)數(shù)據(jù)供應(yīng)鏈和生態(tài)系統(tǒng)監(jiān)測(cè)、進(jìn)行內(nèi)容真實(shí)性驗(yàn)證、為可重復(fù)、可解釋和可信的智能系統(tǒng)提供詳細(xì)的來源追蹤，并專門建立一個(gè)標(biāo)準(zhǔn)化數(shù)據(jù)庫來記錄可信數(shù)據(jù)。這些需求引起許多國(guó)家的監(jiān)管機(jī)構(gòu)和立法者的廣泛關(guān)注并積極響應(yīng)。美國(guó)和歐盟已在數(shù)據(jù)透明度方面采取了重要措施，所頒布的系列政策中均包含與透明度、來源追蹤以及深入了解人工智能模型輸入相關(guān)的條款。其中，《歐盟人工智能法案》特別明確了基礎(chǔ)模型提供商在訓(xùn)練數(shù)據(jù)來源追蹤方面的具體要求。加拿大當(dāng)局提出的自愿行為準(zhǔn)則呼吁模型開發(fā)者發(fā)布訓(xùn)練數(shù)據(jù)描述，聯(lián)合國(guó)機(jī)構(gòu)也建議制定關(guān)于數(shù)據(jù)權(quán)利的國(guó)際法規(guī)，將透明度納入其中。研究人員和立法者的關(guān)注，推動(dòng)了本文關(guān)于數(shù)據(jù)來源追蹤和透明度統(tǒng)一框架的研究。雖然此類標(biāo)準(zhǔn)不能直接解決人工智能風(fēng)險(xiǎn)，但它們是評(píng)估風(fēng)險(xiǎn)和促進(jìn)更負(fù)責(zé)任的人工智能發(fā)展的關(guān)鍵前提。

三、數(shù)據(jù)來源追蹤的法律維度

（一）來源追蹤和版權(quán)

人工智能模型可能通過兩種方式侵犯版權(quán)權(quán)益。一是訓(xùn)練模型可能侵犯訓(xùn)練數(shù)據(jù)中作品的創(chuàng)作者或訓(xùn)練數(shù)據(jù)語料庫創(chuàng)建者的版權(quán)；二是人工智能模型的特定輸出可能侵犯訓(xùn)練數(shù)據(jù)中單個(gè)作品相關(guān)的版權(quán)。人工智能模型有時(shí)會(huì)產(chǎn)生與預(yù)訓(xùn)練數(shù)據(jù)中的內(nèi)容高度相似的輸出，從而可能侵犯這些作品創(chuàng)作者的權(quán)利，而這些創(chuàng)作者很少同意其內(nèi)容被使用。需要強(qiáng)調(diào)的是，盡管預(yù)訓(xùn)練數(shù)據(jù)的使用可能受合理使用原則保護(hù)，但這并不意味著特定輸出不會(huì)構(gòu)成版權(quán)侵權(quán)。同時(shí)，指令微調(diào)和平行數(shù)據(jù)集的使用方式往往不符合其許可協(xié)議，這些數(shù)據(jù)集包含專為訓(xùn)練機(jī)器學(xué)習(xí)模型而創(chuàng)建的表達(dá)元素，因此其用于該目的不太可能受合理使用原則保護(hù)。強(qiáng)大的數(shù)據(jù)來源追蹤標(biāo)準(zhǔn)有助于解決與人工智能訓(xùn)練中使用受版權(quán)保護(hù)材料相關(guān)的諸多重要問題。對(duì)于預(yù)訓(xùn)練和微調(diào)而言，標(biāo)準(zhǔn)的數(shù)據(jù)來源追蹤框架能幫助降低法律風(fēng)險(xiǎn)，助力版權(quán)權(quán)益的執(zhí)行。版權(quán)侵權(quán)的關(guān)鍵在于是否接觸過受保護(hù)作品，因此了解訓(xùn)練模型所使用的數(shù)據(jù)集以及這些數(shù)據(jù)集中包含的作品，對(duì)于評(píng)估版權(quán)問題至關(guān)重要。

（二）人工智能監(jiān)管

《歐盟人工智能法案》和拜登發(fā)布的《關(guān)于安全、可靠和負(fù)責(zé)任地發(fā)展和使用人工智能的行政命令》均直接或間接地強(qiáng)調(diào)了人工智能系統(tǒng)透明度的必要性。兩份文件都要求向消費(fèi)者明確傳達(dá)人工智能系統(tǒng)的局限性。法案要求高風(fēng)險(xiǎn)人工智能系統(tǒng)披露其訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集的相關(guān)信息，以及基礎(chǔ)模型所使用的受版權(quán)保護(hù)訓(xùn)練數(shù)據(jù)的摘要，其中的技術(shù)規(guī)范包括數(shù)據(jù)獲取、標(biāo)注和處理方式等具體的來源追蹤信息。同時(shí)，行政命令鼓勵(lì)監(jiān)管機(jī)構(gòu)強(qiáng)調(diào)人工智能模型的透明度要求，以保護(hù)消費(fèi)者。

（三）立法者在鼓勵(lì)負(fù)責(zé)任人工智能實(shí)踐中的作用

本文呼吁數(shù)據(jù)集創(chuàng)作者、模型開發(fā)者、研究人員和立法者采取行動(dòng)。通過了解人工智能生態(tài)系統(tǒng)的本質(zhì)，立法者可以制定激勵(lì)措施，鼓勵(lì)更好地記錄新數(shù)據(jù)集和審計(jì)現(xiàn)有數(shù)據(jù)。盡管“透明度”在人工智能監(jiān)管中往往定義不明確，但監(jiān)管機(jī)構(gòu)可以利用透明度義務(wù)，鼓勵(lì)模型開發(fā)者記錄其訓(xùn)練數(shù)據(jù)的相關(guān)信息。此外，政策制定者可以為數(shù)據(jù)來源追蹤相關(guān)研究提供資金支持。目前，存在一些不合理的激勵(lì)因素阻礙許多公司披露其數(shù)據(jù)集信息，因?yàn)檫@樣做可能會(huì)增加面臨法律訴訟的概率。立法機(jī)關(guān)可以考慮為向監(jiān)管機(jī)構(gòu)和公眾提供其數(shù)據(jù)集必要信息的組織提供安全港保護(hù)。

四、現(xiàn)有數(shù)據(jù)來源相關(guān)解決方案及局限

當(dāng)前不存在完整的來源追蹤系統(tǒng)，解決方案分為四類，均存在不足：一是內(nèi)容真實(shí)性技術(shù)。此類技術(shù)通過嵌入信息驗(yàn)證數(shù)據(jù)來源，應(yīng)對(duì)虛假信息風(fēng)險(xiǎn)。例如C2PA聯(lián)盟通過加密方式在媒體中嵌入可驗(yàn)證來源信息，數(shù)字水印則用于標(biāo)識(shí)機(jī)器生成內(nèi)容，但文本水印易被移除，且技術(shù)僅適用于單個(gè)數(shù)據(jù)單元，難以覆蓋多模態(tài)訓(xùn)練中的衍生或匯編數(shù)據(jù)，無法滿足版權(quán)、偏見等元數(shù)據(jù)需求。二是選擇加入與退出工具。Robots.txt協(xié)議擴(kuò)展提案（如ai.txt、“noai”標(biāo)簽）及谷歌、OpenAI的定制工具，為網(wǎng)站提供數(shù)據(jù)使用偏好設(shè)置，但普及度低且僅支持“二元選擇”，無法滿足非商業(yè)使用等細(xì)致需求。三是數(shù)據(jù)集來源標(biāo)準(zhǔn)。數(shù)據(jù)集說明書、數(shù)據(jù)聲明與數(shù)據(jù)卡片標(biāo)準(zhǔn)化了數(shù)據(jù)創(chuàng)作者、偏見、收集過程等文檔記錄，數(shù)據(jù)營(yíng)養(yǎng)標(biāo)簽通過表單實(shí)現(xiàn)自動(dòng)化文檔，數(shù)據(jù)與信任聯(lián)盟標(biāo)準(zhǔn)整合多行業(yè)需求，提供結(jié)構(gòu)化記錄與譜系追蹤。但這類標(biāo)準(zhǔn)采納不均，且存在準(zhǔn)確性不足、激勵(lì)缺失等問題。

五、推進(jìn)數(shù)據(jù)來源規(guī)范化的多方行動(dòng)建議

現(xiàn)有數(shù)據(jù)來源解決方案較為零散。若缺乏強(qiáng)大、資源充足的數(shù)據(jù)來源追蹤框架，開發(fā)者將難以從眾多可能性中準(zhǔn)確識(shí)別和評(píng)估數(shù)據(jù)集的安全性、版權(quán)影響和相關(guān)性。數(shù)據(jù)創(chuàng)作者也將難以了解其內(nèi)容的使用方式和位置。若沒有數(shù)據(jù)集來源標(biāo)準(zhǔn)和文檔記錄，構(gòu)建這樣的框架將變得日益困難，最終難以實(shí)現(xiàn)。盡管現(xiàn)有每項(xiàng)解決方案都能為了解數(shù)據(jù)生態(tài)系統(tǒng)提供重要見解，但仍需要一個(gè)強(qiáng)大的框架來為數(shù)據(jù)集附加元數(shù)據(jù)，以追蹤數(shù)據(jù)集的混合、匯編和使用情況。不同利益相關(guān)者應(yīng)采取行動(dòng)，以增強(qiáng)數(shù)據(jù)真實(shí)性、同意權(quán)和來源追蹤應(yīng)對(duì)未來挑戰(zhàn)的能力。一是監(jiān)管者，監(jiān)管機(jī)構(gòu)通過政策和指導(dǎo)方針在塑造人工智能未來方面發(fā)揮著關(guān)鍵作用。以數(shù)據(jù)為中心的人工智能監(jiān)管方法有助于識(shí)別和減輕關(guān)鍵風(fēng)險(xiǎn)。政策制定者可以為數(shù)據(jù)來源追蹤相關(guān)研究提供資金支持，并集中力量記錄和構(gòu)建來源追蹤基礎(chǔ)設(shè)施。目前，不合理的法律激勵(lì)因素阻礙了公司披露其數(shù)據(jù)信息，監(jiān)管機(jī)構(gòu)應(yīng)考慮為組織提供必要的數(shù)據(jù)透明度制定法律或立法激勵(lì)措施，并將標(biāo)準(zhǔn)化文檔記錄作為人工智能透明度義務(wù)的一部分。此類激勵(lì)措施有助于推動(dòng)數(shù)據(jù)真實(shí)性、同意權(quán)和來源追蹤的通用且可互操作的標(biāo)準(zhǔn)。二是開發(fā)者，人工智能開發(fā)者處于創(chuàng)建模型的前沿，因此在確保倫理實(shí)踐方面承擔(dān)著重大責(zé)任。開發(fā)者必須優(yōu)先履行文檔記錄義務(wù)，并公開其訓(xùn)練數(shù)據(jù)的來源追蹤信息。如果出于令人信服的商業(yè)原因需要保密，至少應(yīng)發(fā)布有關(guān)數(shù)據(jù)來源追蹤的匯總統(tǒng)計(jì)數(shù)據(jù)。這種透明度對(duì)于與用戶和更廣泛的社區(qū)建立信任，以及培育負(fù)責(zé)任的人工智能生態(tài)系統(tǒng)至關(guān)重要。三是數(shù)據(jù)創(chuàng)作與匯編者。這類主體在人工智能開發(fā)中發(fā)揮關(guān)鍵作用，需詳細(xì)記錄數(shù)據(jù)同意標(biāo)準(zhǔn)及來源追蹤信息（包括數(shù)據(jù)來源與處理流程）；當(dāng)前已有專門的存儲(chǔ)庫和數(shù)據(jù)庫用于登記此類信息，詳實(shí)的記錄能有效協(xié)助人工智能開發(fā)者尊重相關(guān)權(quán)利、明晰數(shù)據(jù)屬性。四是科研界。科研界在制定來源追蹤披露規(guī)范與標(biāo)準(zhǔn)方面具備獨(dú)特地位，可將來源追蹤披露納入研究發(fā)表要求，以此補(bǔ)充可重復(fù)性清單相關(guān)工作，最終助力科學(xué)進(jìn)步。

事實(shí)上，單一利益相關(guān)方難以獨(dú)立構(gòu)建完善的數(shù)據(jù)來源追蹤框架，唯有多方協(xié)作才能有效推動(dòng)相關(guān)標(biāo)準(zhǔn)的制定。由各利益相關(guān)方代表組成的聯(lián)盟，可協(xié)調(diào)各類主體行動(dòng)并推動(dòng)特定標(biāo)準(zhǔn)落地，這一模式可參考主導(dǎo)萬維網(wǎng)標(biāo)準(zhǔn)制定的萬維網(wǎng)聯(lián)盟（W3C），以及由多行業(yè)企業(yè)、機(jī)構(gòu)組成的非營(yíng)利聯(lián)盟——數(shù)據(jù)與信任聯(lián)盟。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個(gè)人觀點(diǎn)，本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn)，如有任何異議，歡迎聯(lián)系我們！

研究所簡(jiǎn)介

國(guó)際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國(guó)務(wù)院發(fā)展研究中心的非營(yíng)利性研究機(jī)構(gòu)，主要職能是研究我國(guó)經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì)，為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國(guó)際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào)，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號(hào)樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.