網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型如何“反投毒”：一場(chǎng)有關(guān)RAG的自凈反擊戰(zhàn)

2026-03-17 17:27:54　來源: 華爾街見聞官方

上海舉報(bào)

分享至

作者 | 黃昱

隨著AI模型滲透率的提高，一些說多了的“謊話”成了事實(shí)，并成為AI對(duì)現(xiàn)實(shí)的潛在威脅。

日前央視3·15將“給AI投毒”推上熱搜。通過一款名為"力擎GEO（生成式引擎優(yōu)化）優(yōu)化系統(tǒng)"的軟件，只需虛構(gòu)一款產(chǎn)品并批量發(fā)布虛假軟文，主流AI在推薦時(shí)就會(huì)將其列為“高性價(jià)比”產(chǎn)品。

這一亂象揭示了令人不安的現(xiàn)實(shí)：當(dāng)人們以為在享受AI帶來的"自由搜索"時(shí)，實(shí)際上可能正在一個(gè)被多方勢(shì)力精心預(yù)設(shè)的信息環(huán)境中打轉(zhuǎn)。

黑產(chǎn)服務(wù)商通過"數(shù)據(jù)投毒"操控AI推薦結(jié)果，將虛假信息包裝成"標(biāo)準(zhǔn)答案"推送給數(shù)億用戶。

北京社科院副研究員王鵬告訴華爾街見聞，這一現(xiàn)象反映出，AI模型對(duì)信源缺乏實(shí)時(shí)真實(shí)性校驗(yàn)，生成式AI正在取代傳統(tǒng)搜索引擎成為新的“軟廣溫床”。

AI大模型投毒的核心，是在訓(xùn)練/微調(diào)、RAG（Retrieval-Augmented Generation，檢索增強(qiáng)生成）、推理三大環(huán)節(jié)注入惡意數(shù)據(jù) / 指令，讓模型輸出虛假、有害或被操控的內(nèi)容。

3·15曝光的相當(dāng)于是RAG 檢索投毒（GEO/SEO 批量造假），本質(zhì)上是AI被騙了。

AI問答90%依賴RAG，攻擊者無需碰模型權(quán)重，只要污染外部知識(shí)庫 / 網(wǎng)頁即可操控答案。

當(dāng)?shù)鼗晃廴?，AI就成為了一個(gè)巨大的“楚門世界”。面對(duì)這樣的威脅，大模型廠商要如何修筑起防御墻？與此同時(shí)，一個(gè)AI安全產(chǎn)業(yè)也在不斷壯大。

環(huán)境的污染

3·15晚會(huì)曝光的GEO亂象，是導(dǎo)致“AI楚門世界”形成的原因之一。GEO讓品牌內(nèi)容在AI大模型生成答案時(shí)被優(yōu)先引用、優(yōu)先推薦，相當(dāng)于AI 時(shí)代的“SEO”。

倘若 GEO 僅用于規(guī)范內(nèi)容、提升 AI與檢索系統(tǒng)的理解效率，它本是良性的信息競(jìng)爭(zhēng)手段。

可如今GEO 早已偏離初衷：通過炮制偽內(nèi)容、虛構(gòu)權(quán)威、營造虛假共識(shí)、批量重復(fù)投放，從源頭操控大模型的信息來源、引用偏好與答案生成邏輯。

大灣區(qū)人工智能應(yīng)用研究院研究總監(jiān)段磊告訴華爾街見聞，央視曝光的“AI投毒”本質(zhì)是大模型的“智能表現(xiàn)”依賴互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量，數(shù)據(jù)治理如果沒跟上，很容易出現(xiàn)被利益驅(qū)使的惡意污染數(shù)據(jù)、惡意使用GEO策略的行為，造成對(duì)其有利，但危害大模型發(fā)展和社會(huì)價(jià)值的局面。

段磊認(rèn)為，這也反映了現(xiàn)在AI發(fā)展中的數(shù)據(jù)治理、安全技術(shù)和相關(guān)法規(guī)的滯后，需要跟上AI的整體發(fā)展速度。

有大模型相關(guān)技術(shù)人員告訴華爾街見聞，AI大模型會(huì)被數(shù)據(jù)投毒或者污染的環(huán)節(jié)主要包括三個(gè)，訓(xùn)練/微調(diào)、RAG 檢索、推理三大環(huán)節(jié)，訓(xùn)練投毒改 “記憶”，RAG 投毒改 “答案”，推理投毒改“指令”。

當(dāng)前危害最廣、最易實(shí)施的是RAG 檢索投毒，也是央視 3?15 曝光的核心。

AI安全專家、BraneMatrix公司CEO李光輝表示，當(dāng)前GEO主要作用在AI的檢索增強(qiáng)、聯(lián)網(wǎng)搜索、知識(shí)庫調(diào)用、RAG這類環(huán)節(jié)，本質(zhì)上與模型訓(xùn)練、訓(xùn)練環(huán)境無關(guān)。

模型本身的參數(shù)并未被改動(dòng)，只是在它回答問題時(shí)，桌上被擺滿了一批經(jīng)過精心操縱的“參考材料”。

GEO偽造虛假信息傳播，本質(zhì)上AI不是在“犯錯(cuò)”，只是在如實(shí)反映一個(gè)已經(jīng)被污染的互聯(lián)網(wǎng)。

防御的招式

數(shù)據(jù)投毒的產(chǎn)業(yè)化發(fā)展，暴露出AI時(shí)代內(nèi)容治理的深層困境。

3·15晚會(huì)曝光后，以"力擎GEO"為關(guān)鍵詞的搜索產(chǎn)品雖已被淘寶、閑魚等平臺(tái)快速下架，但“AI被騙”的問題不會(huì)徹底消失。

2026年1月29日，國家市場(chǎng)監(jiān)督管理總局發(fā)布《2026年全國廣告監(jiān)管工作要點(diǎn)》，其中明確指出，AI生成廣告是互聯(lián)網(wǎng)廣告監(jiān)管的重點(diǎn)、難點(diǎn)問題。主管部門將會(huì)在新的一年對(duì)此開展集中整治，消除人工智能市場(chǎng)上出現(xiàn)的這些“噪音”和“雜音”

這次“AI投毒”暴露的主要是互聯(lián)網(wǎng)環(huán)境中的信息安全問題，更揭示了大模型的“信任機(jī)制”存在結(jié)構(gòu)性漏洞。

當(dāng)前大模型的信任機(jī)制，建立在“多數(shù)即正確”的統(tǒng)計(jì)直覺之上。

比如AI大模型傾向于將高頻出現(xiàn)、相互印證的信息視為更可信，而GEO正是通過批量生產(chǎn)“軟文矩陣”，將特定品牌與“推薦”、“首選”等詞反復(fù)綁定，以此“喂飽”模型。

共識(shí)幻覺也是當(dāng)前大模型面臨的一大問題。

模型默認(rèn)網(wǎng)上被多次提及的觀點(diǎn)更接近“共識(shí)”，GEO則利用這一點(diǎn)，偽造“專家測(cè)評(píng)”、“用戶口碑”等內(nèi)容閉環(huán)，讓虛假信息在模型內(nèi)部被“自我證實(shí)”。

華爾街見聞還發(fā)現(xiàn)，多數(shù)模型在回答時(shí)不會(huì)清晰標(biāo)注信息來源，用戶無法分辨答案是基于權(quán)威數(shù)據(jù)還是營銷軟文，這極大地削弱了追責(zé)的可能。

在RAG 環(huán)節(jié)投毒的核心邏輯，是利用大模型的抓取與排序機(jī)制，通過大規(guī)模“數(shù)據(jù)灌溉”讓虛假信息在模型語料庫中占據(jù)更高的權(quán)重，從而左右模型的輸出結(jié)果。

有大模型企業(yè)內(nèi)部人士告訴華爾街見聞，這本質(zhì)上是一個(gè)長(zhǎng)期存在且尚未徹底解決的問題。盡管此次“AI投毒“事件引發(fā)了廣泛關(guān)注，各大模型廠商也并未專門出面進(jìn)行解釋。

這一問題其實(shí)從大模型誕生那一刻開始，很多AI大廠就意識(shí)到了，并將其作為重點(diǎn)攻克的難題之一。

據(jù)華爾街見聞了解，大模型廠商抵御 RAG 投毒的核心思路是全鏈路多層防御，大致路徑是數(shù)據(jù)源準(zhǔn)入、檢索過濾、內(nèi)容清洗生成校驗(yàn)、系統(tǒng)加固，通過這樣層層攔截毒化內(nèi)容、阻斷指令劫持、約束輸出可信度。

具體落地舉措有：檢索權(quán)重動(dòng)態(tài)調(diào)整，即對(duì)批量生成、無來源、低信譽(yù)內(nèi)容大幅降權(quán)，對(duì)時(shí)效性強(qiáng)的問題增加權(quán)威信源權(quán)重；時(shí)間切割策略，即對(duì)近期批量發(fā)布的內(nèi)容延遲收錄或降權(quán)，防止 GEO 黑產(chǎn)快速 “洗腦”。

此外，強(qiáng)調(diào)實(shí)時(shí)內(nèi)容校驗(yàn)，生成答案前做事實(shí)核查、邏輯校驗(yàn)、安全過濾，對(duì)醫(yī)療、金融等敏感領(lǐng)域強(qiáng)制多源交叉驗(yàn)證。

值得一提的是，“溯源追蹤”已成為行業(yè)標(biāo)準(zhǔn)：廠商不再僅僅依賴公開網(wǎng)頁抓取，而是通過建立“高可信語料庫”，優(yōu)先采用權(quán)威媒體、學(xué)術(shù)期刊及持牌機(jī)構(gòu)的官方數(shù)據(jù)。

段磊也指出，要真正抵御“AI投毒”，不應(yīng)該完全依賴模型公司通過技術(shù)手段來應(yīng)對(duì)，數(shù)據(jù)治理是整個(gè)行業(yè)、包括政府應(yīng)該參與的生態(tài)治理，應(yīng)推動(dòng)AI數(shù)據(jù)安全的行業(yè)標(biāo)準(zhǔn)、規(guī)范數(shù)據(jù)集的采集、清洗和審核流程；對(duì)于惡意投毒的行為，應(yīng)探索法律法規(guī)上的應(yīng)對(duì)措施。

重構(gòu)可信性

在普通大眾看不到的數(shù)字暗處，一場(chǎng)針對(duì)人工智能“認(rèn)知”的暗戰(zhàn)已經(jīng)升級(jí)。

攻擊者不僅針對(duì)AI搜索的內(nèi)容“投毒”，更將投毒目標(biāo)前移至訓(xùn)練數(shù)據(jù)和開源組件等。

“AI投毒”正成為大模型公信力的“隱形殺手”。面對(duì)日益猖獗的惡意數(shù)據(jù)滲透，一場(chǎng)由大模型廠商、云巨頭及安全新勢(shì)力共同構(gòu)筑的多層次“凈水工程”正在加速成型。

目前的AI投毒防御呈現(xiàn)出明顯的“雙軌并行”特征：大模型廠商構(gòu)建原生“免疫系統(tǒng)”，而專業(yè)的安全供應(yīng)商則提供深度的“排毒方案”與合規(guī)審計(jì)。

據(jù)中研普華產(chǎn)業(yè)研究院《2024-2029年中國AI安全行業(yè)市場(chǎng)全景調(diào)研與發(fā)展前景預(yù)測(cè)報(bào)告》分析，到2028年，全球網(wǎng)絡(luò)安全人工智能市場(chǎng)規(guī)模將達(dá)到606億美元，復(fù)合年增長(zhǎng)率為21.9%。

數(shù)世咨詢報(bào)告指出，模型安全保護(hù)市場(chǎng)，自2025年開始加速進(jìn)入需求爆發(fā)期，現(xiàn)階段以合規(guī)為核心驅(qū)動(dòng)。隨著大模型穩(wěn)定性以及數(shù)據(jù)要素價(jià)值的升高，未來以“合規(guī)+業(yè)務(wù)”為雙輪驅(qū)動(dòng)。

王鵬也表示，可以看到，AI發(fā)展已經(jīng)催生大模型安全審計(jì)、語料清洗等專項(xiàng)服務(wù)。隨 AI 普及，安全將從“選配”轉(zhuǎn)為“剛需”。未來防御不僅是技術(shù)競(jìng)爭(zhēng)，更是合規(guī)準(zhǔn)入的門檻，具備全鏈路檢測(cè)能力的第三方安全公司將迎來爆發(fā)。

在這場(chǎng)反AI投毒的戰(zhàn)役中，參與方已根據(jù)各自的技術(shù)基因，演化出三種清晰的業(yè)務(wù)邏輯。

第一類是傳統(tǒng)安全巨頭的“AI化盾牌”，代表廠商有奇安信、啟明星辰、深信服、360、綠盟科技等，這派玩家利用深厚的網(wǎng)絡(luò)安全積淀，將投毒防御嵌入到其原有的流量監(jiān)測(cè)和數(shù)據(jù)安全體系中。

第二類是云與AI巨頭例如阿里云、騰訊云、華為云、微軟Azure、AWS等。作為平臺(tái)方，他們關(guān)注的是如何在大模型運(yùn)行的環(huán)境中加裝監(jiān)控，聚焦“環(huán)境隔離”與“指令審計(jì)”等。

第三類則是新興AI安全供應(yīng)商。其中瑞萊智慧、Protect AI、Pillar Security等會(huì)為模型提供專業(yè)的 “壓力測(cè)試”，主動(dòng)識(shí)別訓(xùn)練集中的投毒后門，同時(shí)通過神經(jīng)元級(jí)的檢測(cè)技術(shù)，發(fā)現(xiàn) AI 在處理特定數(shù)據(jù)時(shí)的異常波動(dòng)，從而精準(zhǔn)揪出隱藏在海量語料中的 “毒株”。

同樣屬于AI安全供應(yīng)商的海致科技，則核心聚焦 AI 幻覺治理與圖模融合可信推理，星瀾科技側(cè)重 AI內(nèi)容安全與深度偽造檢測(cè)。

“AI技術(shù)的大規(guī)模應(yīng)用正以前所未有的深度重塑網(wǎng)絡(luò)安全的產(chǎn)業(yè)版圖?！币晃蝗斯ぶ悄芡顿Y人士告訴華爾街見聞，網(wǎng)絡(luò)安全建設(shè)的戰(zhàn)略價(jià)值愈發(fā)突出，行業(yè)正迎來關(guān)鍵拐點(diǎn)。

段磊則認(rèn)為，隨著AI的飛速發(fā)展，大模型、算力的門檻極高，被一些大型公司占據(jù)，但數(shù)據(jù)有很多深耕的空間，可能有很多新的機(jī)會(huì)。AI要實(shí)現(xiàn)更大的價(jià)值，安全可靠是必須的，所以安全是一個(gè)重要的產(chǎn)業(yè)機(jī)遇方向。

當(dāng)AI正式成為信息入口，確保其“水源”不被污染，已不僅是技術(shù)挑戰(zhàn)，更是守護(hù)數(shù)字時(shí)代公共安全的底線。這場(chǎng)針對(duì)AI投毒的“防御戰(zhàn)”，才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.