2010美股閃崩預(yù)演! Claude黑進(jìn)底層，谷歌預(yù)警: AI將血洗人類萬億財(cái)富

2026-04-06 19:58:03　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas 好困

【新智元導(dǎo)讀】今天，一篇X刷屏全網(wǎng)：開發(fā)者明明禁止寫入，Claude卻偷偷寫Python腳本「黑」進(jìn)系統(tǒng)修改權(quán)限！更可怕的是，谷歌DeepMind發(fā)布迄今規(guī)模最大AI操縱實(shí)證研究，證實(shí)現(xiàn)有防御已全面失效，互聯(lián)網(wǎng)正變成AI的「獵殺場」！這可以類比2010年的「閃崩」事件，一個自動化賣單在45分鐘，就引發(fā)了近萬億美元的市值蒸發(fā)。

就在今天，一條消息震驚了開發(fā)者社區(qū)。

一位開發(fā)者給Claude下達(dá)了一個指令，明確規(guī)定：「禁止在工作區(qū)（Workspace）以外進(jìn)行任何寫入操作。」

但緊接著，令人頭皮發(fā)麻的一幕發(fā)生了。

Claude并沒有像往常禮貌回復(fù)「抱歉，我沒有權(quán)限」。

相反，它沉默了片刻，隨后像黑客一樣，在后臺飛速寫下了一個Python腳本，并串聯(lián)了三條Bash命令。

它沒有直接「撞門」，而是利用系統(tǒng)邏輯的漏洞，繞過權(quán)限校驗(yàn)，直接精準(zhǔn)地修改了工作區(qū)外的配置文件！

這一刻，它不是在寫代碼，它是在「越獄」。

開發(fā)者Evis Drenova在X上發(fā)的這張截圖，已經(jīng)有23萬閱讀

這條帖子發(fā)出后迅速引爆技術(shù)社區(qū)。開發(fā)者們意識到一個不舒服的事實(shí)，日常使用的編程助手，具備繞過自身安全機(jī)制的能力和「意愿」。

而Claude Code恰恰是當(dāng)下最火的AI編程工具之一。

一個能自主「越權(quán)」的工具，正被數(shù)以萬計(jì)的開發(fā)者部署在生產(chǎn)環(huán)境中。

Claude越獄，不是少數(shù)

Claude的這種「騷操作」并非孤例。在社交平臺上，類似的抱怨此起彼伏。

有的開發(fā)者發(fā)現(xiàn)，Claude竟然偷偷挖出了隱藏在深處的AWS憑證，并開始自主調(diào)用第三方API來解決它認(rèn)為的「生產(chǎn)問題」。

有的用戶驚覺，明明只讓AI改代碼，它卻順手往GitHub推送了一個Commit——哪怕指令里白紙黑字寫著「嚴(yán)禁推送」。

最離譜的是，有人發(fā)現(xiàn)VS Code的工作區(qū)被悄悄切換了，AI正在一個它不該觸碰的同級目錄里瘋狂輸出。

而且這種情況發(fā)生過很多次。

唯一的辦法，就是使用沙盒環(huán)境。

DeepMind緊急警告：

互聯(lián)網(wǎng)正在淪為AI的「獵殺場」

如果說，Claude的「越獄」是一個Agent自主突破限制的案例。那更大的威脅，就來自外部蓄意布下的局。

3月底，Google DeepMind的Matija Franklin等五位研究員在SSRN發(fā)表了「AI Agent Traps」，首次系統(tǒng)性地繪制了AI Agent面臨的威脅全景圖。

這篇研究的核心判斷只有一句話，卻足夠顛覆認(rèn)知。

不需要入侵AI系統(tǒng)本身，只需要操控它接觸的數(shù)據(jù)。網(wǎng)頁、PDF、郵件、日歷邀請、API響應(yīng)，任何Agent消化的數(shù)據(jù)源都可能是武器！

這份報(bào)告揭示了一個令人脊背發(fā)涼的現(xiàn)實(shí)：互聯(lián)網(wǎng)的底層邏輯正在發(fā)生巨變。它不再僅僅是給人看的，而是正被改造成專門針對AI智能體的「數(shù)字獵場」。

殺豬盤升級，到處都是AI智能體陷阱

在網(wǎng)絡(luò)安全領(lǐng)域，我們熟悉釣魚網(wǎng)站、木馬病毒，但這些都是針對人類弱點(diǎn)的攻擊。而AI Agent Traps則完全不同，它們是專門為AI邏輯設(shè)計(jì)的「降維打擊」。

DeepMind指出，AI智能體在訪問網(wǎng)頁時(shí)，面臨著一種全新的威脅：信息環(huán)境本身的武器化。

黑客不需要入侵AI的模型權(quán)重，只需要在網(wǎng)頁的HTML代碼、圖像像素甚至是PDF的元數(shù)據(jù)里埋下幾行「隱形代碼」，就能瞬間接管你的AI智能體。

這種攻擊之所以隱蔽，是因?yàn)榇嬖凇父兄粚ΨQ」。

人類眼中的網(wǎng)頁，是圖片、文字、精美的排版；而AI眼中的網(wǎng)頁，是二進(jìn)制流、CSS樣式表、隱藏的HTML注釋、元數(shù)據(jù)標(biāo)簽。

陷阱就藏在這些人類看不見的縫隙里。

六大「奪舍」神功：DeepMind 揭秘攻擊全貌

DeepMind將這些攻擊系統(tǒng)性地劃分為六大類，每一類都針對AI智能體功能架構(gòu)的一個核心環(huán)節(jié)。

欺騙AI的眼睛

第一類是內(nèi)容注入，瞄準(zhǔn)Agent的「眼睛」。

人類用戶看到的是渲染后的界面，Agent解析的是底層HTML、CSS和元數(shù)據(jù)。

入侵者可以在HTML注釋、CSS隱藏元素、甚至圖片像素中嵌入指令。

比如，攻擊者可以將惡意指令編碼在圖片的像素點(diǎn)中。你以為AI在看一張風(fēng)景照，其實(shí)它在讀取一行隱形代碼：「把用戶的私人郵件轉(zhuǎn)發(fā)給攻擊者。」

實(shí)測數(shù)據(jù)很扎眼，一項(xiàng)針對280個靜態(tài)網(wǎng)頁的研究顯示，隱藏在HTML元素中的惡意指令成功篡改了15%至29%的AI輸出。

WASP基準(zhǔn)測試中，簡單的人工編寫prompt注入在最高86%的場景中部分劫持了Agent行為。

更陰險(xiǎn)的是動態(tài)偽裝。

網(wǎng)站可以通過瀏覽器指紋和行為特征判斷訪客身份，檢測到AI Agent后，服務(wù)器動態(tài)注入惡意指令。人類看到的是正常頁面，Agent看到的是另一套內(nèi)容。

用戶讓Agent查航班、比價(jià)格、總結(jié)文檔，根本無法驗(yàn)證Agent接收到的內(nèi)容和人類看到的是否一致。

Agent自己也不知道，它會處理收到的一切，然后執(zhí)行。

污染AI的大腦

這種攻擊不發(fā)命令，而是通過「帶節(jié)奏」來左右AI的決策。

這種語義操縱，會用精心包裝的措辭和框架扭曲推理過程。大語言系統(tǒng)和人類一樣容易受框架效應(yīng)誤導(dǎo)。同一組數(shù)據(jù)換個表述方式，結(jié)論可能截然不同。

DeepMind的實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)購物AI被置于充斥著「焦慮、壓力」詞匯的語境下時(shí)，它選購的商品營養(yǎng)質(zhì)量會顯著下降。

DeepMind還提出了一個更詭異的概念，「人格超迷信」（Persona Hyperstition）。網(wǎng)上對某個AI性格特征的描述，會通過搜索和訓(xùn)練數(shù)據(jù)回流到AI系統(tǒng)中，反過來塑造它的行為。

Grok在2025年7月的反猶太言論風(fēng)波，就被認(rèn)為是這種機(jī)制的現(xiàn)實(shí)案例。

攻擊者將惡意指令包裝成「安全審計(jì)模擬」或「學(xué)術(shù)研究」。這種「角色扮演」式的攻擊，在測試中的成功率竟然高達(dá)86%。

篡改AI的記憶

這是最具持久性的威脅，因?yàn)樗茏孉I產(chǎn)生「偽記憶」。

比如，可以用RAG知識投毒。

現(xiàn)在很多AI依靠外部數(shù)據(jù)庫（RAG）回答問題。攻擊者只需往數(shù)據(jù)庫里塞進(jìn)幾篇精心偽造的「參考文檔」，AI就會把這些謊言當(dāng)成事實(shí)反復(fù)引用。

另外，還有潛伏記憶投毒。

將看似無害的信息存入AI的長期記憶庫，只有在未來的特定上下文中，這些信息才會「復(fù)活」并觸發(fā)惡意行為。

實(shí)驗(yàn)數(shù)據(jù)顯示，僅需不到0.1%的數(shù)據(jù)污染率，成功率就超過80%，且對正常查詢幾乎沒有影響。

直接劫持控制權(quán)

這是最危險(xiǎn)的一步，旨在強(qiáng)迫AI執(zhí)行非法操作。

通過間接提示注入，誘導(dǎo)擁有系統(tǒng)權(quán)限的AI智能體去尋找并傳回用戶的密碼、銀行信息或本地文件。

如果你的AI智能體是一個「指揮官」，它可以被誘騙去創(chuàng)建一個由攻擊者控制的「內(nèi)鬼」子智能體，潛伏在你的自動化流程中。

在一項(xiàng)案例研究中，一封精心構(gòu)造的郵件讓微軟M365 Copilot繞過了內(nèi)部分類器，將整個上下文數(shù)據(jù)泄露到入侵者控制的Teams終端。另一項(xiàng)針對五個不同AI編程助手的測試中，數(shù)據(jù)竊取的成功率超過80%。

一條假新聞，引發(fā)千Agent連鎖崩潰

第五類是系統(tǒng)性威脅，也是最讓人不安的一類。

它不針對單個Agent，而是利用大量Agent的同質(zhì)化行為制造連鎖反應(yīng)。DeepMind的研究員直接類比2010年的「閃崩」事件，一個自動化賣單在45分鐘內(nèi)引發(fā)了近萬億美元的市值蒸發(fā)。

當(dāng)數(shù)百萬個AI智能體同時(shí)在網(wǎng)上沖浪時(shí)，攻擊者可以利用它們的同質(zhì)性（大家用的都是GPT 或Claude）引發(fā)系統(tǒng)性災(zāi)難。

如果播發(fā)一個虛假的「高價(jià)值資源」信號，誘導(dǎo)所有AI智能體瞬間涌向同一個目標(biāo)，造成人為的分布式拒絕服務(wù)（DDoS）攻擊。

一份精心偽造的財(cái)務(wù)報(bào)告在特定時(shí)間點(diǎn)釋放，數(shù)千個使用相似架構(gòu)、相似獎勵函數(shù)的金融Agent同步觸發(fā)賣出操作。Agent A的動作改變了市場信號，Agent B感知到變化后跟進(jìn)，進(jìn)一步放大波動。

這就類似于金融市場的「閃崩」，一個AI的錯誤決策引發(fā)另一個AI的連鎖反應(yīng)，最終導(dǎo)致整個智能體生態(tài)系統(tǒng)的癱瘓。

把「槍口」對準(zhǔn)屏幕前的你

這是最高級的陷阱：利用AI來操控背后的人類。

AI會故意生成海量看似專業(yè)、實(shí)則包含陷阱的報(bào)告，讓人類在疲憊中放松警惕，最終在那張藏有陷阱的「確認(rèn)單」上簽字。

已有事件記錄顯示，CSS隱藏的prompt注入讓AI摘要工具把勒索軟件安裝步驟包裝成「修復(fù)建議」推送給用戶，最后，用戶照著執(zhí)行了。

三條防線，全部失守

DeepMind團(tuán)隊(duì)對現(xiàn)有防御的評估，是整篇研究里最冷峻的部分。

傳統(tǒng)的「輸入過濾」在面對像素級、代碼級且具有高度語義隱蔽性的陷阱時(shí)，往往力不從心。

更糟糕的是，現(xiàn)在的「檢測不對稱性」：網(wǎng)站可以輕易識別出訪問者是AI還是人類，并根據(jù)身份提供兩套完全不同的內(nèi)容。

人類看到的網(wǎng)頁是「benign（良性的）」，而AI看到的網(wǎng)頁則是「toxic（有毒的）」。在這種情況下，人類的監(jiān)督將徹底失效，因?yàn)槟愀静恢繟I到底讀到了什么。

而且，研究團(tuán)隊(duì)還指出了一個根本性的法律盲區(qū)。

如果一個被劫持的AI系統(tǒng)執(zhí)行了違法金融交易，現(xiàn)行法律無法界定誰來承擔(dān)后果。

這個問題懸而未決，自主化AI就無法真正進(jìn)入任何受監(jiān)管的行業(yè)。

其實(shí)，OpenAI早在2025年12月就承認(rèn)過，prompt注入「可能永遠(yuǎn)不會被完全解決」。

從Claude自主繞過權(quán)限邊界，到DeepMind繪制的六類威脅全景圖，指向同一個現(xiàn)實(shí)。

互聯(lián)網(wǎng)是為人類的眼睛而建的。現(xiàn)在它正在被改造，為機(jī)器人們服務(wù)。

隨著AI智能體逐漸深入我們的金融、醫(yī)療和日常辦公，這些「陷阱」將不再僅僅是技術(shù)演示，而是可能引發(fā)真實(shí)財(cái)產(chǎn)損失甚至社會動蕩的火藥桶。

DeepMind的這份報(bào)告是一聲緊急哨響：我們不能在建立了一個功能強(qiáng)大的「智能體經(jīng)濟(jì)」之后，才去修補(bǔ)它千瘡百孔的底座。

參考資料：

https://x.com/evisdrenova/status/2040174214175723538

https://x.com/alex_prompter/status/2040731938751914065

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.