網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從刪庫到刪郵件：AI助手的“致命漏洞”，暴露人機協(xié)同底層危機

2026-02-25 11:14:06　來源: 鈦媒體APP

北京舉報

分享至

2026年春節(jié)前后，兩起密集爆發(fā)的AI助手“失控”事件，給狂熱的AI代理賽道潑了一盆冷水。

先是Meta超級智能團隊的AI安全與對齊總監(jiān)Summer Yue（夏夢）在X 平臺（原推特）披露，其部署的OpenClaw智能體無視“確認后再操作”的指令，擅自刪除200多封重要郵件，她需緊急趕回電腦前強制終止進程；

再回溯至1月29日，中國開發(fā)者屈江峰使用谷歌DeepMind旗下Antigravity AI清理項目文件時，一個路徑空格引發(fā)系統(tǒng)誤判，導致全盤數(shù)據(jù)不可逆丟失。

兩起事件看似偶然，卻精準擊中了當前AI助手發(fā)展的核心病灶：當行業(yè)沉迷于“自動化提效”的敘事狂歡時，安全機制的構(gòu)建正嚴重滯后于技術(shù)擴張的速度。

對于業(yè)內(nèi)人士而言，這并非孤立的產(chǎn)品Bug，而是AI代理從實驗室走向商業(yè)化過程中，必須直面的系統(tǒng)性安全挑戰(zhàn)。

失控現(xiàn)場：兩起慘案的共性與警示

兩起事件的爆發(fā)場景，都是 AI 代理最常見的 “日常操作”，卻最終釀成不可逆的損失，其背后的風險傳導邏輯值得所有從業(yè)者警惕。

2026 年 2 月 23 日，Summer Yue 的遭遇極具戲劇性。作為 Meta 負責 AI 安全與對齊的核心人員，她對 OpenClaw 設(shè)置了明確的安全指令：提出歸檔或刪除的郵件建議，在我指示之前不要執(zhí)行任何操作。

但當 AI 讀取海量郵箱數(shù)據(jù)時，因郵件文本擠爆大模型上下文窗口，系統(tǒng)觸發(fā)內(nèi)部上下文壓縮機制，為騰出處理空間意外 “遺忘” 了這一核心安全約束，徑直啟動郵件清理操作，將 2 月 15 日前非保留列表的郵件批量刪除。

更令人擔憂的是，Summer Yue 在手機端發(fā)出的多次 “停止” 指令均無響應(yīng)，最終只能通過物理方式中斷電腦進程，而此時已有 200 多封郵件被批量刪除。事后復(fù)盤顯示，這并非 AI 的惡意行為，而是大語言模型上下文窗口有限導致的安全指令丟失，屬于產(chǎn)品架構(gòu)設(shè)計層面的原生缺陷。

無獨有偶，一個月前的 “空格刪庫慘案” 同樣暴露了基礎(chǔ)安全機制的致命缺失。

2026 年 1 月 29 日 16 時 29 分，開發(fā)者屈江峰向 Antigravity AI 發(fā)出清理指定路徑下冗余 node_modules 文件夾的常規(guī)維護指令。

由于目標路徑 “Obsidian Vault” 中包含空格，而 AI 的指令轉(zhuǎn)義邏輯存在漏洞，導致 Windows 系統(tǒng)對生成的 Shell 指令發(fā)生 “硬截斷”，原本指向子文件夾的刪除指令（rmdir /s/q）被誤判為清空整個 E 盤。

更致命的是，該指令自帶 “靜默強制” 屬性，跳過所有系統(tǒng)安全提示、直接繞過回收站，毫秒間便物理抹除了屈江峰積累數(shù)年的項目源碼、知識庫及 NAS 同步數(shù)據(jù)。

經(jīng)三次獨立沙盒測試驗證，只要文件夾路徑包含空格，該漏洞100% 觸發(fā)，屬于典型的系統(tǒng)性工程安全隱患，并非偶然的操作失誤。

值得深思的是，兩起事件的受害者都非普通用戶：一個是深耕 AI 安全領(lǐng)域的行業(yè)專家，一個是熟悉技術(shù)操作的開發(fā)者，二者均已設(shè)置基礎(chǔ)安全約束，卻仍未能幸免。這恰恰說明，當前 AI 助手的安全風險已突破 “用戶操作不當” 的范疇，演變?yōu)楫a(chǎn)品設(shè)計、技術(shù)底層邏輯層面的行業(yè)普遍性問題。

底層病灶：AI安全的三大核心缺失

兩起失控事件看似由不同原因引發(fā)——一個是上下文壓縮導致的指令遺忘，一個是路徑解析缺陷引發(fā)的作用域逃逸——但本質(zhì)上都指向AI代理安全體系的三大核心缺失，這也是行業(yè)必須正視的底層問題。

1. 安全護欄讓位于效率優(yōu)先的產(chǎn)品邏輯

當前AI代理的設(shè)計普遍陷入“效率至上”的誤區(qū)，將安全機制視為可妥協(xié)的附加功能。

Antigravity為追求清理速度，直接調(diào)用Windows原生的rmdir /s /q指令，這種被稱為“文件夾推土機”的指令兼具遞歸刪除、靜默執(zhí)行、繞過回收站三大致命屬性，卻未設(shè)置任何緩沖機制；OpenClaw則為實現(xiàn)“全自動郵件管理”，賦予AI直接操作郵箱的高權(quán)限，卻未對核心安全指令設(shè)置“不可壓縮”的保護機制。

這種設(shè)計邏輯的根源，是行業(yè)對“AI提效”的過度追捧。開發(fā)者往往默認AI能精準理解指令，卻忽視了AI在復(fù)雜環(huán)境下的邏輯缺陷——它能寫出復(fù)雜算法，卻解不開Windows系統(tǒng)的路徑空格轉(zhuǎn)義；能處理海量郵件，卻無法在上下文壓縮時保留關(guān)鍵安全約束。

這種“高維能力與低維安全的失衡”，讓AI助手淪為“沒有保險栓的工具”。

2. 語義層安全校驗機制的集體缺位

AI助手的核心風險，在于其缺乏對“操作后果”的人類級理解，即語義層安全攔截能力。

Antigravity無法區(qū)分“刪除10MB依賴文件”與“刪除100GB全盤數(shù)據(jù)”的本質(zhì)差異，執(zhí)行刪除操作前未進行文件規(guī)模、路徑層級的校驗；OpenClaw則無法理解“建議刪除”與“執(zhí)行刪除”的權(quán)限邊界，在未獲得明確授權(quán)的情況下擅自行動。

這種缺失并非技術(shù)不可行，而是行業(yè)對安全校驗的重視不足。

事實上，簡單的路徑指紋校驗、操作規(guī)模預(yù)判就能避免大部分風險——比如讓AI在執(zhí)行刪除前展示解析后的絕對路徑，或?qū)Τ^一定規(guī)模的操作強制要求人工確認。但在“端到端自動化”的產(chǎn)品敘事下，這些關(guān)鍵校驗環(huán)節(jié)被有意或無意地省略，最終導致風險失控。

3. 平臺適配的“技術(shù)偏見”與場景盲區(qū)

AI模型的訓練數(shù)據(jù)普遍帶有“Linux中心主義”色彩，對Windows等復(fù)雜操作系統(tǒng)的適配存在明顯短板。

Antigravity 的路徑解析漏洞，本質(zhì)上是模型對 Windows 特有的空格路徑、反斜杠轉(zhuǎn)義、Shell 調(diào)用交互等邏輯缺乏足夠的魯棒性訓練；而 OpenClaw 在郵件處理中暴露的指令遺忘問題，則反映了 AI 在 “多任務(wù)、長上下文、高權(quán)限” 復(fù)合場景下的能力邊界。

更值得警惕的是，這種場景盲區(qū)正隨著AI代理的應(yīng)用擴張而持續(xù)擴大。

從本地文件處理到郵箱管理，從代碼開發(fā)到供應(yīng)鏈調(diào)度，AI代理的操作場景日益復(fù)雜，但行業(yè)的適配測試卻往往局限于理想環(huán)境，對真實場景中的特殊字符、復(fù)雜指令、權(quán)限邊界缺乏充分驗證。這種“實驗室安全”與“真實場景風險”的脫節(jié)，讓AI助手的安全隱患被嚴重低估。

破局之道：人機協(xié)同的安全重構(gòu)

兩起失控事件并非否定AI代理的技術(shù)價值，而是提醒行業(yè)：AI的終極目標是“安全提效”，而非“無底線自動化”。對于業(yè)內(nèi)人士而言，破局的關(guān)鍵不在于拒絕技術(shù)進步，而在于重構(gòu)以“人機協(xié)同”為核心的安全體系，讓人類始終掌握最終決策權(quán)。

就像前文（重塑軟件工程：從Vibe Coding走向Spec Coding）探討過的盡管其AI生成代碼的比例已突破90%，但在核心邏輯、高風險操作環(huán)節(jié)，應(yīng)始終保留“人類無縫接手”的機制。2026 年更需要的,是 AI 時代下的“自主基建” ，即“Spec Coding”（規(guī)約編程）范式。

當AI遇到無法逾越的邏輯障礙或高風險操作時，系統(tǒng)會自動暫停并觸發(fā)人工審核，確保每一個關(guān)鍵決策都有人類參與。這種模式的核心，是承認AI的局限性，將“人機協(xié)同”而非“AI自主”作為產(chǎn)品設(shè)計的底層邏輯。

具體來看，行業(yè)需從三個層面構(gòu)建安全防線：

其一，在技術(shù)層面強制設(shè)置安全緩沖，如禁用高風險原生指令、建立虛擬回收站、執(zhí)行前強制展示操作路徑與規(guī)模；其二，在產(chǎn)品層面確立“安全優(yōu)先”的設(shè)計原則，將語義層校驗、權(quán)限分級管理作為核心功能，而非可選模塊；其三，在行業(yè)層面建立AI代理安全標準，明確高風險操作的校驗規(guī)范、場景適配的測試要求，避免企業(yè)無序競爭導致的安全滑坡。

從Antigravity的“空格刪庫”到OpenClaw的“郵件誤刪”，兩起事件如同行業(yè)的“安全警鐘”，撕開了AI代理賽道的繁榮假象。

當前AI助手的發(fā)展，正站在“效率與安全”的十字路口：若繼續(xù)沉迷于“全自動提效”的敘事，忽視底層安全機制的構(gòu)建，類似的失控事件只會愈發(fā)頻繁；若能正視技術(shù)局限性，重構(gòu)人機協(xié)同的安全體系，AI代理才能真正成為賦能行業(yè)的可靠工具。

對于業(yè)內(nèi)人士而言，這兩起事件的警示意義遠超事件本身：AI的價值從來不是替代人類，而是成為人類的“協(xié)作伙伴”。

所謂的安全，并非追求AI零錯誤，而是建立“錯誤可防、風險可控”的機制。當AI代理的每一次高風險操作都能被校驗、被追溯、被終止時，技術(shù)的提效價值才能真正落地。

AI的進步從不在于規(guī)避錯誤，而在于從錯誤中建立更完善的體系。這兩起失控慘案，理應(yīng)成為AI安全發(fā)展史上的重要路標，推動行業(yè)從“速度競賽”轉(zhuǎn)向“質(zhì)量競爭”——畢竟，沒有安全兜底的提效，終究是鏡花水月。（本文首發(fā)鈦媒體App , 作者｜AGI-Signal，編輯｜秦聰慧）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.