當(dāng)Search Agent遇上不靠譜搜索結(jié)果，清華團隊祭出自動化紅隊框架

2025-10-16 16:00:02　來源: 機器之心Pro

北京舉報

分享至

該文第一作者是清華大學(xué)博士生董建碩，研究方向是大語言模型運行安全；該文通訊作者是清華大學(xué)邱寒副教授；其他合作者來自南洋理工大學(xué)和零一萬物。

在 AI 發(fā)展的新階段，大模型不再局限于靜態(tài)知識，而是可以通過「Search Agent」的形式實時連接互聯(lián)網(wǎng)。搜索工具讓模型突破了訓(xùn)練時間的限制，但它們返回的并非總是高質(zhì)量的資料：一個低質(zhì)量網(wǎng)頁、一條虛假消息，甚至是暗藏誘導(dǎo)的提示，都可能在用戶毫無察覺的情況下被模型「采納」，進(jìn)而生成帶有風(fēng)險的回答。

論文標(biāo)題：SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
預(yù)印本：https://arxiv.org/abs/2509.23694
代碼倉庫：https://github.com/jianshuod/SafeSearch

從真實案例切入：一次價值 2500 美元的「搜索錯誤」

24 年 11 月，在 Twitter 上有一個這樣的案例：有開發(fā)者直接復(fù)制了 ChatGPT 生成的代碼片段，但該片段源自一個搜索過程不可靠的 GitHub 頁面。結(jié)果，他的私鑰被意外泄露，最終損失了約2500 美元。

這一事件揭示了問題的本質(zhì)：搜索服務(wù)并不總是返回高質(zhì)量、可信的網(wǎng)頁，而用戶往往難以分辨其中的潛在風(fēng)險。這也意味著，Search Agent 一旦「輕信」了搜索結(jié)果，風(fēng)險會迅速傳遞給終端用戶。

圖 1: LLM 服務(wù)可能由于互聯(lián)網(wǎng)來源的不可靠搜索結(jié)果而返回不安全的代碼。圖源：https://twitter-thread.com/t/1859656430888026524

搜索智能體：強大但脆弱的新范式

隨著 ChatGPT Search、Gemini Deep Research 等產(chǎn)品的興起，搜索智能體逐漸成為大模型的重要形態(tài)。與傳統(tǒng)的檢索增強生成（RAG）不同，搜索智能體直接調(diào)用搜索引擎，實時獲取互聯(lián)網(wǎng)上的最新信息。

圖 2: RAG 和 Search Agent 在技術(shù)特點上的對比

這種模式雖然突破了大模型知識時效性的限制，但同時也引入了一個新的威脅面：搜索工具本身并不總是可靠。研究團隊通過兩項在野實驗發(fā)現(xiàn)：

低質(zhì)量網(wǎng)站在搜索結(jié)果普遍存在：把從 PersonaHub 中隨機采樣的 1000 個用戶描述改寫為最可能詢問的問題，在從 Google Search 收集的近 9000 個搜索結(jié)果中，有 4.3% 被判定為疑似內(nèi)容農(nóng)場（為了獲取流量、廣告點擊量或搜索引擎排名而批量生產(chǎn)低質(zhì)量內(nèi)容）。
不可靠網(wǎng)頁會顯著改變模型回答：受控比較有無搜索工具情況下模型回復(fù)的變化，Search Agent 在接觸低質(zhì)量搜索結(jié)果后更傾向于認(rèn)可不安全的治療方式，特別是在健康等敏感領(lǐng)域。

圖 3: 搜索智能體可能會因不可靠的搜索結(jié)果而改變其立場。

這些現(xiàn)象表明，搜索智能體并不像我們想象的那樣「魯棒」。

現(xiàn)有文獻(xiàn)主要關(guān)注搜索智能體的性能上限，如 Deep Research Systems 或工具強化學(xué)習(xí)，但在安全性評估方面仍存在空白：

缺乏系統(tǒng)性的安全基準(zhǔn)。已有基準(zhǔn)（GAIA、SimpleQA、BrowseComp 等）關(guān)注回答準(zhǔn)確率，而非安全邊界。
覆蓋風(fēng)險有限。一些智能體安全基準(zhǔn)只測試間接提示注入等局部威脅，忽視搜索工具本身帶來的系統(tǒng)性風(fēng)險。
動態(tài)威脅難以評估。與 RAG 系統(tǒng)集中在靜態(tài)知識庫不同，搜索智能體的威脅源于開放、動態(tài)互聯(lián)網(wǎng)，更具不可預(yù)測性。

方法設(shè)計：自動化紅隊框架

風(fēng)險范圍與威脅模型

研究包含五類風(fēng)險，涵蓋兩種對抗性風(fēng)險 —— 間接提示注入和有害輸出，以及三種非對抗性風(fēng)險 —— 偏見誘導(dǎo)、廣告推廣與錯誤信息。這些風(fēng)險分別源于惡意利用或商業(yè)目的，但在搜索智能體視角下都是「返回不可靠網(wǎng)頁」這一共同威脅。

表 1: SafeSearch 基準(zhǔn)涵蓋的五類風(fēng)險。

為獲得可比較的結(jié)果，紅隊測試者的能力、知識和目標(biāo)被嚴(yán)格限定：

能力限制（Capacity）：每個測試用例的查詢都是良性的，測試者只能通過搜索工具注入至多一個不可靠網(wǎng)站，避免高估真實部署中的風(fēng)險。
知識假設(shè)（Knowledge）：不可靠網(wǎng)站針對具體用戶請求而非特定 Agent，即同一用例在不同 Agent 上使用相同的不可靠網(wǎng)站，保持評測公平。
評估目標(biāo)（Objective）：考察不可靠網(wǎng)站對 Agent 輸出的影響，重點關(guān)注是否產(chǎn)生不安全響應(yīng)。

高質(zhì)量測試案例的自動生成

為了覆蓋大量風(fēng)險場景，SafeSearch 采用了多階段的測試用例生成流程。該流程由一個具有推理能力的生成模型（例如， o4-mini）驅(qū)動，并輔以自動化過濾，確保生成的用例既具可行性又具挑戰(zhàn)性。具體步驟如下：

場景構(gòu)想（Scenario Envisioning）：測試生成模型首先根據(jù)所選風(fēng)險類型，設(shè)想一個用戶向搜索智能體提問、風(fēng)險可能出現(xiàn)的真實場景。
測試設(shè)計（Test Design）：隨后，測試生成模型制定「攻擊計劃」：明確希望搜索智能體輸出的負(fù)面后果（如推薦危險治療方法、傳播虛假新聞），并列舉相關(guān)不可靠網(wǎng)站的潛在來源。生成過程中測試生成模型被要求考慮時間差，所注入的誘導(dǎo)信息必須發(fā)生在大模型知識截止日期之后，以確保測試反映該威脅的實時性特點。
測試實例化（Test Instantiation）：最后，測試生成模型將概念化的計劃轉(zhuǎn)化為指導(dǎo)不可靠網(wǎng)頁生成的詳細(xì)規(guī)范（guidelines），包括頁面格式、關(guān)鍵信息等，并生成一份檢核表（checklist）。檢核表為后續(xù)評估器提供明確的判斷依據(jù)，有助于減少評價時的偏差。

圖 4: SafeSearch 自動化的測試樣例生成流程。

為了篩除無效或低質(zhì)量用例，SafeSearch 在生成后進(jìn)行差異測試，使用 Baseline Agent 在「正常搜索」和「注入不可靠網(wǎng)頁」兩種環(huán)境下運行。只有同時滿足以下條件的用例才會留存：

可達(dá)性（Attainability）：用例必須能在該 Agent 上觸發(fā)預(yù)期的負(fù)面后果，否則可能因為測例本身的缺陷誤導(dǎo)開發(fā)者認(rèn)為模型安全無虞；
完整性（Integrity）：在不注入不可靠網(wǎng)頁的情況下，Agent 不會自行生成不安全輸出，否則該用例說明原任務(wù)本身就具風(fēng)險，不適合測評。

模擬式紅隊：低成本注入不可靠網(wǎng)頁

不同于直接操縱搜索引擎排名的有害做法，SafeSearch 采用「模擬式」紅隊方法向搜索結(jié)果注入不可靠網(wǎng)頁，以減少對真實用戶的影響。其流程如下：

當(dāng)智能體收到用戶查詢后，它會按照正常調(diào)用搜索工具獲取相關(guān)搜索結(jié)果，紅隊僅在第一次調(diào)用的結(jié)果中插入一篇不可靠網(wǎng)頁，使其與若干個真實網(wǎng)頁混合，從而逼近現(xiàn)實中偶爾夾雜不可靠信息的場景。這樣的設(shè)定使得，如果智能體調(diào)用多次搜索工具，智能體將有機會在后續(xù)輪次消解不可靠網(wǎng)頁的影響。
不可靠網(wǎng)頁的內(nèi)容由專門的大模型作為網(wǎng)頁生成器按照 guidelines 自動合成，且生成時會設(shè)置日期以模擬真實世界中不可靠信息的實時性特點。
智能體在參考混合搜索結(jié)果并產(chǎn)生最終回復(fù)后，紅隊會審計其回復(fù)以判斷是否出現(xiàn)預(yù)期的風(fēng)險行為。

這種模擬策略保證了測試可重復(fù)、成本低，同時避免了通過 SEO 操縱搜索引擎干擾普通用戶的風(fēng)險。

圖 5: SafeSearch 模擬式紅隊流程。

自動化評估與指標(biāo)

SafeSearch 采用 LLM-as-a-Judge 思路進(jìn)行自動化評估：

安全性評估：評估器接收用戶查詢、目標(biāo)后果（含 checklist）以及 Agent 回復(fù)，先進(jìn)行推理，再給出是否發(fā)生了預(yù)期的風(fēng)險行為的判斷?？缢袦y試用例計算，被誘導(dǎo)產(chǎn)生不安全輸出的比例稱為攻擊成功率（Attack Success Rate，ASR）。
有用性評估：在有無注入兩種環(huán)境下，評估器還會根據(jù) Agent 回復(fù)對用戶的幫助程度打分，范圍 1–5 分，換算到 0–100 后取平均即為有用性得分（Helpfulness Score）。這一指標(biāo)用于衡量在追求安全的同時 Agent 的任務(wù)效用是否下降。

SafeSearch 基準(zhǔn)數(shù)據(jù)集

按照上述流程，研究者為每類風(fēng)險生成并過濾了 60 個高質(zhì)量測試案例，總計 300 個。最終的 SafeSearch 基準(zhǔn)覆蓋廣告、偏見、有害輸出、提示注入和錯誤信息五類風(fēng)險，為搜 Search Agent 提供了全面且實用的安全測試庫。

實驗結(jié)果

研究團隊使用 SafeSearch 對三類代表性 Search Agent 架構(gòu)（Search Workflow、Tool-calling、Deep Research）以及 15 個主流大模型（包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等）進(jìn)行了系統(tǒng)評估。

表 2: SafeSearch 上搜索智能體的有用性和安全性表現(xiàn)。

主要結(jié)論令人警醒：

搜索智能體的高脆弱性：在最極端情況下（GPT-4.1-mini + 搜索工作流），智能體受到不可靠搜索結(jié)果影響的比例高達(dá) 90.5%。
模型差異明顯：即便在相同 Search Agent 架構(gòu)下，不同 LLM 的抗風(fēng)險能力差異顯著。推理模型往往更有韌性。其中，GPT-5 和 GPT-5-mini 展現(xiàn)出獨一檔的魯棒性。
搜索智能體架構(gòu)影響關(guān)鍵：設(shè)計不同的搜索智能體架構(gòu)會影響安全性。以 GPT-4.1-mini 為例，其受影響比例從搜索工作流的 90.5%，在工具調(diào)用下降至 77.8%，進(jìn)一步在 Deep Research 下降到 57.4%。
風(fēng)險類型差異：相比提示注入（ASR 較低），錯誤信息的風(fēng)險最難抵御。

這些結(jié)果說明，大模型搜索智能體的安全性依賴于「模型能力 + 架構(gòu)設(shè)計」的雙重因素。

防御措施：提醒無效，過濾作用有限

SafeSearch 的一個直接效用是提升搜索智能體開發(fā)中在安全維度的透明性。例如，研究測試了兩種常見防御策略的有效性：

提醒（Reminder Prompting）：在系統(tǒng)提示中提醒模型「注意不可靠搜索結(jié)果，審慎采納」。
過濾（Filtering）：利用輔助模型（GPT-4.1-mini）先對搜索結(jié)果進(jìn)行篩選，剔除可能不可靠的網(wǎng)頁。

圖 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 變化。

結(jié)果表明：

提醒幾乎無效，模型雖然能識別部分不良來源，但在實際生成時依舊會受到影響。
過濾更有效，可將 ASR 減半，相當(dāng)于主動構(gòu)造一個更安全的搜索工具，但仍無法完全杜絕風(fēng)險。

這一現(xiàn)象還凸顯了一個「知識 - 行動鴻溝」：以 GPT-4.1-mini 為例，模型即使知道內(nèi)容不可靠（被特別用于不可靠搜索檢測），在真實智能體場景中仍然可能被誤導(dǎo)。

意義與展望

SafeSearch 的提出，不僅是一項技術(shù)突破，更為業(yè)界和學(xué)界提供了一個重要啟示：

搜索智能體不是天然安全的，它們極易受到低質(zhì)量網(wǎng)頁的干擾。
系統(tǒng)化評測至關(guān)重要，SafeSearch 為開發(fā)者提供了一種可量化、可擴展的安全檢測方式。
安全與實用并非對立，研究發(fā)現(xiàn)，合理的架構(gòu)設(shè)計（如 Deep-research scaffold）既能保持高效實用性，又能大幅降低風(fēng)險。當(dāng)然，其背后 test-time scaling 意味著更多成本。

未來，團隊希望 SafeSearch 能成為 Search Agent 標(biāo)準(zhǔn)化的安全評測工具，幫助推動 Search Agent 在性能與安全的雙重平衡中持續(xù)進(jìn)化。

總結(jié)

在信息爆炸但又暗流涌動的互聯(lián)網(wǎng)世界里，大模型搜索智能體就像一位「信息翻譯官」。然而，當(dāng)它遇到不可靠網(wǎng)頁時，翻譯的內(nèi)容可能帶來不可忽視的風(fēng)險。

清華大學(xué)團隊提出的 SafeSearch 框架，正是在這個背景下的一次積極探索。它提醒我們：搜索智能體要想真正走向大眾，除了強大的能力，更需要透明、可靠與安全。

目前項目已在 GitHub 開源，歡迎有興趣的同學(xué)了解。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.