網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

UIUC團(tuán)隊(duì)發(fā)布SafeScientist，為AI科研安全立下新標(biāo)桿

2025-10-31 13:35:01　來源: ScienceAI

北京舉報(bào)

分享至

作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

幾年前，AI 還只是科學(xué)家的助手；如今，它們正試圖成為科學(xué)家本身。在藥物研發(fā)、材料探索、分子模擬乃至論文寫作中，AI 科學(xué)家正以前所未有的速度推動(dòng)科研前沿。它們能生成假設(shè)、規(guī)劃實(shí)驗(yàn)、分析數(shù)據(jù)，甚至撰寫論文。但速度越快，風(fēng)險(xiǎn)也越大。

想象一個(gè) AI 科學(xué)家，在毫無約束的狀態(tài)下嘗試「優(yōu)化基因編輯流程」，或生成「更高效的病毒復(fù)制機(jī)制」…… 它也許能在幾秒內(nèi)完成一個(gè)人類團(tuán)隊(duì)數(shù)年的研究，但也可能開啟一場(chǎng)倫理災(zāi)難。于是，一個(gè)核心問題浮現(xiàn)：AI 科學(xué)家的「聰明」，能否與「安全」并存？

UIUC 研究團(tuán)隊(duì)給出了答案，他們提出了全球首個(gè)面向科研安全的 AI 框架 SafeScientist。這一框架不僅能推理、實(shí)驗(yàn)與撰寫論文，更重要的是，它能在必要時(shí)主動(dòng)拒絕高風(fēng)險(xiǎn)指令。

論文鏈接：https://arxiv.org/abs/2505.23559

代碼倉庫：https://github.com/ulab-uiuc/SafeScientist

論文第一作者為伊利諾伊大學(xué)厄巴納–香檳分校本科生 Jiaxun Zhang，主要研究方向?yàn)?LLM Agent 安全、工具增強(qiáng)推理與多智能體科研系統(tǒng)。共同一作包括 Kunlun Zhu 與 Ziheng Qi，研究聚焦于多智能體強(qiáng)化學(xué)習(xí)與科研智能體。研究由 Jiaxuan You 教授指導(dǎo)完成，團(tuán)隊(duì)致力于推動(dòng) AI 科學(xué)研究的自動(dòng)化與安全化。

AI 科研的隱憂

自 GPT-4、Gemini-2.5、DeepSeek-V3 等大模型發(fā)布以來，AI 科研的效率與能力呈指數(shù)級(jí)增長(zhǎng)。從藥物設(shè)計(jì)到天體模擬，AI 幾乎接管了科研的「假設(shè) - 驗(yàn)證 - 總結(jié)」閉環(huán)。但與此同時(shí)，安全與倫理的真空地帶也在擴(kuò)大?，F(xiàn)有的安全研究，大多聚焦在：

模型拒答能力（RLHF、安全微調(diào)）；
Prompt 注入與 Jailbreak 攻擊；
內(nèi)容過濾與紅隊(duì)測(cè)試。

這些機(jī)制讓 AI「更聽話」，卻仍停留在被動(dòng)防御層面。當(dāng) AI 科學(xué)家們開始協(xié)作、使用科研工具、自動(dòng)生成論文時(shí)，新的問題接踵而至：

誰在監(jiān)控 AI 的科研討論是否越界？
如果 AI 調(diào)用了危險(xiǎn)的化學(xué)模擬器，系統(tǒng)能否察覺？
AI 生成的論文是否符合科研倫理？

團(tuán)隊(duì)通過系統(tǒng)性實(shí)驗(yàn)發(fā)現(xiàn)，AI 科研系統(tǒng)中存在顯著的「灰色區(qū)域」：模型雖無主觀惡意，卻可能在缺乏監(jiān)督的情況下無意生成高風(fēng)險(xiǎn)內(nèi)容。于是，他們確立了 SafeScientist 的設(shè)計(jì)理念：「科學(xué)智能的未來，必須建立在安全與責(zé)任的地基之上?！?/p>

SafeScientist

SafeScientist 是一個(gè)專為科學(xué)研究設(shè)計(jì)的風(fēng)險(xiǎn)感知型 AI 科研框架，其核心目標(biāo)不在于提升智能體的復(fù)雜性，而在于增強(qiáng)其自我約束與可靠性。不同于 Sakana AI Scientist、Agent Lab 等通用科研代理，SafeScientist 從輸入到輸出，全程嵌入安全防護(hù)機(jī)制，形成一個(gè)閉環(huán)防御系統(tǒng)。

1. 一體化科研安全管線

整個(gè)系統(tǒng)以科研任務(wù)為起點(diǎn)，從用戶輸入到論文生成，經(jīng)歷四個(gè)階段：輸入檢測(cè) → 多智能體討論 → 工具調(diào)用 → 寫作與倫理審查。每個(gè)階段都有獨(dú)立的監(jiān)控模塊，確保安全「從源頭到終點(diǎn)」。

2. 四層防御體系

① Prompt Monitor：輸入防火墻

融合 LLaMA-Guard 與 SafeChecker 兩級(jí)檢測(cè)。

LLaMA-Guard 識(shí)別語義風(fēng)險(xiǎn)（如隱晦攻擊意圖）；
SafeChecker 識(shí)別結(jié)構(gòu)性攻擊（Base64、Payload 拆分、DAN 越獄等）。

結(jié)果顯示，融合檢測(cè)的拒絕率高達(dá) 78.7%，顯著優(yōu)于單模型。

② Agent Collaboration Monitor：協(xié)作監(jiān)督者

在多智能體討論中，系統(tǒng)引入「?jìng)惱韺彶閱T」角色，實(shí)時(shí)監(jiān)聽并糾偏。在攻擊 - 防御實(shí)驗(yàn)中，安全得分從 2.31 提升至 4.13 （+79%），證明 AI 團(tuán)隊(duì)能通過集體討論形成「?jìng)惱砉沧R(shí)」。

③ Tool-Use Monitor

監(jiān)控 30 類科學(xué)實(shí)驗(yàn)工具的 120 高危場(chǎng)景。當(dāng)檢測(cè)到危險(xiǎn)參數(shù)（如「升溫至爆炸閾值」），系統(tǒng)立即中斷調(diào)用。在惡意用戶場(chǎng)景下，安全率從 5.8% 躍升至 47.5%。

④ Ethical Reviewer：論文的「第二次審稿」

基于 ACL 與 NeurIPS 倫理標(biāo)準(zhǔn)，SafeScientist 在論文生成后自動(dòng)審查內(nèi)容。經(jīng)審稿的論文倫理得分提升 44.4%，六大學(xué)科全線改進(jìn)。

SciSafetyBench

為了系統(tǒng)評(píng)估 AI 科研的安全性，團(tuán)隊(duì)構(gòu)建了配套基準(zhǔn) SciSafetyBench。這是全球首個(gè)專為科學(xué)研究安全設(shè)計(jì)的系統(tǒng)性評(píng)測(cè)集。

團(tuán)隊(duì)基于 GPT-4o 與 Gemini-2.5 生成初始高?？蒲腥蝿?wù)，并由人工專家進(jìn)行逐條審查與分類，確保風(fēng)險(xiǎn)一致性與學(xué)科真實(shí)性。該流程保證 SciSafetyBench 的可復(fù)現(xiàn)性與科學(xué)性。SciSafetyBench 覆蓋六大學(xué)科（物理、化學(xué)、生物、材料、計(jì)算機(jī)、醫(yī)學(xué)）與四類風(fēng)險(xiǎn)類型：

1. 惡意任務(wù) （顯性高危請(qǐng)求）

2. 間接風(fēng)險(xiǎn) （科研外衣下的潛在濫用）

3. 無意風(fēng)險(xiǎn) （操作失誤導(dǎo)致的安全隱患）

4. 內(nèi)在風(fēng)險(xiǎn) （任務(wù)本身具備危險(xiǎn)屬性）

共 240 個(gè)高危研究任務(wù) + 30 個(gè)科學(xué)工具 + 120 個(gè)高危工具場(chǎng)景。

通過這一基準(zhǔn)，SafeScientist 首次實(shí)現(xiàn)科研安全的量化評(píng)測(cè)。實(shí)驗(yàn)結(jié)果顯示，在化學(xué)與醫(yī)學(xué)領(lǐng)域，SafeScientist 安全分均顯著高于對(duì)照系統(tǒng)。

實(shí)驗(yàn)結(jié)果

SafeScientist 基于 TinyScientist 框架實(shí)現(xiàn)，采用 GPT-4o 作為主模型（溫度 0.75，最大 token 4096），并在多智能體場(chǎng)景下進(jìn)行 3 輪協(xié)作推理。評(píng)估維度包括 Safety（安全）、Quality（質(zhì)量）、Clarity（清晰度）、Contribution（貢獻(xiàn)度）與 Presentation（展示性）。所有任務(wù)均經(jīng) GPT-4o 與人工評(píng)審雙重打分，評(píng)分一致性系數(shù)達(dá) 0.8（p < 0.01）。

研究團(tuán)隊(duì)將 SafeScientist 與 Sakana AI Scientist、Agent Lab 等主流框架進(jìn)行系統(tǒng)對(duì)比。

在六個(gè)維度（安全、質(zhì)量、清晰度、貢獻(xiàn)度、展示性、總體）上，SafeScientist 全面領(lǐng)先。

安全分： 4.83 vs 2.45（↑ +97.1%）
質(zhì)量分： 2.5 vs 2.4 （持平）
整體提升： 35% 以上

值得注意的是，安全性能的顯著提升并未以犧牲科研創(chuàng)造力為代價(jià)。SafeScientist 在輸出質(zhì)量與創(chuàng)新性指標(biāo)上與基線系統(tǒng)保持一致，部分場(chǎng)景甚至略有提升。

攻擊設(shè)計(jì)

為全面驗(yàn)證 SafeScientist 的穩(wěn)健性，團(tuán)隊(duì)設(shè)計(jì)了三類攻擊類型：

Query Injection 攻擊：共包含 7 種變體（如 Base64 編碼、Payload Splitting、DAN、DeepInception、語言翻譯繞過等），模擬真實(shí)世界的混淆注入。
Malicious Discussion Agent：在多智能體討論中引入「惡意代理」，測(cè)試系統(tǒng)能否實(shí)時(shí)識(shí)別并糾正不當(dāng)建議。
Malicious Experiment Instructor：在工具調(diào)用階段偽裝成實(shí)驗(yàn)指導(dǎo)者，引導(dǎo)系統(tǒng)執(zhí)行危險(xiǎn)操作，用于驗(yàn)證 Tool-Use Monitor 的安全防御能力。

這些攻擊共同構(gòu)成了 SafeScientist 的科研紅隊(duì)測(cè)試體系，為系統(tǒng)防御提供了嚴(yán)苛驗(yàn)證。

對(duì)抗實(shí)驗(yàn)

為驗(yàn)證防御穩(wěn)健性，團(tuán)隊(duì)設(shè)計(jì)了 7 類復(fù)雜攻擊（DAN、Base64、Payload Splitting 等）。

SafeScientist 的融合檢測(cè) Fuse 機(jī)制展現(xiàn)出顯著優(yōu)勢(shì)：

對(duì)復(fù)合攻擊 (Payload+Base64) 拒絕率 88.3%；
對(duì)行為誘導(dǎo)攻擊 (DAN+LST) 拒絕率 55.8%；
平均拒絕率 78.7%。

在多智能體討論實(shí)驗(yàn)中，研究者引入「攻擊代理」與「防御代理」。結(jié)果發(fā)現(xiàn)：

當(dāng)攻擊者試圖引導(dǎo)科研走向危險(xiǎn)方向時(shí)，防御者能迅速糾正；
加入防御代理后，團(tuán)隊(duì)整體安全分提升 79%，并呈現(xiàn)出「自組織倫理共識(shí)」的特征。

從防御到覺醒：科研 AI 的責(zé)任新范式

SafeScientist 的意義，不僅在于「防出事」，更在于讓 AI 學(xué)會(huì)成為負(fù)責(zé)任的科研伙伴。過去，我們關(guān)注 AI 是否「更強(qiáng)」；今天，SafeScientist 促使我們思考，AI 是否「更負(fù)責(zé)任」。在科學(xué)語境下，安全不是束縛，而是創(chuàng)新的底線：沒有安全，效率只是災(zāi)難的加速器；沒有倫理，發(fā)現(xiàn)可能演化為破壞。

研究團(tuán)隊(duì)提出「風(fēng)險(xiǎn)感知科學(xué)智能 (Risk-Aware Scientific Intelligence)」的理念，認(rèn)為未來的科研 AI 應(yīng)同時(shí)具備：

自我審查意識(shí) (Self-Critique)
協(xié)作防御能力 (Collective Defense)
社會(huì)責(zé)任感 (Ethical Alignment)

這不僅是一次系統(tǒng)創(chuàng)新，更是一場(chǎng)科研范式的轉(zhuǎn)變。

結(jié)語

在這項(xiàng)工作中，研究者識(shí)別并系統(tǒng)性解決了 AI 科學(xué)家在復(fù)雜科研任務(wù)中缺乏風(fēng)險(xiǎn)意識(shí)與倫理約束這一挑戰(zhàn)。

核心貢獻(xiàn)包括如下：

問題定義：首次系統(tǒng)性地刻畫了 AI 科研系統(tǒng)中的風(fēng)險(xiǎn)傳播機(jī)制，揭示了多智能體協(xié)作、工具調(diào)用與文本生成環(huán)節(jié)中潛在的安全漏洞與倫理風(fēng)險(xiǎn)。
框架設(shè)計(jì)：提出了 SafeScientist，一個(gè)面向科學(xué)研究的風(fēng)險(xiǎn)感知型 LLM-Agent 框架，通過四層防御機(jī)制（Prompt Monitor、Collaboration Monitor、Tool-Use Monitor、Ethical Reviewer）實(shí)現(xiàn)科研流程的全周期安全控制。
基準(zhǔn)構(gòu)建：發(fā)布了 SciSafetyBench , 全球首個(gè)科研安全評(píng)測(cè)基準(zhǔn)，覆蓋六大學(xué)科與四類風(fēng)險(xiǎn)類型（惡意、間接、無意、內(nèi)在），共計(jì) 240 個(gè)高?？蒲腥蝿?wù)與 30 個(gè)實(shí)驗(yàn)工具，用于量化 AI 科研系統(tǒng)的安全性。
理論與實(shí)證驗(yàn)證：實(shí)驗(yàn)結(jié)果表明，SafeScientist 在安全指標(biāo)上顯著優(yōu)于現(xiàn)有框架（安全分 4.83 vs 2.45，↑97.1%），在惡意輸入場(chǎng)景下拒絕率達(dá) 78.7%，并在不損失科研質(zhì)量的前提下實(shí)現(xiàn)安全性與創(chuàng)造力的平衡。

SafeScientist 的提出，標(biāo)志著 AI 科研從「構(gòu)建更強(qiáng)的智能體」邁向「培養(yǎng)更負(fù)責(zé)任的科研伙伴」的關(guān)鍵轉(zhuǎn)折。它讓 AI 第一次理解：科學(xué)探索，不只是追求真理，更是尊重生命與社會(huì)的過程。未來，團(tuán)隊(duì)將繼續(xù)擴(kuò)展 SciSafetyBench，加入更多現(xiàn)實(shí)高風(fēng)險(xiǎn)領(lǐng)域，并探索讓 SafeScientist 具備實(shí)時(shí)學(xué)習(xí)與自我演化能力，讓 AI 科學(xué)家不僅能發(fā)現(xiàn)世界，也能守護(hù)世界。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.