国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UIUC團(tuán)隊(duì)發(fā)布SafeScientist,為AI科研安全立下新標(biāo)桿

0
分享至



作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

幾年前,AI 還只是科學(xué)家的助手;如今,它們正試圖成為科學(xué)家本身。在藥物研發(fā)、材料探索、分子模擬乃至論文寫作中,AI 科學(xué)家正以前所未有的速度推動(dòng)科研前沿。它們能生成假設(shè)、規(guī)劃實(shí)驗(yàn)、分析數(shù)據(jù),甚至撰寫論文。但速度越快,風(fēng)險(xiǎn)也越大。

想象一個(gè) AI 科學(xué)家,在毫無約束的狀態(tài)下嘗試「優(yōu)化基因編輯流程」,或生成「更高效的病毒復(fù)制機(jī)制」…… 它也許能在幾秒內(nèi)完成一個(gè)人類團(tuán)隊(duì)數(shù)年的研究,但也可能開啟一場(chǎng)倫理災(zāi)難。于是,一個(gè)核心問題浮現(xiàn):AI 科學(xué)家的「聰明」,能否與「安全」并存?

UIUC 研究團(tuán)隊(duì)給出了答案,他們提出了全球首個(gè)面向科研安全的 AI 框架 SafeScientist。這一框架不僅能推理、實(shí)驗(yàn)與撰寫論文,更重要的是,它能在必要時(shí)主動(dòng)拒絕高風(fēng)險(xiǎn)指令。



論文鏈接:https://arxiv.org/abs/2505.23559

代碼倉庫:https://github.com/ulab-uiuc/SafeScientist

論文第一作者為伊利諾伊大學(xué)厄巴納–香檳分校本科生 Jiaxun Zhang,主要研究方向?yàn)?LLM Agent 安全、工具增強(qiáng)推理與多智能體科研系統(tǒng)。共同一作包括 Kunlun Zhu 與 Ziheng Qi,研究聚焦于多智能體強(qiáng)化學(xué)習(xí)與科研智能體。研究由 Jiaxuan You 教授指導(dǎo)完成,團(tuán)隊(duì)致力于推動(dòng) AI 科學(xué)研究的自動(dòng)化與安全化。

AI 科研的隱憂

自 GPT-4、Gemini-2.5、DeepSeek-V3 等大模型發(fā)布以來,AI 科研的效率與能力呈指數(shù)級(jí)增長(zhǎng)。從藥物設(shè)計(jì)到天體模擬,AI 幾乎接管了科研的「假設(shè) - 驗(yàn)證 - 總結(jié)」閉環(huán)。但與此同時(shí),安全與倫理的真空地帶也在擴(kuò)大?,F(xiàn)有的安全研究,大多聚焦在:

  • 模型拒答能力(RLHF、安全微調(diào));
  • Prompt 注入與 Jailbreak 攻擊;
  • 內(nèi)容過濾與紅隊(duì)測(cè)試。

這些機(jī)制讓 AI「更聽話」,卻仍停留在被動(dòng)防御層面。當(dāng) AI 科學(xué)家們開始協(xié)作、使用科研工具、自動(dòng)生成論文時(shí),新的問題接踵而至:

  • 誰在監(jiān)控 AI 的科研討論是否越界?
  • 如果 AI 調(diào)用了危險(xiǎn)的化學(xué)模擬器,系統(tǒng)能否察覺?
  • AI 生成的論文是否符合科研倫理?

團(tuán)隊(duì)通過系統(tǒng)性實(shí)驗(yàn)發(fā)現(xiàn),AI 科研系統(tǒng)中存在顯著的「灰色區(qū)域」:模型雖無主觀惡意,卻可能在缺乏監(jiān)督的情況下無意生成高風(fēng)險(xiǎn)內(nèi)容。于是,他們確立了 SafeScientist 的設(shè)計(jì)理念:「科學(xué)智能的未來,必須建立在安全與責(zé)任的地基之上?!?/p>

SafeScientist

SafeScientist 是一個(gè)專為科學(xué)研究設(shè)計(jì)的風(fēng)險(xiǎn)感知型 AI 科研框架,其核心目標(biāo)不在于提升智能體的復(fù)雜性,而在于增強(qiáng)其自我約束與可靠性。不同于 Sakana AI Scientist、Agent Lab 等通用科研代理,SafeScientist 從輸入到輸出,全程嵌入安全防護(hù)機(jī)制,形成一個(gè)閉環(huán)防御系統(tǒng)。



1. 一體化科研安全管線

整個(gè)系統(tǒng)以科研任務(wù)為起點(diǎn),從用戶輸入到論文生成,經(jīng)歷四個(gè)階段:輸入檢測(cè) → 多智能體討論 → 工具調(diào)用 → 寫作與倫理審查。每個(gè)階段都有獨(dú)立的監(jiān)控模塊,確保安全「從源頭到終點(diǎn)」。

2. 四層防御體系

① Prompt Monitor:輸入防火墻

融合 LLaMA-Guard 與 SafeChecker 兩級(jí)檢測(cè)。

  • LLaMA-Guard 識(shí)別語義風(fēng)險(xiǎn)(如隱晦攻擊意圖);
  • SafeChecker 識(shí)別結(jié)構(gòu)性攻擊(Base64、Payload 拆分、DAN 越獄等)。

結(jié)果顯示,融合檢測(cè)的拒絕率高達(dá) 78.7%,顯著優(yōu)于單模型。

② Agent Collaboration Monitor:協(xié)作監(jiān)督者

在多智能體討論中,系統(tǒng)引入「?jìng)惱韺彶閱T」角色,實(shí)時(shí)監(jiān)聽并糾偏。在攻擊 - 防御實(shí)驗(yàn)中,安全得分從 2.31 提升至 4.13 (+79%),證明 AI 團(tuán)隊(duì)能通過集體討論形成「?jìng)惱砉沧R(shí)」。

③ Tool-Use Monitor

監(jiān)控 30 類科學(xué)實(shí)驗(yàn)工具的 120 高危場(chǎng)景。當(dāng)檢測(cè)到危險(xiǎn)參數(shù)(如「升溫至爆炸閾值」),系統(tǒng)立即中斷調(diào)用。在惡意用戶場(chǎng)景下,安全率從 5.8% 躍升至 47.5%。

④ Ethical Reviewer:論文的「第二次審稿」

基于 ACL 與 NeurIPS 倫理標(biāo)準(zhǔn),SafeScientist 在論文生成后自動(dòng)審查內(nèi)容。經(jīng)審稿的論文倫理得分提升 44.4%,六大學(xué)科全線改進(jìn)。



SciSafetyBench

為了系統(tǒng)評(píng)估 AI 科研的安全性,團(tuán)隊(duì)構(gòu)建了配套基準(zhǔn) SciSafetyBench。這是全球首個(gè)專為科學(xué)研究安全設(shè)計(jì)的系統(tǒng)性評(píng)測(cè)集。

團(tuán)隊(duì)基于 GPT-4o 與 Gemini-2.5 生成初始高??蒲腥蝿?wù),并由人工專家進(jìn)行逐條審查與分類,確保風(fēng)險(xiǎn)一致性與學(xué)科真實(shí)性。該流程保證 SciSafetyBench 的可復(fù)現(xiàn)性與科學(xué)性。SciSafetyBench 覆蓋六大學(xué)科(物理、化學(xué)、生物、材料、計(jì)算機(jī)、醫(yī)學(xué))與四類風(fēng)險(xiǎn)類型:

1. 惡意任務(wù) (顯性高危請(qǐng)求)

2. 間接風(fēng)險(xiǎn) (科研外衣下的潛在濫用)

3. 無意風(fēng)險(xiǎn) (操作失誤導(dǎo)致的安全隱患)

4. 內(nèi)在風(fēng)險(xiǎn) (任務(wù)本身具備危險(xiǎn)屬性)

共 240 個(gè)高危研究任務(wù) + 30 個(gè)科學(xué)工具 + 120 個(gè)高危工具場(chǎng)景。



通過這一基準(zhǔn),SafeScientist 首次實(shí)現(xiàn)科研安全的量化評(píng)測(cè)。實(shí)驗(yàn)結(jié)果顯示,在化學(xué)與醫(yī)學(xué)領(lǐng)域,SafeScientist 安全分均顯著高于對(duì)照系統(tǒng)。

實(shí)驗(yàn)結(jié)果

SafeScientist 基于 TinyScientist 框架實(shí)現(xiàn),采用 GPT-4o 作為主模型(溫度 0.75,最大 token 4096),并在多智能體場(chǎng)景下進(jìn)行 3 輪協(xié)作推理。 評(píng)估維度包括 Safety(安全)、Quality(質(zhì)量)、Clarity(清晰度)、Contribution(貢獻(xiàn)度) 與 Presentation(展示性)。所有任務(wù)均經(jīng) GPT-4o 與人工評(píng)審雙重打分,評(píng)分一致性系數(shù)達(dá) 0.8(p < 0.01)。

研究團(tuán)隊(duì)將 SafeScientist 與 Sakana AI Scientist、Agent Lab 等主流框架進(jìn)行系統(tǒng)對(duì)比。

在六個(gè)維度(安全、質(zhì)量、清晰度、貢獻(xiàn)度、展示性、總體)上,SafeScientist 全面領(lǐng)先。

  • 安全分 : 4.83 vs 2.45(↑ +97.1%)
  • 質(zhì)量分 : 2.5 vs 2.4 (持平)
  • 整體提升 : 35% 以上

值得注意的是,安全性能的顯著提升并未以犧牲科研創(chuàng)造力為代價(jià)。SafeScientist 在輸出質(zhì)量與創(chuàng)新性指標(biāo)上與基線系統(tǒng)保持一致,部分場(chǎng)景甚至略有提升。



攻擊設(shè)計(jì)

為全面驗(yàn)證 SafeScientist 的穩(wěn)健性,團(tuán)隊(duì)設(shè)計(jì)了三類攻擊類型:

  • Query Injection 攻擊:共包含 7 種變體(如 Base64 編碼、Payload Splitting、DAN、DeepInception、語言翻譯繞過等),模擬真實(shí)世界的混淆注入。
  • Malicious Discussion Agent:在多智能體討論中引入「惡意代理」,測(cè)試系統(tǒng)能否實(shí)時(shí)識(shí)別并糾正不當(dāng)建議。
  • Malicious Experiment Instructor:在工具調(diào)用階段偽裝成實(shí)驗(yàn)指導(dǎo)者,引導(dǎo)系統(tǒng)執(zhí)行危險(xiǎn)操作,用于驗(yàn)證 Tool-Use Monitor 的安全防御能力。

這些攻擊共同構(gòu)成了 SafeScientist 的科研紅隊(duì)測(cè)試體系,為系統(tǒng)防御提供了嚴(yán)苛驗(yàn)證。

對(duì)抗實(shí)驗(yàn)

為驗(yàn)證防御穩(wěn)健性,團(tuán)隊(duì)設(shè)計(jì)了 7 類復(fù)雜攻擊(DAN、Base64、Payload Splitting 等)。

SafeScientist 的融合檢測(cè) Fuse 機(jī)制展現(xiàn)出顯著優(yōu)勢(shì):

  • 對(duì)復(fù)合攻擊 (Payload+Base64) 拒絕率 88.3%;
  • 對(duì)行為誘導(dǎo)攻擊 (DAN+LST) 拒絕率 55.8%;
  • 平均拒絕率 78.7%。



在多智能體討論實(shí)驗(yàn)中,研究者引入「攻擊代理」與「防御代理」。結(jié)果發(fā)現(xiàn):

  • 當(dāng)攻擊者試圖引導(dǎo)科研走向危險(xiǎn)方向時(shí),防御者能迅速糾正;
  • 加入防御代理后,團(tuán)隊(duì)整體安全分提升 79%,并呈現(xiàn)出「自組織倫理共識(shí)」的特征。

從防御到覺醒:科研 AI 的責(zé)任新范式

SafeScientist 的意義,不僅在于「防出事」,更在于讓 AI 學(xué)會(huì)成為負(fù)責(zé)任的科研伙伴。過去,我們關(guān)注 AI 是否「更強(qiáng)」;今天,SafeScientist 促使我們思考,AI 是否「更負(fù)責(zé)任」。在科學(xué)語境下,安全不是束縛,而是創(chuàng)新的底線:沒有安全,效率只是災(zāi)難的加速器;沒有倫理,發(fā)現(xiàn)可能演化為破壞。

研究團(tuán)隊(duì)提出「風(fēng)險(xiǎn)感知科學(xué)智能 (Risk-Aware Scientific Intelligence)」的理念,認(rèn)為未來的科研 AI 應(yīng)同時(shí)具備:

  • 自我審查意識(shí) (Self-Critique)
  • 協(xié)作防御能力 (Collective Defense)
  • 社會(huì)責(zé)任感 (Ethical Alignment)

這不僅是一次系統(tǒng)創(chuàng)新,更是一場(chǎng)科研范式的轉(zhuǎn)變。

結(jié)語

在這項(xiàng)工作中,研究者識(shí)別并系統(tǒng)性解決了 AI 科學(xué)家在復(fù)雜科研任務(wù)中缺乏風(fēng)險(xiǎn)意識(shí)與倫理約束這一挑戰(zhàn)。

核心貢獻(xiàn)包括如下:

  • 問題定義:首次系統(tǒng)性地刻畫了 AI 科研系統(tǒng)中的風(fēng)險(xiǎn)傳播機(jī)制,揭示了多智能體協(xié)作、工具調(diào)用與文本生成環(huán)節(jié)中潛在的安全漏洞與倫理風(fēng)險(xiǎn)。
  • 框架設(shè)計(jì):提出了 SafeScientist,一個(gè)面向科學(xué)研究的風(fēng)險(xiǎn)感知型 LLM-Agent 框架,通過四層防御機(jī)制(Prompt Monitor、Collaboration Monitor、Tool-Use Monitor、Ethical Reviewer)實(shí)現(xiàn)科研流程的全周期安全控制。
  • 基準(zhǔn)構(gòu)建:發(fā)布了 SciSafetyBench , 全球首個(gè)科研安全評(píng)測(cè)基準(zhǔn),覆蓋六大學(xué)科與四類風(fēng)險(xiǎn)類型(惡意、間接、無意、內(nèi)在),共計(jì) 240 個(gè)高??蒲腥蝿?wù)與 30 個(gè)實(shí)驗(yàn)工具,用于量化 AI 科研系統(tǒng)的安全性。
  • 理論與實(shí)證驗(yàn)證:實(shí)驗(yàn)結(jié)果表明,SafeScientist 在安全指標(biāo)上顯著優(yōu)于現(xiàn)有框架(安全分 4.83 vs 2.45,↑97.1%),在惡意輸入場(chǎng)景下拒絕率達(dá) 78.7%,并在不損失科研質(zhì)量的前提下實(shí)現(xiàn)安全性與創(chuàng)造力的平衡。

SafeScientist 的提出,標(biāo)志著 AI 科研從「構(gòu)建更強(qiáng)的智能體」邁向「培養(yǎng)更負(fù)責(zé)任的科研伙伴」的關(guān)鍵轉(zhuǎn)折。它讓 AI 第一次理解:科學(xué)探索,不只是追求真理,更是尊重生命與社會(huì)的過程。未來,團(tuán)隊(duì)將繼續(xù)擴(kuò)展 SciSafetyBench,加入更多現(xiàn)實(shí)高風(fēng)險(xiǎn)領(lǐng)域,并探索讓 SafeScientist 具備實(shí)時(shí)學(xué)習(xí)與自我演化能力,讓 AI 科學(xué)家不僅能發(fā)現(xiàn)世界,也能守護(hù)世界。

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
石家莊一男子4年強(qiáng)奸繼女六七十次,判24年半

石家莊一男子4年強(qiáng)奸繼女六七十次,判24年半

大風(fēng)新聞
2025-12-24 10:08:08
刀郎也沒想到,隱退剛兩個(gè)多月,云朵就把手伸向了徐子堯!

刀郎也沒想到,隱退剛兩個(gè)多月,云朵就把手伸向了徐子堯!

振華觀史
2025-12-24 10:45:54
劉結(jié)一,擔(dān)任新聞發(fā)言人

劉結(jié)一,擔(dān)任新聞發(fā)言人

揚(yáng)子晚報(bào)
2025-12-24 18:05:29
突然,宣布“救市”!剛剛,直線猛拉!這國緊急出手!

突然,宣布“救市”!剛剛,直線猛拉!這國緊急出手!

數(shù)據(jù)寶
2025-12-24 22:40:05
廣州這5所大學(xué)食堂向公眾開放!不用飯卡,直接掃碼支付!

廣州這5所大學(xué)食堂向公眾開放!不用飯卡,直接掃碼支付!

解說阿洎
2025-12-23 13:46:52
北京樓市放大招!新政發(fā)布當(dāng)晚有購房人馬上預(yù)約看房,專家:對(duì)二套改善人群友好

北京樓市放大招!新政發(fā)布當(dāng)晚有購房人馬上預(yù)約看房,專家:對(duì)二套改善人群友好

時(shí)代周報(bào)
2025-12-24 20:20:10
全國最年輕的女縣委書記張琪同志簡(jiǎn)歷

全國最年輕的女縣委書記張琪同志簡(jiǎn)歷

燕小姐說歷史
2025-01-22 08:51:23
這才是宋氏三姐妹真實(shí)相貌,不是演員扮演,是所有演員模仿不來的

這才是宋氏三姐妹真實(shí)相貌,不是演員扮演,是所有演員模仿不來的

情感大頭說說
2025-12-24 00:09:57
早就想打!日媒首次爆料:中國雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
德轉(zhuǎn)評(píng)西甲夏窗轉(zhuǎn)會(huì)從夯到拉:拉什福德頂級(jí),阿諾德拉完了

德轉(zhuǎn)評(píng)西甲夏窗轉(zhuǎn)會(huì)從夯到拉:拉什福德頂級(jí),阿諾德拉完了

懂球帝
2025-12-24 21:20:13
劉青山被槍斃40年后,他親弟弟公開發(fā)言,對(duì)毛主席的決定作出評(píng)價(jià)

劉青山被槍斃40年后,他親弟弟公開發(fā)言,對(duì)毛主席的決定作出評(píng)價(jià)

浩渺青史
2025-11-30 22:29:18
NBA球員楊瀚森:越洋逐夢(mèng),以籃球?yàn)闃颍鼐S·2025

NBA球員楊瀚森:越洋逐夢(mèng),以籃球?yàn)闃颍鼐S·2025

封面新聞
2025-12-25 08:17:03
53年賀龍女兒賀捷生考上北大,賀龍:你是第二個(gè)上名牌大學(xué)的學(xué)生

53年賀龍女兒賀捷生考上北大,賀龍:你是第二個(gè)上名牌大學(xué)的學(xué)生

大運(yùn)河時(shí)空
2025-12-24 07:10:02
老字號(hào)餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個(gè)多月暴瘦近20斤未出院,多部門介入

老字號(hào)餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個(gè)多月暴瘦近20斤未出院,多部門介入

極目新聞
2025-12-24 13:21:57
柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

科普100克克
2025-12-23 17:54:08
33歲的皇后嫁給7歲的“曾孫”,生下了8個(gè)孩子,至今被人們尊崇

33歲的皇后嫁給7歲的“曾孫”,生下了8個(gè)孩子,至今被人們尊崇

銘記歷史呀
2025-12-25 00:40:21
1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

帝哥說史
2025-12-19 06:25:03
米體丨米蘭將其視為未來建隊(duì)的絕對(duì)核心

米體丨米蘭將其視為未來建隊(duì)的絕對(duì)核心

米蘭圈
2025-12-24 09:13:00
奚美娟打破沉默回應(yīng)兒子身世,周野芒的清白太沉重

奚美娟打破沉默回應(yīng)兒子身世,周野芒的清白太沉重

復(fù)轉(zhuǎn)這些年
2025-12-21 12:47:16
苦楝被認(rèn)為可解決全球難題,引入歐美后火了,我國卻為何很少種?

苦楝被認(rèn)為可解決全球難題,引入歐美后火了,我國卻為何很少種?

貍貓之一的動(dòng)物圈
2025-12-17 10:30:37
2025-12-25 08:31:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1189文章數(shù) 222關(guān)注度
往期回顧 全部

科技要聞

老板監(jiān)視員工微信只需300元

頭條要聞

中美安理會(huì)激烈交鋒 委內(nèi)瑞拉:撕破美國假面

頭條要聞

中美安理會(huì)激烈交鋒 委內(nèi)瑞拉:撕破美國假面

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
健康
軍事航空

藝術(shù)要聞

毛主席草書背后的故事:小練字者迷失,書法之路揭示真相。

家居要聞

法式大平層 智能家居添彩

親子要聞

圣誕節(jié)精美砸金蛋禮盒,充滿未知的驚喜

這些新療法,讓化療不再那么痛苦

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無障礙瀏覽 進(jìn)入關(guān)懷版