網易首頁 > 網易號 > 正文申請入駐

挪威科技大學與CSIRO聯(lián)合突破：AI實現(xiàn)軟件漏洞補丁真?zhèn)尉珳首R別

2026-03-11 16:30:25　來源: 科技行者

北京舉報

分享至

在軟件安全的世界里，有一個看似簡單卻極其重要的問題：當開發(fā)者宣稱修復了某個安全漏洞時，他們真的修對了嗎？這個問題就像醫(yī)生診斷病情一樣關鍵——如果診斷錯誤，后果可能非常嚴重。挪威科技大學聯(lián)合澳大利亞聯(lián)邦科學與工業(yè)研究組織(CSIRO)的Data61部門，在這個領域取得了突破性進展。這項研究發(fā)表于2026年的arXiv預印本平臺，編號為2602.12500v1，為軟件安全領域帶來了全新的解決方案。

研究團隊開發(fā)了一個名為Favia的智能系統(tǒng)，這個系統(tǒng)就像一位經驗豐富的數(shù)字偵探，專門負責識別那些真正修復了安全漏洞的代碼更新。在現(xiàn)實世界中，一個大型軟件項目可能包含數(shù)百萬行代碼更改，但其中只有極少數(shù)是真正的安全修復。找到這些真正的修復就像在干草堆里尋找特定的針一樣困難。

傳統(tǒng)的檢測方法往往表現(xiàn)平平，要么漏掉了真正的修復，要么把無關的代碼更改誤認為是安全補丁。更糟糕的是，現(xiàn)有的評估方法大多基于隨機抽樣，這就像在游戲的簡單模式下測試玩家技能一樣，無法反映真實世界的復雜程度。研究團隊發(fā)現(xiàn)，在真實環(huán)境中，候選的代碼更改通常都與安全相關，而且彼此高度相似，這使得識別工作變得異常困難。

Favia系統(tǒng)采用了一種全新的雙階段方法。首先，它使用高效的排序算法快速縮小搜索范圍，就像偵探先圈定嫌疑人范圍一樣。然后，對于每個候選的代碼更改，系統(tǒng)會派出一個基于大語言模型的AI代理進行深入調查。這個AI代理擁有一套完整的調查工具，可以查閱漏洞報告、搜索相關文件、分析代碼變更，并建立代碼修改與漏洞根本原因之間的因果關系。

研究團隊構建了一個名為CVEVC的大規(guī)模數(shù)據集來驗證他們的方法。這個數(shù)據集包含了來自3708個真實軟件項目的超過800萬次代碼提交，涵蓋了各種編程語言和漏洞類型。實驗結果顯示，F(xiàn)avia在現(xiàn)實條件下的表現(xiàn)遠超現(xiàn)有方法，在保持高召回率的同時大幅提升了準確率。

一、數(shù)字時代的安全挑戰(zhàn)：為什么軟件補丁識別如此重要

現(xiàn)代社會越來越依賴軟件系統(tǒng)，從手機應用到銀行系統(tǒng)，再到自動駕駛汽車，軟件無處不在。然而，軟件中的安全漏洞也如影隨形。當安全研究人員發(fā)現(xiàn)漏洞并公布后，開發(fā)者需要快速開發(fā)修復程序，而下游用戶則需要識別并應用這些修復。

這個過程可以比作疾病傳播與防控。當一種新病毒被發(fā)現(xiàn)時，醫(yī)學專家需要開發(fā)疫苗，而公共衛(wèi)生部門則需要確保疫苗被正確分發(fā)給需要的人群。在軟件世界里，漏洞就是"病毒"，補丁就是"疫苗"，而準確識別哪些代碼更改是真正的"疫苗"就是關鍵所在。

研究團隊指出，大型軟件項目如Linux內核包含超過140萬次代碼提交，但其中只有極少數(shù)與安全修復相關。手工檢查每一次更改顯然不現(xiàn)實，這就像要求一個人逐一檢查城市里的每一座建筑來尋找特定地址一樣不切實際。因此，自動化識別技術變得至關重要。

然而，現(xiàn)有的自動化方法存在明顯缺陷。傳統(tǒng)機器學習方法往往過于保守，錯過了大量真正的修復，就像過度謹慎的安檢員可能會放過真正的威脅。另一方面，一些方法又過于寬泛，將許多無關的代碼更改誤認為安全補丁，這就像把普通感冒藥當作抗病毒疫苗一樣危險。

更為嚴重的問題是評估方法的不準確性。大多數(shù)研究使用隨機抽樣來測試其方法的有效性，這相當于在理想條件下測試汽車的安全性能，而忽略了真實道路上的復雜情況。在實際應用中，需要檢查的代碼更改通常都與安全相關，并且彼此高度相似，這使得識別工作變得異常困難。

研究團隊通過構建真實場景的測試數(shù)據集發(fā)現(xiàn)，現(xiàn)有方法在真實條件下的表現(xiàn)比在簡化條件下差得多。這種發(fā)現(xiàn)就像發(fā)現(xiàn)某種藥物在實驗室條件下效果良好，但在實際應用中效果大打折扣一樣重要。這提醒我們需要在更接近真實條件的環(huán)境下評估和改進技術方案。

二、Favia的誕生：當AI偵探遇上代碼調查

面對現(xiàn)有方法的局限性，研究團隊開發(fā)了Favia系統(tǒng)。Favia這個名字取自"Forensic Agent for Vulnerability-fix Identification and Analysis"，意思是"用于漏洞修復識別和分析的取證代理"。這個系統(tǒng)的設計理念就像培訓一名專業(yè)的數(shù)字取證專家，不僅要有敏銳的洞察力，還要有系統(tǒng)的調查方法。

Favia采用了兩階段設計方案。第一階段類似于案件的初步篩選，使用高效的機器學習分類器對所有候選代碼更改進行快速評估和排序。這個階段的目的是將搜索范圍從數(shù)百萬個候選項縮小到最有可能的幾十個。研究團隊選擇了PatchFinder作為這一階段的工具，這是目前在效率導向方法中表現(xiàn)最好的系統(tǒng)。

第二階段才是Favia的核心創(chuàng)新所在。對于第一階段篩選出的每個候選項，系統(tǒng)會啟動一個基于大語言模型的智能代理進行深入調查。這個代理就像一位經驗豐富的偵探，配備了各種專業(yè)工具，能夠進行系統(tǒng)性的證據收集和分析。

這個AI偵探的工作環(huán)境被精心設計成與真實調查場景相似。它可以訪問漏洞發(fā)生前的代碼庫狀態(tài)，就像偵探可以回到案發(fā)現(xiàn)場進行勘查一樣。代理擁有多種調查工具，包括漏洞報告查詢工具、代碼搜索工具、文件瀏覽工具等。通過這些工具，代理可以系統(tǒng)性地建立漏洞描述與代碼更改之間的因果關系。

代理的推理過程采用了ReAct框架，這是一種將推理和行動結合起來的方法。代理會交替進行思考和行動：先分析當前情況，然后采取相應行動，再根據行動結果進行進一步思考。這個過程就像偵探在調查案件時的思維模式——觀察現(xiàn)場、提出假設、尋找證據、驗證假設，然后根據新發(fā)現(xiàn)調整調查方向。

代理的調查過程分為三個主要階段。首先是理解漏洞，代理會仔細研讀CVE（通用漏洞披露）報告和相關的CWE（通用弱點枚舉）信息，理解漏洞的本質、影響范圍和觸發(fā)條件。這就像醫(yī)生在治療疾病前必須準確診斷病情一樣重要。

接下來是分析代碼更改，代理會檢查提交的代碼差異，理解具體做了哪些修改，這些修改的目的是什么，影響了哪些系統(tǒng)組件。最后是建立關聯(lián)，代理會判斷代碼更改是否真正解決了漏洞報告中描述的問題，是否從根本上消除了安全風險。

這種方法的優(yōu)勢在于它能夠處理間接的、多文件的復雜修復。傳統(tǒng)方法往往只能識別直觀的、單文件的簡單修復，但現(xiàn)實中的安全修復往往涉及多個文件、多個功能模塊之間的協(xié)調。Favia的AI代理通過深度推理和系統(tǒng)調查，能夠理解這些復雜的修復邏輯。

三、構建真實世界的測試場：CVEVC數(shù)據集的誕生

為了準確評估Favia的性能，研究團隊構建了一個名為CVEVC的大規(guī)模數(shù)據集。傳統(tǒng)研究通常使用小規(guī)模或人工構造的數(shù)據集進行測試，這就像在模擬駕校場地測試汽車性能一樣，無法反映真實道路的復雜情況。CVEVC數(shù)據集的構建就是為了創(chuàng)造一個更接近真實世界的測試環(huán)境。

CVEVC數(shù)據集規(guī)模龐大，包含了來自3708個真實開源項目的超過800萬次代碼提交。這些項目涵蓋了多種編程語言，包括Java、PHP、C、JavaScript、Python、Go等，反映了現(xiàn)代軟件開發(fā)的多樣性。數(shù)據集基于17293個真實的CVE漏洞報告構建，每個漏洞都對應著實際的安全威脅和修復方案。

數(shù)據集的構建過程就像考古學家重建古代文明一樣細致。研究團隊從之前的研究工作中獲得基礎數(shù)據，然后對每個相關的GitHub倉庫進行克隆和分析。他們不僅收集了真正的漏洞修復提交，還從每個倉庫中隨機選擇了多達5000個非修復提交作為對照。

為了確保數(shù)據質量，研究團隊還進行了精心的數(shù)據清理。他們過濾掉了過大的代碼差異，這些通常是依賴項更新或資源文件變更，與實際的安全修復無關。具體來說，他們保留了字符數(shù)在第95百分位以下的代碼差異，即少于153993個字符的更改。

更重要的是，研究團隊創(chuàng)建了兩種不同的評估場景。第一種是"隨機場景"，類似于傳統(tǒng)研究中使用的方法，從所有代碼提交中隨機選擇候選項。第二種是"現(xiàn)實場景"，使用PatchFinder系統(tǒng)預先篩選出最有可能的候選項，然后要求各種方法從這些高度相似的候選項中找出真正的修復。

這兩種場景的對比就像比較在白天尋找物品和在夜晚尋找物品的難度差異。隨機場景相當于白天搜索，因為大部分候選項與目標明顯不符，很容易排除。而現(xiàn)實場景相當于夜晚搜索，所有候選項看起來都可能是目標，需要更精細的判斷能力。

研究團隊發(fā)現(xiàn)，現(xiàn)實場景的測試結果與隨機場景存在顯著差異。在隨機場景下，各種方法的表現(xiàn)都相當不錯，這給人一種技術已經成熟的假象。但在現(xiàn)實場景下，同樣的方法表現(xiàn)大打折扣，暴露了真實的技術差距。這種發(fā)現(xiàn)對于客觀評估技術水平具有重要意義。

通過CVEVC數(shù)據集的構建，研究團隊不僅為Favia提供了測試平臺，也為整個研究社區(qū)提供了一個更可靠的評估基準。這個數(shù)據集現(xiàn)在已經公開發(fā)布，其他研究者可以使用它來測試和改進自己的方法，推動整個領域的發(fā)展。

四、實戰(zhàn)驗證：Favia與傳統(tǒng)方法的正面對決

為了驗證Favia的實際效果，研究團隊設計了全面的對比實驗。他們選擇了多個具有代表性的基準方法，包括傳統(tǒng)的機器學習方法和最新的大語言模型方法，在相同的數(shù)據集上進行測試比較。

實驗中使用了三個不同規(guī)模的大語言模型來運行Favia系統(tǒng)：Llama-3.3-70B-Instruct、Qwen3-235B-A22B-Instruct-2507和gemma-3-27b-it。這些模型代表了不同的設計理念和能力水平，就像選擇不同經驗水平的偵探來處理同樣的案件。

基準方法包括了該領域的重要代表。VulFixMiner是基于CodeBERT的傳統(tǒng)方法，它通過分析代碼變更的語義表示來識別漏洞修復。PatchFinder是目前表現(xiàn)最好的兩階段方法，結合了詞匯相似度和語義相似度進行候選項排序和重排序。LLM4VFD和CommitShield是最新的大語言模型方法，它們使用結構化推理和上下文學習來識別漏洞修復。

實驗結果顯示，在隨機場景下，各種方法的表現(xiàn)都相當不錯。Favia在不同模型下的F1分數(shù)在0.72到0.87之間，傳統(tǒng)方法如PatchFinder也達到了0.36的F1分數(shù)。但這種良好表現(xiàn)可能會誤導人們對技術成熟度的判斷。

真正的考驗來自現(xiàn)實場景的測試。在這種更具挑戰(zhàn)性的條件下，方法之間的差距立刻顯現(xiàn)出來。傳統(tǒng)的VulFixMiner雖然保持了較高的精確率（0.43），但召回率極低（0.03），這意味著它錯過了絕大部分真正的修復。PatchFinder的表現(xiàn)更加均衡，精確率和召回率都在0.37-0.40之間，但整體水平仍然有限。

現(xiàn)有的大語言模型方法表現(xiàn)出了高召回率但低精確率的特點。LLM4VFD的召回率高達0.89-0.94，但精確率只有0.18-0.30，這意味著它能找到大部分真正的修復，但也會產生大量誤報。CommitShield的情況類似，甚至精確率更低，只有0.12-0.22。

相比之下，F(xiàn)avia在現(xiàn)實場景下展現(xiàn)了出色的綜合性能。它不僅保持了極高的召回率（0.94-0.98），還顯著提升了精確率（0.23-0.39），最終獲得了最高的F1分數(shù)（0.37-0.56）。這種表現(xiàn)就像一位既不會漏掉真正罪犯，又不會錯抓無辜人員的優(yōu)秀偵探。

為了更深入理解Favia的優(yōu)勢，研究團隊分析了一個具體案例。在VLC媒體播放器的CVE-2014-9625漏洞中，存在一個整數(shù)截斷問題可能導致緩沖區(qū)溢出。研究團隊比較了Favia、CommitShield和LLM4VFD對同一個候選提交的判斷過程。

CommitShield錯誤地將一個無關的代碼更改識別為漏洞修復，僅僅因為提交描述中包含了"potential undefined behavior"等安全相關詞匯。它沒有驗證這個更改是否真正解決了CVE描述的特定問題。

LLM4VFD犯了類似的錯誤，通過類比推理將一個通用的錯誤檢查改進誤認為安全修復。它過分依賴表面相似性，沒有建立與具體漏洞之間的因果關系。

Favia則正確地識別出這個候選提交與CVE-2014-9625無關。它通過深入分析發(fā)現(xiàn)，CVE描述的是GetUpdateFile函數(shù)中的整數(shù)截斷問題，而候選提交修改的是完全不同的XML編碼功能。Favia的AI代理甚至主動搜索了相關文件，確認真正的修復已經在其他地方實施。

這個案例清晰地展示了Favia方法的優(yōu)勢：它不滿足于表面的相似性，而是要求建立明確的因果關系。這種嚴格的驗證過程雖然增加了計算成本，但顯著提高了判斷的準確性。

五、深入剖析：AI偵探的工作模式與局限性

為了更好地理解Favia系統(tǒng)的工作原理，研究團隊對AI代理的行為模式進行了深入分析。他們記錄了代理在處理不同案例時的工具使用情況、推理軌跡和決策過程，就像分析偵探的辦案手法一樣細致。

分析結果顯示，幾乎所有成功的調查都遵循一個相似的模式。代理首先會查詢CVE報告獲取漏洞信息，這就像偵探首先要了解案情一樣重要。有趣的是，那些跳過這一步直接給出答案的情況往往表明代理可能依賴了預訓練時學到的知識，而不是進行真正的推理分析。

在獲取漏洞信息后，代理通常會使用文件搜索工具定位相關的代碼文件。這種行為反映了一種系統(tǒng)性的調查方法：先確定調查目標，然后尋找相關證據。代理會根據CVE報告中提到的文件名、函數(shù)名或組件名進行精確搜索。

接下來的階段是最耗時但也最關鍵的代碼分析過程。代理會逐個打開相關文件，仔細查看代碼內容，理解當前的實現(xiàn)邏輯。它還會使用滾動功能瀏覽大文件，尋找與漏洞相關的特定代碼段。這個過程就像法醫(yī)仔細檢查證物一樣謹慎。

研究團隊發(fā)現(xiàn)，不同規(guī)模的語言模型表現(xiàn)出了不同的行為模式。較大的模型如Qwen3-235B-A22B-Instruct-2507顯示出更規(guī)范的調查流程，幾乎總是從CVE查詢開始。而較小的模型如gemma-3-27b-it偶爾會跳過某些步驟，可能導致分析的不完整。

然而，F(xiàn)avia也并非完美無缺。研究團隊對錯誤案例進行了詳細分析，發(fā)現(xiàn)了兩種主要的失敗模式。最常見的是"表面關聯(lián)錯誤"，占所有錯誤的約58.7%。這類錯誤發(fā)生在代理找到了代碼更改與CVE之間的表面聯(lián)系，但未能建立真正的因果關系時。

第二常見的是"CVE誤解錯誤"，占約29.8%的錯誤。在這類情況下，代理正確地查詢了CVE報告，但誤解了漏洞的根本原因、受影響組件或利用機制，導致基于錯誤理解做出判斷。

這些錯誤模式的發(fā)現(xiàn)具有重要意義，它們指出了改進方向。研究團隊指出，大多數(shù)錯誤并非來自調查工具的限制或搜索深度不夠，而是來自語義理解和因果推理能力的不足。這提示我們需要在這些方面進一步提升AI代理的能力。

有趣的是，研究團隊還發(fā)現(xiàn)代理在不同數(shù)據集上展現(xiàn)了穩(wěn)定的行為模式。無論是隨機場景還是現(xiàn)實場景，代理的工具使用頻率和調查流程都保持高度一致。這種穩(wěn)定性表明代理的行為主要由CVE特征驅動，而不是被候選集的分布所影響。

六、成本與效益：現(xiàn)實部署的考量

任何實用系統(tǒng)都必須考慮成本效益問題，F(xiàn)avia也不例外。研究團隊對系統(tǒng)的計算成本進行了詳細分析，就像評估一個新藥物的成本效益比一樣重要。

Favia的主要成本來源是其多輪對話的交互模式。與傳統(tǒng)的單次推理方法不同，F(xiàn)avia的AI代理需要多個回合來完成調查，每個回合都會產生輸入和輸出token。更重要的是，每個新回合都會包含之前所有回合的內容，導致輸入token數(shù)量累積增長。

具體數(shù)據顯示，在現(xiàn)實場景測試中，F(xiàn)avia平均每個候選項消耗66159個輸入token和1043個輸出token，總計67202個token。相比之下，LLM4VFD只需要7494個token，CommitShield需要10365個token。這意味著Favia的token消耗是基準方法的6-9倍。

然而，當我們將token消耗轉換為實際的金錢成本時，情況變得更加樂觀。以OpenAI GPT-5.2的定價為例（每百萬輸入token 1.75美元，每百萬輸出token 14.00美元），F(xiàn)avia處理一個候選項的成本約為0.13美元，而基準方法的成本在0.02-0.03美元之間。

更重要的是要考慮整體的成本效益比。Favia通常只需要處理經過初步篩選的前10個候選項，所以處理一個CVE的總成本約為1.30美元。考慮到錯過一個真正的安全漏洞可能造成的損失，這個成本是完全可以接受的。

研究團隊還計算了Favia帶來的實際收益。在現(xiàn)實場景測試中，傳統(tǒng)方法平均會錯過75-97個真正的漏洞修復，而Favia只錯過33個。這意味著Favia能夠額外識別出42個真正的修復。如果按每個CVE 1.30美元的處理成本計算，識別這42個額外修復的總成本為54.6美元。

這種成本效益分析就像比較不同醫(yī)療診斷方法的性價比。雖然更精確的診斷方法可能更昂貴，但考慮到誤診可能帶來的嚴重后果，額外的成本往往是值得的。在軟件安全領域，錯過一個關鍵的安全修復可能導致系統(tǒng)被攻擊，造成的損失遠超過額外的檢測成本。

此外，F(xiàn)avia的多步推理過程還提供了額外的價值：可解釋性。傳統(tǒng)方法通常只給出一個分類結果，而Favia會提供詳細的分析過程和推理依據。這種透明性對于安全審計和風險評估具有重要價值，可以幫助安全專家更好地理解系統(tǒng)的判斷依據。

研究團隊指出，F(xiàn)avia的計算成本主要集中在證據收集階段，而不是在最終的輸出生成上。這種成本結構是合理的，因為它反映了系統(tǒng)在做出重要決策前進行充分調查的價值。就像法庭審判中，雖然收集證據需要時間和資源，但這是確保公正判決的必要過程。

七、技術創(chuàng)新與學術貢獻：重新定義評估標準

Favia項目的貢獻不僅在于開發(fā)了一個更好的漏洞修復識別系統(tǒng)，更重要的是它揭示了現(xiàn)有評估方法的問題并提出了改進方案。這種貢獻就像發(fā)現(xiàn)了一個廣泛使用的測量工具存在系統(tǒng)性偏差，并提供了校正方法。

研究團隊通過對比隨機場景和現(xiàn)實場景的測試結果，發(fā)現(xiàn)了一個令人震驚的現(xiàn)象：隨機場景下的性能指標普遍被大幅高估。所有方法在隨機場景下的F1分數(shù)都比現(xiàn)實場景高出至多95%，這種差距就像室內射擊訓練的成績與實戰(zhàn)環(huán)境下的表現(xiàn)差距一樣巨大。

這種發(fā)現(xiàn)對整個研究領域具有深遠影響。它提醒研究者們，僅在簡化條件下驗證技術方案可能產生誤導性結論。就像藥物試驗不能只在理想的實驗室條件下進行，技術驗證也需要在更接近真實應用場景的環(huán)境中進行。

Favia在方法學上的創(chuàng)新主要體現(xiàn)在將高效篩選與深度推理相結合的混合架構。這種設計理念平衡了可擴展性和分析深度兩個看似矛盾的需求。傳統(tǒng)方法要么追求效率但犧牲準確性，要么追求準確性但無法處理大規(guī)模數(shù)據。Favia通過兩階段設計巧妙地解決了這個問題。

系統(tǒng)的另一個創(chuàng)新點是將AI代理置于模擬的代碼環(huán)境中。這種設計讓代理能夠像人類分析師一樣瀏覽代碼、搜索文件、查閱文檔。傳統(tǒng)的機器學習方法只能基于預先提取的特征進行判斷，而Favia的代理可以主動探索和收集證據。

在實驗設計方面，研究團隊構建的CVEVC數(shù)據集填補了該領域的重要空白?，F(xiàn)有的數(shù)據集要么規(guī)模太小，要么構造過于簡化，無法反映真實世界的復雜性。CVEVC數(shù)據集不僅規(guī)模龐大，還特別關注了真實應用場景下的挑戰(zhàn)性情況。

研究團隊還進行了詳細的失效模式分析，這在該領域的研究中并不常見。通過分析AI代理的錯誤類型和原因，他們不僅驗證了Favia的有效性，還為進一步改進指明了方向。這種分析方法就像醫(yī)學研究中的病例分析，對于理解和改進治療方案具有重要價值。

從技術發(fā)展的角度看，F(xiàn)avia代表了從淺層模式匹配向深層語義推理的轉變。傳統(tǒng)方法主要依賴統(tǒng)計相關性和表面相似性，而Favia要求建立明確的因果關系。這種轉變反映了人工智能技術從感知智能向認知智能的發(fā)展趨勢。

研究團隊還展示了大語言模型在代碼分析領域的巨大潛力。通過精心設計的提示和工具接口，LLM能夠執(zhí)行復雜的代碼審計任務，這為軟件工程領域的自動化開辟了新的可能性。

八、展望未來：數(shù)字安全的新篇章

Favia項目的成功為軟件安全領域開啟了新的可能性，但這只是一個開始。研究團隊在論文中提出了多個未來研究方向，就像為后續(xù)探索者指明了道路。

首要的改進方向是提升AI代理的因果推理和置信度校準能力。當前的失效分析顯示，大多數(shù)錯誤來自語義理解不足而非工具限制。這提示我們需要開發(fā)更強的推理模型，能夠更準確地理解CVE描述和代碼邏輯之間的關系。

另一個重要方向是開發(fā)自適應的推理深度控制機制。當前的Favia對所有案例都使用相同的調查流程，但實際上不同的漏洞可能需要不同程度的分析。簡單的修復可能只需要快速驗證，而復雜的修復可能需要深入的多步推理。智能的深度控制可以在保持準確性的同時降低計算成本。

數(shù)據集的擴展也是重要的發(fā)展方向。雖然CVEVC已經相當龐大，但它主要關注GitHub上的開源項目，且偏向于某些編程語言。未來的數(shù)據集需要覆蓋更多類型的項目、更多編程語言，以及企業(yè)環(huán)境中的私有代碼庫。

技術的實際部署還需要考慮更多工程問題。例如，如何與現(xiàn)有的軟件開發(fā)流程集成，如何處理實時的漏洞報告，如何在不同的計算環(huán)境中優(yōu)化性能等。這些問題的解決對于技術的廣泛應用至關重要。

研究團隊還指出了評估方法學的改進需求。雖然他們在CVEVC上取得了重要進展，但仍需要開發(fā)更多樣化的評估場景，包括不同類型的漏洞、不同規(guī)模的項目、不同的時間窗口等。只有在各種條件下都經過驗證的技術才能真正可靠。

從更廣的角度看，F(xiàn)avia代表的AI輔助代碼分析技術有望在軟件工程的多個領域發(fā)揮作用。除了安全漏洞檢測，類似的方法還可能應用于代碼質量評估、性能優(yōu)化建議、API兼容性檢查等方面。

這種技術的發(fā)展也提出了新的倫理和社會問題。隨著AI在安全審計中發(fā)揮越來越重要的作用，我們需要考慮技術的透明性、可問責性和潛在的濫用風險。確保AI工具被正確使用，為軟件安全而非攻擊服務，是整個社區(qū)需要共同面對的挑戰(zhàn)。

說到底，F(xiàn)avia項目不僅僅是一個技術創(chuàng)新，更是對如何構建可信賴的AI系統(tǒng)的有益探索。它展示了通過精心的系統(tǒng)設計、嚴格的實驗驗證和深入的行為分析，我們可以開發(fā)出既強大又可解釋的AI工具。這種經驗對于人工智能在關鍵領域的應用具有重要的指導意義。

隨著軟件系統(tǒng)變得越來越復雜，安全挑戰(zhàn)也日益嚴峻。Favia這樣的工具為我們提供了新的武器來應對這些挑戰(zhàn)。雖然技術還在發(fā)展中，但它已經展現(xiàn)出了巨大的潛力。在不久的將來，我們有望看到更智能、更可靠的AI安全助手，幫助開發(fā)者構建更安全的數(shù)字世界。

Q&A

Q1：Favia系統(tǒng)是如何工作的？

A：Favia系統(tǒng)采用兩階段工作模式。第一階段使用高效的機器學習分類器快速篩選候選代碼提交，將搜索范圍從數(shù)百萬個縮小到最有可能的幾十個。第二階段派出基于大語言模型的AI代理進行深入調查，代理配備各種工具可以查閱漏洞報告、搜索代碼文件、分析變更內容，最終建立代碼修改與漏洞根本原因之間的因果關系。

Q2：為什么現(xiàn)有的軟件補丁識別方法效果不好？

A：現(xiàn)有方法主要有兩個問題。第一是依賴表面相似性而非深層因果關系，容易被關鍵詞重疊或文件名相似等表面線索誤導。第二是評估方法不夠真實，大多數(shù)研究使用隨機抽樣測試，但實際應用中候選代碼都與安全相關且高度相似，識別難度大大增加。研究發(fā)現(xiàn)隨機場景下的性能指標比現(xiàn)實場景高估了最多95%。

Q3：Favia系統(tǒng)的計算成本高嗎？

A：Favia的計算成本確實比傳統(tǒng)方法高，每處理一個候選項約需0.13美元，是基準方法的6-9倍。但考慮到只處理預篩選的前10個候選項，處理一個CVE的總成本約1.30美元。更重要的是，F(xiàn)avia能額外識別出42個被其他方法錯過的真實修復，相比錯過安全漏洞可能造成的損失，這個成本是完全可以接受的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.