国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 寫代碼太快,人類測試跟不上了,Meta 用新方法把 bug 檢出率提升 4 倍

0
分享至


作者 | Leela Kumili

譯者 | 田橙

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質(zhì)量。該方法在代碼評審期間動態(tài)生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據(jù) Meta 的工程博客及相關(guān)研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。

這一轉(zhuǎn)變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經(jīng)超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗證不同,該系統(tǒng)會推斷開發(fā)者意圖,識別潛在的失效模式,并構(gòu)建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結(jié)合大語言模型、程序分析和變異測試的流水線實現(xiàn)的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學(xué)家 Mark Harman 所 指出 的:

這項工作體現(xiàn)了一種根本性的轉(zhuǎn)變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉(zhuǎn)向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。

一個關(guān)鍵組件是 Dodgy Diff 與意圖感知工作流架構(gòu),它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會分析 diff,以提取行為意圖和風(fēng)險區(qū)域,然后執(zhí)行意圖重建和變更風(fēng)險建模,以理解哪些內(nèi)容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現(xiàn)結(jié)果。

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質(zhì)量。該方法在代碼評審期間動態(tài)生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據(jù) Meta 的工程博客及相關(guān)研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。

這一轉(zhuǎn)變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經(jīng)超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗證不同,該系統(tǒng)會推斷開發(fā)者意圖,識別潛在的失效模式,并構(gòu)建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結(jié)合大語言模型、程序分析和變異測試的流水線實現(xiàn)的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學(xué)家 Mark Harman 所 指出 的:

這項工作體現(xiàn)了一種根本性的轉(zhuǎn)變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉(zhuǎn)向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。

一個關(guān)鍵組件是 Dodgy Diff 與意圖感知工作流架構(gòu),它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會分析 diff,以提取行為意圖和風(fēng)險區(qū)域,然后執(zhí)行意圖重建和變更風(fēng)險建模,以理解哪些內(nèi)容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現(xiàn)結(jié)果。


Dodgy diff 和意圖感知工作流用于生成即時捕獲(Just-in-Time Catches)的架構(gòu)

Meta 表示,該系統(tǒng)在超過 22,000 個生成測試上進行了評估。結(jié)果顯示,與基線生成測試相比,缺陷檢測能力提升了 4 倍;與偶然結(jié)果相比,在檢測有意義失敗方面最高提升達 20 倍。在一個評估子集中,共識別出 41 個問題,其中 8 個被確認是真實缺陷,包括若干可能影響生產(chǎn)環(huán)境的問題。

Mark Harman 在另一篇 LinkedIn 帖子 中強調(diào):

變異測試在學(xué)術(shù)圈沉寂了幾十年之后,終于開始走向工業(yè)界,并正在重塑實用且可擴展的軟件測試 2.0。

捕獲型 JiT 測試專為 AI 驅(qū)動的開發(fā)設(shè)計,按每次變更生成,用于在無需持續(xù)維護的情況下檢測嚴重且意外的缺陷。它們通過隨著代碼演進自動適配并將工作從人類轉(zhuǎn)移到機器,從而減少脆弱的測試套件。只有在發(fā)現(xiàn)有意義的問題時才需要人工審查。這將測試從靜態(tài)正確性驗證重新定義為面向特定變更的故障檢測。

https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/

聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

南方都市報
2026-04-26 20:40:18
男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

丫頭舫
2026-04-27 17:39:57
38歲王思聰近照認不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

38歲王思聰近照認不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

橙星文娛
2026-04-27 14:17:09
2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補時絕平,曼聯(lián)險勝

2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補時絕平,曼聯(lián)險勝

足球狗說
2026-04-28 05:07:09
“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

未央看點
2026-04-27 22:13:40
從排隊入籍到集體觀望?美國入籍申請驟降,綠卡人群態(tài)度變了?

從排隊入籍到集體觀望?美國入籍申請驟降,綠卡人群態(tài)度變了?

紐約時間
2026-04-28 02:29:16
看完女排最新集訓(xùn),心里五味雜陳!別說里約,連倫敦周期都比不上

看完女排最新集訓(xùn),心里五味雜陳!別說里約,連倫敦周期都比不上

金毛愛女排
2026-04-28 00:00:04
Deepseek,光通信之后的下一個主升浪

Deepseek,光通信之后的下一個主升浪

靜姐的財富第六感
2026-04-26 22:31:06
淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

風(fēng)過鄉(xiāng)
2026-04-27 06:15:09
有的人為了當(dāng)官,把老婆送給領(lǐng)導(dǎo)睡

有的人為了當(dāng)官,把老婆送給領(lǐng)導(dǎo)睡

斜杠人生
2026-04-28 00:00:04
金價:大家不用等候了!不出意外,金價可能將歷史重演!

金價:大家不用等候了!不出意外,金價可能將歷史重演!

殘夢重生來
2026-04-28 04:40:09
不到72小時,俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

不到72小時,俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

阿廢冷眼觀察所
2026-04-28 00:24:36
皮蛋再次成為關(guān)注對象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

皮蛋再次成為關(guān)注對象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

健康科普365
2026-04-25 09:27:08
七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

小莜讀史
2026-04-26 22:44:33
特朗普轉(zhuǎn)發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

特朗普轉(zhuǎn)發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

線裝史冊
2026-04-28 02:38:29
東南亞隱藏的“電詐大佬”,一個個正在浮出水面

東南亞隱藏的“電詐大佬”,一個個正在浮出水面

現(xiàn)實的聲音
2026-04-27 20:36:14
大姑子一家9口住進來,老公說他5200養(yǎng)活全家足夠,我?guī)夯啬锛?>
    </a>
        <h3>
      <a href=麥子情感故事
2026-04-27 21:34:15
沒人再提激光雷達數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

沒人再提激光雷達數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

時代周報
2026-04-26 18:14:26
涉黃被傳喚,馬斯克出事了

涉黃被傳喚,馬斯克出事了

營銷頭版
2026-04-27 14:42:14
中國排協(xié)官宣!16點30分,女排訓(xùn)練將直播,第二批球員恐揭曉

中國排協(xié)官宣!16點30分,女排訓(xùn)練將直播,第二批球員恐揭曉

跑者排球視角
2026-04-27 23:48:17
2026-04-28 05:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12309文章數(shù) 51863關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財經(jīng)要聞

Meta 140億收購Manus遭中國發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態(tài)度原創(chuàng)

本地
時尚
數(shù)碼
藝術(shù)
公開課

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

絲巾的10種系法,愛美的女人必看

數(shù)碼要聞

6K/3K雙模切換!三星這款顯示器什么水平?

藝術(shù)要聞

他的油畫筆觸粗獷又細膩,透著一種不可言說的美!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版