国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 寫代碼太快,人類測試跟不上了,Meta 用新方法把 bug 檢出率提升 4 倍

0
分享至


作者 | Leela Kumili

譯者 | 田橙

Meta 報(bào)告稱,通過一種 即時(shí)(Just-in-Time,JiT)測試方法 提升了軟件質(zhì)量。該方法在代碼評審期間動(dòng)態(tài)生成測試,而不是依賴長期存在、需要人工維護(hù)的測試套件。根據(jù) Meta 的工程博客及相關(guān)研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。

這一轉(zhuǎn)變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護(hù)開銷且效果下降,因?yàn)榇嗳醯臄嘌院瓦^時(shí)的覆蓋率難以及時(shí)跟上快速變化。

正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經(jīng)超過了人類的維護(hù)能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗(yàn)證不同,該系統(tǒng)會(huì)推斷開發(fā)者意圖,識(shí)別潛在的失效模式,并構(gòu)建有針對性的測試,在存在回歸問題時(shí)使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個(gè)結(jié)合大語言模型、程序分析和變異測試的流水線實(shí)現(xiàn)的,其中會(huì)注入合成缺陷以驗(yàn)證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學(xué)家 Mark Harman 所 指出 的:

這項(xiàng)工作體現(xiàn)了一種根本性的轉(zhuǎn)變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉(zhuǎn)向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。

一個(gè)關(guān)鍵組件是 Dodgy Diff 與意圖感知工作流架構(gòu),它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會(huì)分析 diff,以提取行為意圖和風(fēng)險(xiǎn)區(qū)域,然后執(zhí)行意圖重建和變更風(fēng)險(xiǎn)建模,以理解哪些內(nèi)容可能因此而出錯(cuò)。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實(shí)的失敗場景。隨后,一個(gè)基于 LLM 的測試合成層會(huì)生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價(jià)值測試,最終在拉取請求中呈現(xiàn)結(jié)果。

Meta 報(bào)告稱,通過一種 即時(shí)(Just-in-Time,JiT)測試方法 提升了軟件質(zhì)量。該方法在代碼評審期間動(dòng)態(tài)生成測試,而不是依賴長期存在、需要人工維護(hù)的測試套件。根據(jù) Meta 的工程博客及相關(guān)研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。

這一轉(zhuǎn)變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護(hù)開銷且效果下降,因?yàn)榇嗳醯臄嘌院瓦^時(shí)的覆蓋率難以及時(shí)跟上快速變化。

正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經(jīng)超過了人類的維護(hù)能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗(yàn)證不同,該系統(tǒng)會(huì)推斷開發(fā)者意圖,識(shí)別潛在的失效模式,并構(gòu)建有針對性的測試,在存在回歸問題時(shí)使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個(gè)結(jié)合大語言模型、程序分析和變異測試的流水線實(shí)現(xiàn)的,其中會(huì)注入合成缺陷以驗(yàn)證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學(xué)家 Mark Harman 所 指出 的:

這項(xiàng)工作體現(xiàn)了一種根本性的轉(zhuǎn)變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉(zhuǎn)向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。

一個(gè)關(guān)鍵組件是 Dodgy Diff 與意圖感知工作流架構(gòu),它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會(huì)分析 diff,以提取行為意圖和風(fēng)險(xiǎn)區(qū)域,然后執(zhí)行意圖重建和變更風(fēng)險(xiǎn)建模,以理解哪些內(nèi)容可能因此而出錯(cuò)。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實(shí)的失敗場景。隨后,一個(gè)基于 LLM 的測試合成層會(huì)生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價(jià)值測試,最終在拉取請求中呈現(xiàn)結(jié)果。


Dodgy diff 和意圖感知工作流用于生成即時(shí)捕獲(Just-in-Time Catches)的架構(gòu)

Meta 表示,該系統(tǒng)在超過 22,000 個(gè)生成測試上進(jìn)行了評估。結(jié)果顯示,與基線生成測試相比,缺陷檢測能力提升了 4 倍;與偶然結(jié)果相比,在檢測有意義失敗方面最高提升達(dá) 20 倍。在一個(gè)評估子集中,共識(shí)別出 41 個(gè)問題,其中 8 個(gè)被確認(rèn)是真實(shí)缺陷,包括若干可能影響生產(chǎn)環(huán)境的問題。

Mark Harman 在另一篇 LinkedIn 帖子 中強(qiáng)調(diào):

變異測試在學(xué)術(shù)圈沉寂了幾十年之后,終于開始走向工業(yè)界,并正在重塑實(shí)用且可擴(kuò)展的軟件測試 2.0。

捕獲型 JiT 測試專為 AI 驅(qū)動(dòng)的開發(fā)設(shè)計(jì),按每次變更生成,用于在無需持續(xù)維護(hù)的情況下檢測嚴(yán)重且意外的缺陷。它們通過隨著代碼演進(jìn)自動(dòng)適配并將工作從人類轉(zhuǎn)移到機(jī)器,從而減少脆弱的測試套件。只有在發(fā)現(xiàn)有意義的問題時(shí)才需要人工審查。這將測試從靜態(tài)正確性驗(yàn)證重新定義為面向特定變更的故障檢測。

https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/

聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構(gòu),還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個(gè)專題全面開放征稿。

誠摯邀請你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

小蘭聊歷史
2026-04-26 08:44:22
國企機(jī)關(guān)化帶來的問題,已經(jīng)愈來愈嚴(yán)重了

國企機(jī)關(guān)化帶來的問題,已經(jīng)愈來愈嚴(yán)重了

細(xì)說職場
2026-05-07 13:25:20
王海稱胖東來套取國家補(bǔ)貼資金,情節(jié)嚴(yán)重負(fù)責(zé)人可承擔(dān)刑事責(zé)任

王海稱胖東來套取國家補(bǔ)貼資金,情節(jié)嚴(yán)重負(fù)責(zé)人可承擔(dān)刑事責(zé)任

映射生活的身影
2026-05-06 23:38:17
女子趁男友熟睡 偷偷通過人臉識(shí)別解鎖其手機(jī) 刷臉21次盜轉(zhuǎn)27萬余元 女子已被刑拘

女子趁男友熟睡 偷偷通過人臉識(shí)別解鎖其手機(jī) 刷臉21次盜轉(zhuǎn)27萬余元 女子已被刑拘

閃電新聞
2026-05-07 10:24:02
李敏因生病入住301醫(yī)院,護(hù)士得知她是毛主席的女兒,開了個(gè)玩笑

李敏因生病入住301醫(yī)院,護(hù)士得知她是毛主席的女兒,開了個(gè)玩笑

翠羽
2026-04-29 08:50:11
置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

侃故事的阿慶
2026-05-07 07:27:26
波波維奇出山!馬刺133-95狂勝森林狼,誰是贏球功臣?數(shù)據(jù)不說謊

波波維奇出山!馬刺133-95狂勝森林狼,誰是贏球功臣?數(shù)據(jù)不說謊

毒舌NBA
2026-05-07 12:24:32
南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

掠影后有感
2026-05-07 10:01:40
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
歐冠狂歡夜:凱恩補(bǔ)時(shí)破門絕平 拜仁5-6遭巴黎淘汰 決賽對陣誕生

歐冠狂歡夜:凱恩補(bǔ)時(shí)破門絕平 拜仁5-6遭巴黎淘汰 決賽對陣誕生

侃球熊弟
2026-05-07 03:57:40
蘋果新品上架,5月8日,正式開售

蘋果新品上架,5月8日,正式開售

科技堡壘
2026-05-06 12:16:23
手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

看透足球?qū)?/span>
2026-05-07 05:53:52
央視不播世界杯?萬達(dá)出局3中國贊助商恐成最大輸家:34億打水漂

央視不播世界杯?萬達(dá)出局3中國贊助商恐成最大輸家:34億打水漂

念洲
2026-05-07 11:04:47
伊朗外長向中方通報(bào)伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅(jiān)持談判尤為重要

伊朗外長向中方通報(bào)伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅(jiān)持談判尤為重要

環(huán)球網(wǎng)資訊
2026-05-07 06:48:13
黃仁勛很生氣:中國芯片用“落后”7nm工藝,搶走了英偉達(dá)50%市場

黃仁勛很生氣:中國芯片用“落后”7nm工藝,搶走了英偉達(dá)50%市場

科技專家
2026-05-07 11:39:11
終于理解王京花了,就沖孫怡吃飯的這個(gè)樣子,沒幾個(gè)婆婆能喜歡

終于理解王京花了,就沖孫怡吃飯的這個(gè)樣子,沒幾個(gè)婆婆能喜歡

西樓知趣雜談
2026-05-06 10:58:39
一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應(yīng)獲得最先進(jìn)芯片

一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應(yīng)獲得最先進(jìn)芯片

混沌錄
2026-05-06 16:51:09
突發(fā)異動(dòng)!300868,強(qiáng)勢20%漲停!002384,超27億主力資金凈流入!

突發(fā)異動(dòng)!300868,強(qiáng)勢20%漲停!002384,超27億主力資金凈流入!

證券時(shí)報(bào)e公司
2026-05-07 12:20:59
吳宜澤名下臺(tái)球館人流量暴增,接受“臺(tái)球皇帝”專訪時(shí)談奧沙利文,在比賽時(shí)他曾發(fā)私信“支招”

吳宜澤名下臺(tái)球館人流量暴增,接受“臺(tái)球皇帝”專訪時(shí)談奧沙利文,在比賽時(shí)他曾發(fā)私信“支招”

極目新聞
2026-05-06 16:55:05
2026-05-07 16:51:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1476文章數(shù) 149關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

費(fèi)高云落馬:任市委書記僅一年多 曾因爆炸事故被問責(zé)

頭條要聞

費(fèi)高云落馬:任市委書記僅一年多 曾因爆炸事故被問責(zé)

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財(cái)經(jīng)要聞

特朗普:美伊“很有可能”達(dá)成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
親子
本地
公開課

藝術(shù)要聞

這位老教授筆下的青年,活力滿滿

房產(chǎn)要聞

負(fù)債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

親子要聞

滬12區(qū)幼兒園今日啟動(dòng)報(bào)名驗(yàn)證!完善信息與驗(yàn)證材料

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版