国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

程序員安心了?AI能寫代碼,但不能維護代碼!首次評測出爐:大多數(shù)AI會“越改越糟”

0
分享至

每經(jīng)記者:蘭素英 每經(jīng)編輯:王嘉琦

近年來,AI大模型的編程能力突飛猛進,各大AI廠商在編程基準測試上你追我趕,不斷刷新紀錄。這讓不少程序員開始擔憂:AI是不是很快就要搶走我們的飯碗了?

然而,中山大學與阿里巴巴聯(lián)合發(fā)布的一項最新研究給程序員們吃下了一顆“定心丸”。

3月4日,兩家機構(gòu)聯(lián)合發(fā)布了一項評測結(jié)果。這項測試名為“SWE-CI:通過持續(xù)集成評估智能體維護代碼庫的能力”(SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration),首次對包括Anthropic、OpenAI、Kimi和DeepSeek等8家主流廠商的18款AI大模型的長期代碼維護能力進行了嚴苛的系統(tǒng)性評估測試。

測試包含100項任務,總Token消耗超100億。結(jié)果顯示,Claude Opus系列綜合表現(xiàn)領跑。

在控制性能退化方面,千問、DeepSeek、MiniMax、Kimi和豆包等大多數(shù)AI大模型的表現(xiàn)明顯不佳。也就是說,AI在長期代碼維護過程中,可能將代碼“越改越糟”。


100項任務!中國團隊推出全球首個評估AI大模型長期代碼維護能力的評測系統(tǒng)

長期以來,AI編程能力的主流評測基準的共同特點是快照式評測,以“單次接收需求、一次性輸出解決方案”為核心。

然而,這種評估方式僅檢驗大模型是否能寫出功能正確的代碼,無法反映真實軟件開發(fā)中持續(xù)迭代、長期維護的核心需求。

在現(xiàn)實中,成熟的軟件很少是一蹴而就的,而是長期維護的結(jié)果。雷曼定律表明,軟件質(zhì)量會隨著維護的進行而自然下降。而維護工作占軟件生命周期總成本的60%到80%。

為評估AI在長期代碼維護中的表現(xiàn),中山大學與阿里巴巴團隊聯(lián)合推出了SWE?CI評測基準。這是全球首個專門評估AI智能體在長期代碼維護表現(xiàn)的評測系統(tǒng),它不再滿足于考察AI編程的“一次性正確”,而是評估AI是否像真正的軟件工程師一樣,在數(shù)月甚至數(shù)年的開發(fā)過程中持續(xù)保持代碼質(zhì)量。

SWE?CI基準測試的構(gòu)建經(jīng)過四層嚴格篩選,最終形成高質(zhì)量評測集。

研究團隊先從GitHub全網(wǎng)的Pytho代碼庫中篩選出維護三年以上、星標超500、包含依賴文件和完整單元測試套件,以及采用MIT/Apache?2.0等寬松協(xié)議的4923個代碼庫;再提取依賴穩(wěn)定、代碼修改量超1000行的提交對,得到8311個候選樣本;通過自動構(gòu)建Docker環(huán)境與自修復依賴機制,保留1458組可運行候選對;最后經(jīng)測試啟動校驗、通過率差異篩選、時間跨度與提交量排序,確定100項最終任務。

研究團隊精心構(gòu)建的100項任務中,每項任務都對應著真實世界中一個軟件項目的完整進化歷程。這些項目平均跨越233天的開發(fā)時間,包含71次連續(xù)的代碼提交記錄。團隊還設計了一個精巧的“架構(gòu)師-程序員”雙智能體協(xié)作機制。設計的靈感來自真實軟件團隊中常見的分工模式:架構(gòu)師負責分析需求和制定技術方案,程序員負責具體的代碼開發(fā)。

為適配長期迭代評測,SWE?CI提出了“歸一化變化”與“EvoScore(進化得分)”兩大核心指標。

“歸一化變化”以測試用例通過數(shù)為基礎,將代碼狀態(tài)映射到[-1,1]區(qū)間,正向表示功能提升,負向表示出現(xiàn)功能退化。

EvoScore更側(cè)重衡量AI大模型在未來修改任務中的表現(xiàn)。


實測結(jié)果:Claude Opus斷層領跑,大多數(shù)大模型在75%的任務中會破壞原有代碼

研究團隊對8家公司——月之暗面、Anthropic、智譜、千問、MiniMax、DeepSeek、OpenAI和豆包——的18個主流AI大模型進行了系統(tǒng)性測試,累計消耗了超過100億Token的測試數(shù)據(jù)。這一實驗規(guī)模在AI編程評估領域堪稱史無前例。

研究結(jié)果顯示,從時間維度來看,AI大模型在代碼維護能力上的進化呈現(xiàn)出明顯的加速曲線。

從下圖可以發(fā)現(xiàn),同一廠商的大模型新版本普遍穩(wěn)定高于前一代,且2026年后的躍升幅度顯著擴大,EvoScore更高。這表明,當前大模型的代碼能力正從靜態(tài)缺陷修復,快速向持續(xù)、長期的代碼維護演進。



8家廠商的主流大模型在SWE?CI測試中的EvoScore變化情況。圖片來源:論文截圖

在所有參評大模型中,Claude Opus系列表現(xiàn)最為突出,從Claude-opus-4.5到Claude-opus-4.6,其EvoScore躍升至約0.9的高位,明顯拉開了與所有競爭對手的差距。

中國的AI大模型中,智譜GLM系列進步顯著,成為第二梯隊中最具競爭力的選手。緊隨其后的是Qwen和MiniMax,整體趨勢向好。而Kimi和豆包雖有提升,但缺乏突破。

研究還發(fā)現(xiàn),不同廠商在大模型訓練策略上偏好存在明顯分化。

具體而言,MiniMax、DeepSeek以及OpenAI的GPT系列大模型更偏好長期效益,顯示出其在長期代碼維護任務中的優(yōu)勢。這意味著,這類大模型在生成代碼時,更傾向于采用有利于長期演進與穩(wěn)定性的策略,而非追求短期修復的最優(yōu)解。

相比之下,Kimi與智譜GLM系列更偏向于短期見效的優(yōu)化路徑。

而千問、豆包以及Claude系列大模型則呈現(xiàn)出另一種特征:其訓練策略在短期效果與長期維護之間取得了一定平衡。


隨著權重參數(shù)γ的變化,各個大模型的排名也隨之發(fā)生顯著調(diào)整。當γ>1時,大模型排名越高,其代碼庫維護能力越強。圖片來源:論文截圖

另外,研究還有一項關鍵發(fā)現(xiàn):在長期代碼維護中,所有大模型在有效控制性能退化(Regression)方面都表現(xiàn)不佳。

性能退化是衡量軟件質(zhì)量穩(wěn)定性的核心指標。如果某個單元測試在代碼更新前已經(jīng)通過,而更新后失敗了,則判定該變更觸發(fā)了性能退化。一旦出現(xiàn)性能退化,不僅會直接影響用戶體驗,在長期維護過程中,隨著修改次數(shù)累積,還可能導致系統(tǒng)質(zhì)量系統(tǒng)性退化。

研究團隊測量了“零退化率”——即在整個維護過程中完全沒有破壞原有功能的任務比例。零退化率越高,維護的系統(tǒng)越穩(wěn)定。

研究結(jié)果表明,在所有參與測試的18個大模型中,只有Anthropic的Claude Opus大模型保持了50%以上的零退化率,大多數(shù)大模型的零退化率都低于25%。


18個大模型的零退化率(從低到高排序)。圖片來源:論文截圖

具體而言,Claude-opus-4.6以76%的零退化率遙遙領先。這意味著在絕大多數(shù)測試場景中,其性能能夠保持穩(wěn)定。Claude-opus-4.5以51%位列第二。相比之下,Kimi-K2.5(37%)與GLM-5(36%)表現(xiàn)接近,構(gòu)成第二梯隊,雖具備一定穩(wěn)定性,但與頭部大模型仍存在顯著差距。

包括GPT-5.2、Qwen3.5-plus、MiniMax-M2.5和DeepSeek-V3.2在內(nèi)的其余14個AI大模型的零退化率都在25%以下,這意味著在長期代碼維護過程中,大模型在超過75%的任務中會破壞原本正常的代碼功能,引發(fā)性能退化問題。

但從版本迭代的角度看,頭部廠商的AI大模型正快速進步。例如,Claude-opus系列的“零退化率”從4.5版本的51%提升至4.6版本的76%,智譜GLM系列從GLM-4.6和GLM-4.7的14%躍升至GLM-5的36%。

但即便如此,絕大多數(shù)大模型仍難以在長期代碼維護中杜絕性能退化問題,距離可靠的自動化長期開發(fā)仍有明顯差距。

SWECI基準測試結(jié)果的發(fā)布,讓行業(yè)意識到,“寫代碼”和“維護代碼”是兩種截然不同的能力。對于大模型廠商而言,持續(xù)優(yōu)化可維護性、性能退化控制、架構(gòu)設計能力,或許將是贏得下半場競爭的關鍵。

免責聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前核實。據(jù)此操作,風險自擔。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳慧琳”太豐滿了,穿抹胸都兜不住好身材,我感慨自律女人真美

陳慧琳”太豐滿了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
國際原油價格日內(nèi)跌幅收窄至3%

國際原油價格日內(nèi)跌幅收窄至3%

每日經(jīng)濟新聞
2026-03-25 23:27:05
轟下7連勝,目標瞄準凱爾特人!騎士能否沖冠,要看你們表現(xiàn)

轟下7連勝,目標瞄準凱爾特人!騎士能否沖冠,要看你們表現(xiàn)

老梁體育漫談
2026-03-26 00:08:25
新劇照,真的是個頂級勞模!

新劇照,真的是個頂級勞模!

貴圈真亂
2026-03-24 10:21:47
積極信號!一艘泰國油輪安全通過霍爾木茲海峽,相關溝通機制正在發(fā)揮作用

積極信號!一艘泰國油輪安全通過霍爾木茲海峽,相關溝通機制正在發(fā)揮作用

每日經(jīng)濟新聞
2026-03-25 13:50:33
瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

阿鳧愛吐槽
2026-03-24 00:54:18
伊朗兩名高級將領殞命,巴蓋里家族再添亡魂,強硬派折損慘重

伊朗兩名高級將領殞命,巴蓋里家族再添亡魂,強硬派折損慘重

老馬拉車莫少裝
2026-03-26 00:02:39
張雪峰老師的頭像變黑白了……

張雪峰老師的頭像變黑白了……

留學生日報
2026-03-24 21:19:14
朝鮮國運來了!中東大戰(zhàn),又是朝鮮悶聲發(fā)大財?

朝鮮國運來了!中東大戰(zhàn),又是朝鮮悶聲發(fā)大財?

北向財經(jīng)
2026-03-24 22:17:38
大舉增兵!美海軍陸戰(zhàn)隊遠征波斯灣,五角大樓考慮抽調(diào)3000空降兵支援!伊朗發(fā)動第78波攻勢:主力部隊尚未出動,將在戰(zhàn)斗中展示新“驚喜”

大舉增兵!美海軍陸戰(zhàn)隊遠征波斯灣,五角大樓考慮抽調(diào)3000空降兵支援!伊朗發(fā)動第78波攻勢:主力部隊尚未出動,將在戰(zhàn)斗中展示新“驚喜”

每日經(jīng)濟新聞
2026-03-24 08:50:06
登陸或周內(nèi)、甚至3天內(nèi)開始:川普通牒后伊朗稱會全面攻擊中東

登陸或周內(nèi)、甚至3天內(nèi)開始:川普通牒后伊朗稱會全面攻擊中東

邵旭峰域
2026-03-23 14:40:06
全聯(lián)盟都默認了!路威點破真相:詹姆斯不會再留在湖人

全聯(lián)盟都默認了!路威點破真相:詹姆斯不會再留在湖人

夜白侃球
2026-03-25 09:36:57
甘油三酯"禍首"被發(fā)現(xiàn),是豬油的12倍?專家嘆息:還有人天天在吃

甘油三酯"禍首"被發(fā)現(xiàn),是豬油的12倍?專家嘆息:還有人天天在吃

芳芳歷史燴
2026-03-23 11:04:46
法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
日本徹底不裝了,邁出最危險一步!中國如何應對?

日本徹底不裝了,邁出最危險一步!中國如何應對?

兵國大事
2026-03-25 01:05:04
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
上海112-80大勝山西 球員評價:4人優(yōu)秀,5人及格,洛夫頓低迷

上海112-80大勝山西 球員評價:4人優(yōu)秀,5人及格,洛夫頓低迷

籃球資訊達人
2026-03-26 00:14:02
全新阿爾法S5補貼后9.98萬起 增程純電雙動力、城區(qū)NOA入手即滿配

全新阿爾法S5補貼后9.98萬起 增程純電雙動力、城區(qū)NOA入手即滿配

道哥說車
2026-03-18 18:29:55
南京一大廈有女生墜樓?記者核實:系謠言,實為外省某大廈事件誤傳

南京一大廈有女生墜樓?記者核實:系謠言,實為外省某大廈事件誤傳

揚子晚報
2026-03-25 18:25:42
婆婆試戴我的金鐲后說:幫你戴幾天。我對老公說:要不回來就重買

婆婆試戴我的金鐲后說:幫你戴幾天。我對老公說:要不回來就重買

九哥哥車評
2026-03-25 16:24:26
2026-03-26 01:23:00
每日經(jīng)濟新聞 incentive-icons
每日經(jīng)濟新聞
中國主流財經(jīng)全媒體平臺。
1518377文章數(shù) 2724689關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

本地
藝術
時尚
健康
公開課

本地新聞

來永泰同安 赴一場春天的約會

藝術要聞

1008米!世界新第一高樓用上中國黑科技!

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版