網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中山大學(xué)與阿里SWE-CI：AI代碼養(yǎng)護(hù)能力評(píng)測(cè)新體系

2026-03-09 16:16:26　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由中山大學(xué)和阿里巴巴集團(tuán)聯(lián)合開展的研究發(fā)表于2026年3月4日，已提交至頂級(jí)會(huì)議評(píng)審中，研究論文編號(hào)為arXiv:2603.03823v1。有興趣深入了解的讀者可以通過該編號(hào)在學(xué)術(shù)數(shù)據(jù)庫(kù)中查詢完整論文，也可以在Hugging Face平臺(tái)搜索"skylenage/SWE-CI"或在GitHub上訪問"SKYLENAGE-AI/SWE-CI"項(xiàng)目獲取相關(guān)資源。

想象一下這樣的場(chǎng)景：你精心照料一個(gè)花園，不僅要讓花朵綻放，更要確保花園在四季更迭中依然茁壯生長(zhǎng)。傳統(tǒng)的園藝評(píng)判只看某一時(shí)刻的花朵是否美麗，但真正的園藝大師需要讓花園在長(zhǎng)年累月的變化中保持生機(jī)盎然。同樣的道理，在軟件開發(fā)的世界里，一個(gè)優(yōu)秀的AI編程助手不僅要寫出能運(yùn)行的代碼，更要寫出能夠經(jīng)得起時(shí)間考驗(yàn)、在不斷修改和擴(kuò)展中依然保持優(yōu)雅的代碼。

然而，目前幾乎所有評(píng)測(cè)AI編程能力的標(biāo)準(zhǔn)都像是在評(píng)判"一瞬間的花朵美"——它們只關(guān)注代碼在某個(gè)特定時(shí)刻是否能正確運(yùn)行，完全忽略了代碼在長(zhǎng)期維護(hù)過程中的表現(xiàn)。這就好比只看照片中的花園是否漂亮，卻從不考慮這個(gè)花園在一年四季的風(fēng)雨中是否依然能保持美麗。

正是為了填補(bǔ)這一重要空白，研究團(tuán)隊(duì)開發(fā)了SWE-CI（軟件工程持續(xù)集成）評(píng)測(cè)基準(zhǔn)。這是全球首個(gè)專門評(píng)估AI代理在長(zhǎng)期代碼維護(hù)中表現(xiàn)的評(píng)測(cè)系統(tǒng)，它不再滿足于"一次性正確"，而是要求AI像真正的軟件工程師一樣，在數(shù)月甚至數(shù)年的開發(fā)過程中持續(xù)保持代碼質(zhì)量。

研究團(tuán)隊(duì)精心構(gòu)建了100個(gè)評(píng)測(cè)任務(wù)，每個(gè)任務(wù)都對(duì)應(yīng)著真實(shí)世界中一個(gè)軟件項(xiàng)目的完整進(jìn)化歷程。這些項(xiàng)目平均跨越233天的開發(fā)時(shí)間，包含71個(gè)連續(xù)的代碼提交記錄。更令人印象深刻的是，研究團(tuán)隊(duì)還創(chuàng)造性地設(shè)計(jì)了一套"建筑師-程序員"雙重角色的評(píng)測(cè)協(xié)議，模擬真實(shí)軟件團(tuán)隊(duì)中的協(xié)作模式，讓AI在一個(gè)更接近現(xiàn)實(shí)的環(huán)境中接受考驗(yàn)。

通過對(duì)18個(gè)來自8家頂級(jí)AI公司的模型進(jìn)行全面測(cè)試，研究團(tuán)隊(duì)消耗了超過100億個(gè)AI計(jì)算單元，獲得了令人深思的發(fā)現(xiàn)：盡管這些AI模型在短期編程任務(wù)上表現(xiàn)出色，但在長(zhǎng)期代碼維護(hù)方面卻普遍存在明顯不足。這一發(fā)現(xiàn)不僅揭示了當(dāng)前AI編程助手的重要局限性，更為未來的技術(shù)發(fā)展指明了關(guān)鍵方向。

一、從"一次性編程"到"終身維護(hù)"：軟件開發(fā)的真實(shí)挑戰(zhàn)

要理解為什么需要SWE-CI這樣的評(píng)測(cè)體系，我們首先需要認(rèn)識(shí)到現(xiàn)實(shí)軟件開發(fā)與傳統(tǒng)評(píng)測(cè)之間的巨大差距。

傳統(tǒng)的AI編程評(píng)測(cè)就像考試中的單選題——給定一個(gè)明確的問題，要求AI給出一個(gè)正確的答案。比如經(jīng)典的HumanEval測(cè)試會(huì)給AI一個(gè)函數(shù)的描述，要求它完成這個(gè)函數(shù)的編寫。這種測(cè)試雖然有用，但就像在平靜的游泳池中測(cè)試游泳技能一樣，無法反映在波濤洶涌的大海中游泳的真實(shí)挑戰(zhàn)。

真實(shí)的軟件開發(fā)更像是在動(dòng)態(tài)變化的環(huán)境中持續(xù)建造一座復(fù)雜的建筑。你不能簡(jiǎn)單地搭建一個(gè)結(jié)構(gòu)然后就此完成，而是需要在建筑的使用過程中不斷進(jìn)行維護(hù)、擴(kuò)展和改進(jìn)。新的需求不斷涌現(xiàn)，舊的功能需要調(diào)整，而且每一次修改都可能影響到整個(gè)建筑的穩(wěn)定性。

研究團(tuán)隊(duì)發(fā)現(xiàn)了現(xiàn)有評(píng)測(cè)方法的根本問題：它們都采用"快照式"評(píng)估。就像用一張照片來評(píng)判一個(gè)人的整個(gè)人生一樣，這種方法只能看到某個(gè)特定時(shí)刻的表現(xiàn)，完全忽略了時(shí)間維度上的變化和挑戰(zhàn)。在這種評(píng)估方式下，一個(gè)匆忙拼湊的解決方案和一個(gè)經(jīng)過深思熟慮的優(yōu)雅設(shè)計(jì)可能會(huì)得到同樣的評(píng)分，因?yàn)樗鼈冊(cè)诋?dāng)下都能通過測(cè)試。

但是，當(dāng)需求開始發(fā)生變化時(shí)，兩者之間的差別就會(huì)顯現(xiàn)出來。那個(gè)匆忙拼湊的解決方案會(huì)變得越來越難以維護(hù)，每次修改都需要更多的時(shí)間和精力，而且容易引入新的錯(cuò)誤。相比之下，經(jīng)過深思熟慮的設(shè)計(jì)會(huì)表現(xiàn)出良好的適應(yīng)性，能夠優(yōu)雅地應(yīng)對(duì)新的需求和變化。

這種差異在軟件工程領(lǐng)域被稱為"技術(shù)債務(wù)"。就像財(cái)務(wù)債務(wù)一樣，技術(shù)債務(wù)在初期可能看起來無關(guān)緊要，甚至能夠帶來短期的便利。但是隨著時(shí)間的推移，利息會(huì)不斷累積，最終可能拖垮整個(gè)項(xiàng)目。據(jù)業(yè)界統(tǒng)計(jì)，軟件維護(hù)活動(dòng)占據(jù)了整個(gè)軟件生命周期成本的60%到80%，這個(gè)驚人的數(shù)字充分說明了長(zhǎng)期維護(hù)能力的重要性。

萊曼定律（Lehman's Laws）這一軟件工程的經(jīng)典理論進(jìn)一步揭示了這個(gè)問題的本質(zhì)：隨著維護(hù)過程的進(jìn)行，軟件質(zhì)量會(huì)不可避免地下降。這意味著，真正優(yōu)秀的軟件開發(fā)能力不僅僅是寫出能運(yùn)行的代碼，更重要的是寫出能夠抵御質(zhì)量衰減、在長(zhǎng)期演化中保持健康的代碼。

二、SWE-CI的創(chuàng)新突破：從靜態(tài)測(cè)試到動(dòng)態(tài)進(jìn)化

面對(duì)傳統(tǒng)評(píng)測(cè)方法的局限性，研究團(tuán)隊(duì)提出了一個(gè)根本性的范式轉(zhuǎn)變：從靜態(tài)的"快照式"評(píng)估轉(zhuǎn)向動(dòng)態(tài)的"進(jìn)化式"評(píng)估。

在傳統(tǒng)的評(píng)測(cè)方法中，整個(gè)過程就像是在特定時(shí)刻拍攝一張照片。AI接收到一個(gè)完整的需求描述，然后提供一個(gè)一次性的解決方案。無論這個(gè)解決方案是經(jīng)過精心設(shè)計(jì)的還是匆忙拼湊的，只要它能通過當(dāng)前的測(cè)試用例，就被認(rèn)為是成功的。

SWE-CI的創(chuàng)新在于引入了時(shí)間維度和持續(xù)性要求。在這個(gè)新的評(píng)測(cè)框架中，AI不再面對(duì)一個(gè)靜態(tài)的問題，而是需要在一個(gè)不斷演化的環(huán)境中持續(xù)工作。就像園丁需要根據(jù)季節(jié)變化調(diào)整照料策略一樣，AI需要根據(jù)不斷出現(xiàn)的新需求來調(diào)整代碼。

研究團(tuán)隊(duì)巧妙地將這個(gè)過程形式化為數(shù)學(xué)模型。他們定義了兩個(gè)關(guān)鍵函數(shù)：需求識(shí)別函數(shù)和代碼實(shí)現(xiàn)函數(shù)。需求識(shí)別函數(shù)負(fù)責(zé)分析當(dāng)前代碼狀態(tài)與目標(biāo)狀態(tài)之間的差距，并生成相應(yīng)的需求文檔。代碼實(shí)現(xiàn)函數(shù)則根據(jù)這些需求對(duì)代碼進(jìn)行修改。

這種設(shè)計(jì)的巧妙之處在于，它創(chuàng)造了一個(gè)反饋循環(huán)。每一次代碼修改都會(huì)影響下一輪的需求識(shí)別，而之前修改的質(zhì)量會(huì)在后續(xù)的迭代中得到體現(xiàn)。如果AI在早期階段做出了草率的設(shè)計(jì)決策，這些決策的負(fù)面影響會(huì)在后續(xù)的開發(fā)過程中逐漸放大，使得后續(xù)的修改變得越來越困難。

為了更準(zhǔn)確地衡量代碼在這種動(dòng)態(tài)環(huán)境中的表現(xiàn)，研究團(tuán)隊(duì)還開發(fā)了一套新的評(píng)分機(jī)制。傳統(tǒng)的評(píng)測(cè)通常只關(guān)注"通過"或"未通過"這樣的二元結(jié)果，但SWE-CI引入了"歸一化變化"這一更細(xì)致的度量標(biāo)準(zhǔn)。

這個(gè)度量標(biāo)準(zhǔn)的設(shè)計(jì)非常貼心。當(dāng)AI改進(jìn)了代碼功能時(shí)，改進(jìn)程度會(huì)按照從基線到目標(biāo)的總體差距進(jìn)行歸一化，確保無論任務(wù)大小如何，滿分都是1分。但當(dāng)AI破壞了原有功能時(shí)，退步程度會(huì)按照原有基線進(jìn)行歸一化，這樣無論任務(wù)規(guī)模如何，最壞情況下的得分都是-1分。這種非對(duì)稱的設(shè)計(jì)確保了改進(jìn)和退步都能在統(tǒng)一的尺度上得到公平的評(píng)估。

更進(jìn)一步，研究團(tuán)隊(duì)還提出了EvoScore（進(jìn)化評(píng)分）這一核心指標(biāo)。這個(gè)指標(biāo)不是簡(jiǎn)單地計(jì)算所有迭代的平均得分，而是對(duì)后期迭代給予更高的權(quán)重。其背后的邏輯簡(jiǎn)單而深刻：真正可維護(hù)的代碼應(yīng)該在長(zhǎng)期演化中表現(xiàn)得越來越好，而不是越來越差。

通過調(diào)節(jié)權(quán)重參數(shù)，EvoScore能夠靈敏地區(qū)分不同類型的開發(fā)策略。那些為了短期效果而犧牲長(zhǎng)期可維護(hù)性的方法會(huì)得到較低的評(píng)分，而那些在初期可能進(jìn)展較慢但能夠?yàn)楹罄m(xù)開發(fā)奠定堅(jiān)實(shí)基礎(chǔ)的方法會(huì)得到更高的認(rèn)可。

三、精心構(gòu)建真實(shí)世界的代碼進(jìn)化歷程

SWE-CI最令人印象深刻的特點(diǎn)之一就是它完全基于真實(shí)世界的軟件開發(fā)歷程。研究團(tuán)隊(duì)并沒有人為構(gòu)造簡(jiǎn)化的測(cè)試場(chǎng)景，而是花費(fèi)大量精力從實(shí)際的開源項(xiàng)目中提取完整的進(jìn)化軌跡。

整個(gè)數(shù)據(jù)構(gòu)建過程就像是考古學(xué)家在尋找和保存珍貴的歷史文物。研究團(tuán)隊(duì)首先在GitHub這個(gè)全球最大的代碼托管平臺(tái)上進(jìn)行了廣泛的搜索。他們?cè)O(shè)定了嚴(yán)格的篩選標(biāo)準(zhǔn)：項(xiàng)目必須至少維護(hù)了三年，獲得了超過500個(gè)星標(biāo)，包含完整的配置和測(cè)試文件，并且采用寬松的開源許可證。經(jīng)過這輪篩選，從海量的項(xiàng)目中保留下了4923個(gè)高質(zhì)量的候選項(xiàng)目。

接下來的步驟更加精細(xì)。研究團(tuán)隊(duì)分析了每個(gè)項(xiàng)目的完整提交歷史，尋找那些依賴關(guān)系保持穩(wěn)定的連續(xù)開發(fā)階段。這樣做的原因很實(shí)用：如果一個(gè)項(xiàng)目在開發(fā)過程中頻繁更換核心依賴庫(kù)，那么代碼的變化可能主要是為了適應(yīng)外部變化，而不是反映內(nèi)在的功能演進(jìn)。只有在依賴關(guān)系穩(wěn)定的情況下，代碼的變化才能真正體現(xiàn)開發(fā)者的設(shè)計(jì)決策和維護(hù)能力。

為了確保任務(wù)的充實(shí)性，研究團(tuán)隊(duì)還設(shè)定了代碼變化的最低閾值：每個(gè)候選任務(wù)必須涉及至少1000行代碼的修改。這個(gè)標(biāo)準(zhǔn)確保了每個(gè)任務(wù)都代表著足夠復(fù)雜的演化過程，而不是簡(jiǎn)單的小修小補(bǔ)。

最具挑戰(zhàn)性的部分是環(huán)境重建。為了讓現(xiàn)代的AI能夠在歷史代碼環(huán)境中正常工作，研究團(tuán)隊(duì)需要為每個(gè)任務(wù)重新構(gòu)建當(dāng)時(shí)的運(yùn)行環(huán)境。這個(gè)過程就像是文物修復(fù)師在重建古代工藝品的制作環(huán)境。他們根據(jù)每個(gè)項(xiàng)目在特定時(shí)期的配置文件自動(dòng)生成Docker容器，并實(shí)現(xiàn)了一套智能修復(fù)機(jī)制：當(dāng)某個(gè)環(huán)境因?yàn)橐蕾嚾笔Ф鵁o法啟動(dòng)時(shí)，系統(tǒng)會(huì)自動(dòng)檢測(cè)問題并嘗試補(bǔ)充缺失的組件。

為了進(jìn)一步保證質(zhì)量，研究團(tuán)隊(duì)還進(jìn)行了多輪精細(xì)篩選。他們?cè)谥亟ǖ沫h(huán)境中運(yùn)行項(xiàng)目的測(cè)試套件，確?；A(chǔ)代碼和目標(biāo)代碼都能正常工作。同時(shí)，他們還驗(yàn)證了基礎(chǔ)版本和目標(biāo)版本之間確實(shí)存在足夠的測(cè)試差異——至少5個(gè)測(cè)試用例的差別，以確保任務(wù)具有實(shí)質(zhì)性的挑戰(zhàn)。

最終，100個(gè)精心挑選的任務(wù)組成了SWE-CI基準(zhǔn)測(cè)試集。這些任務(wù)來自68個(gè)不同的開源項(xiàng)目，平均跨越233天的真實(shí)開發(fā)時(shí)間，包含71個(gè)連續(xù)的提交記錄。每個(gè)任務(wù)都配備了完整的源代碼和預(yù)構(gòu)建的運(yùn)行環(huán)境，確保了實(shí)驗(yàn)的可重復(fù)性。

這樣的數(shù)據(jù)構(gòu)建過程確保了SWE-CI不是在測(cè)試AI處理人造問題的能力，而是在評(píng)估它們應(yīng)對(duì)真實(shí)世界復(fù)雜性的能力。這些任務(wù)中包含的每一個(gè)代碼變化、每一個(gè)設(shè)計(jì)決策都曾經(jīng)是真實(shí)開發(fā)者在面對(duì)實(shí)際需求時(shí)做出的選擇，因此具有無可替代的真實(shí)性和代表性。

四、雙重角色協(xié)作：模擬真實(shí)團(tuán)隊(duì)的智慧分工

為了更真實(shí)地模擬專業(yè)軟件開發(fā)團(tuán)隊(duì)的工作模式，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的"建筑師-程序員"雙角色協(xié)作機(jī)制。這種設(shè)計(jì)的靈感來自真實(shí)軟件團(tuán)隊(duì)中常見的分工模式：架構(gòu)師負(fù)責(zé)分析需求和制定技術(shù)方案，程序員負(fù)責(zé)具體的代碼實(shí)現(xiàn)。

建筑師角色承擔(dān)著戰(zhàn)略層面的責(zé)任。當(dāng)面對(duì)測(cè)試失敗時(shí)，建筑師需要像偵探一樣進(jìn)行層層分析。首先，它要仔細(xì)研究所有失敗的測(cè)試用例，從中找出共同的模式和根本原因。這個(gè)過程就像醫(yī)生診斷病情一樣，需要從表面癥狀深入到根本病因。

接著，建筑師需要深入檢查相關(guān)的源代碼，將抽象的測(cè)試失敗與具體的代碼缺陷關(guān)聯(lián)起來。這一步驟特別重要，因?yàn)橥瑯拥臏y(cè)試失敗可能源于完全不同的代碼問題，而有效的解決方案必須針對(duì)真正的根源。

在完成分析后，建筑師的任務(wù)是設(shè)計(jì)改進(jìn)方案。但這里有一個(gè)重要的約束：建筑師必須采用增量式的思維，每次只提出最多5個(gè)最緊迫的改進(jìn)需求，避免一次性提出過于宏大的重構(gòu)計(jì)劃。這種約束模擬了真實(shí)敏捷開發(fā)中的"小步快跑"理念，確保每次迭代都是可管理的。

建筑師生成的需求文檔必須遵循兩個(gè)重要原則。首先是"增量性"：文檔應(yīng)該專注于當(dāng)前最迫切的需求，避免過度設(shè)計(jì)的陷阱。其次是"高層次性"：需求應(yīng)該用自然語言描述期望的行為，而不是給出具體的實(shí)現(xiàn)細(xì)節(jié)，為程序員留出創(chuàng)造性發(fā)揮的空間。

程序員角色則專注于將高層次的需求轉(zhuǎn)化為具體的代碼實(shí)現(xiàn)。程序員的工作流程同樣被標(biāo)準(zhǔn)化為三個(gè)步驟：首先是理解需求，將自然語言描述的期望轉(zhuǎn)化為明確的技術(shù)規(guī)格；然后是制定實(shí)現(xiàn)計(jì)劃，考慮如何在現(xiàn)有代碼基礎(chǔ)上進(jìn)行修改；最后是具體的代碼編寫和修改。

這種雙角色設(shè)計(jì)的巧妙之處在于它真實(shí)地反映了軟件開發(fā)中的認(rèn)知負(fù)荷分配。在真實(shí)的團(tuán)隊(duì)中，架構(gòu)師和程序員往往具有不同的思維模式和關(guān)注重點(diǎn)。架構(gòu)師更多地從系統(tǒng)整體角度思考問題，而程序員更多地關(guān)注具體實(shí)現(xiàn)的技術(shù)細(xì)節(jié)。通過讓AI分別扮演這兩個(gè)角色，SWE-CI能夠更準(zhǔn)確地評(píng)估AI在不同層面上的能力。

更重要的是，這種設(shè)計(jì)避免了"上帝視角"的問題。在傳統(tǒng)的評(píng)測(cè)中，AI往往能夠同時(shí)看到問題的全貌和最終的解決方案，這與真實(shí)開發(fā)中的漸進(jìn)式認(rèn)知過程截然不同。在SWE-CI中，程序員只能根據(jù)建筑師提供的需求文檔進(jìn)行工作，而建筑師只能基于當(dāng)前的測(cè)試結(jié)果進(jìn)行分析，這種信息限制使得評(píng)測(cè)更加貼近現(xiàn)實(shí)。

雙角色協(xié)作還引入了一個(gè)重要的反饋機(jī)制。建筑師的需求質(zhì)量會(huì)直接影響程序員的實(shí)現(xiàn)效果，而程序員的實(shí)現(xiàn)質(zhì)量又會(huì)影響下一輪的測(cè)試結(jié)果，進(jìn)而影響建筑師的后續(xù)分析。這種相互依賴的關(guān)系準(zhǔn)確地模擬了真實(shí)團(tuán)隊(duì)合作中的復(fù)雜動(dòng)態(tài)。

五、革命性的評(píng)估指標(biāo)：捕捉長(zhǎng)期維護(hù)的真實(shí)挑戰(zhàn)

SWE-CI的評(píng)估體系最具創(chuàng)新性的地方在于它不再簡(jiǎn)單地關(guān)注"對(duì)錯(cuò)"，而是深入分析代碼在時(shí)間維度上的表現(xiàn)變化。這種評(píng)估理念的轉(zhuǎn)變就像是從關(guān)注單次考試成績(jī)轉(zhuǎn)向關(guān)注學(xué)習(xí)能力的長(zhǎng)期發(fā)展。

傳統(tǒng)評(píng)測(cè)的局限性在于它假設(shè)每個(gè)問題都有一個(gè)明確的"正確答案"。但在真實(shí)的軟件維護(hù)中，很多時(shí)候并不存在唯一的標(biāo)準(zhǔn)答案，而是存在多種可能的解決路徑，這些路徑在短期內(nèi)可能表現(xiàn)相似，但長(zhǎng)期效果卻大相徑庭。

SWE-CI引入的"歸一化變化"指標(biāo)巧妙地解決了這個(gè)問題。這個(gè)指標(biāo)的設(shè)計(jì)哲學(xué)是：不僅要看AI能否解決問題，更要看它解決問題的方式是否可持續(xù)。當(dāng)AI改善了代碼功能時(shí)，改善的程度會(huì)按照總體目標(biāo)進(jìn)行歸一化，這樣無論任務(wù)規(guī)模大小，完全達(dá)成目標(biāo)都對(duì)應(yīng)1分的滿分。但當(dāng)AI破壞了原有功能時(shí)，破壞程度會(huì)按照原有基線進(jìn)行歸一化，確保最糟糕的情況（完全破壞所有原有功能）對(duì)應(yīng)-1分。

這種非對(duì)稱的評(píng)分設(shè)計(jì)反映了軟件維護(hù)的一個(gè)重要現(xiàn)實(shí)：破壞現(xiàn)有功能的代價(jià)往往比增加新功能的收益更大。在真實(shí)的開發(fā)環(huán)境中，引入回歸錯(cuò)誤（即破壞原本正常工作的功能）是極其嚴(yán)重的問題，因?yàn)樗鼤?huì)直接影響用戶體驗(yàn)，并可能引發(fā)連鎖反應(yīng)。

EvoScore（進(jìn)化評(píng)分）的設(shè)計(jì)更是獨(dú)具匠心。這個(gè)指標(biāo)通過給后期迭代分配更高的權(quán)重，有效地區(qū)分了兩種截然不同的開發(fā)策略。一種是"短期收益"策略，通過快速但可能不夠穩(wěn)固的修改來盡快通過測(cè)試；另一種是"長(zhǎng)期投資"策略，可能在初期進(jìn)展較慢，但會(huì)為后續(xù)開發(fā)建立堅(jiān)實(shí)的基礎(chǔ)。

權(quán)重參數(shù)γ的作用非常關(guān)鍵。當(dāng)γ等于1時(shí)，EvoScore就是簡(jiǎn)單的平均分，對(duì)所有迭代一視同仁。但隨著γ的增加，后期迭代的重要性急劇上升。這種設(shè)計(jì)模擬了真實(shí)軟件項(xiàng)目中的一個(gè)重要現(xiàn)象：技術(shù)債務(wù)的復(fù)合效應(yīng)。早期的草率決策在初期可能影響不大，但隨著項(xiàng)目的發(fā)展，其負(fù)面影響會(huì)越來越明顯。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：不同AI模型在面對(duì)不同γ值時(shí)表現(xiàn)出了明顯的偏好差異。一些模型在低γ值時(shí)表現(xiàn)較好，說明它們擅長(zhǎng)快速解決當(dāng)前問題，但可能缺乏長(zhǎng)期規(guī)劃能力。而另一些模型在高γ值時(shí)表現(xiàn)更佳，表明它們能夠做出更有利于長(zhǎng)期發(fā)展的設(shè)計(jì)決策。

這種差異性揭示了AI模型訓(xùn)練策略的深層影響。那些主要基于短期編程任務(wù)訓(xùn)練的模型往往傾向于快速解決問題，而那些更多接觸到長(zhǎng)期項(xiàng)目維護(hù)案例的模型則表現(xiàn)出更好的前瞻性思考能力。

六、令人深思的實(shí)驗(yàn)發(fā)現(xiàn)：AI的維護(hù)能力現(xiàn)狀

研究團(tuán)隊(duì)對(duì)18個(gè)來自8家主要AI公司的先進(jìn)模型進(jìn)行了全面評(píng)測(cè)，總計(jì)消耗了超過100億個(gè)計(jì)算token，獲得了一系列令人深思的發(fā)現(xiàn)。

最引人注目的發(fā)現(xiàn)是AI模型的發(fā)展軌跡呈現(xiàn)出明顯的加速趨勢(shì)。在同一家公司的產(chǎn)品線中，較新的模型幾乎總是比較早的版本表現(xiàn)更好，而且2026年后發(fā)布的模型相比其前代產(chǎn)品顯示出了更大幅度的改進(jìn)。這種趨勢(shì)表明，AI公司正在越來越重視代碼維護(hù)能力的提升，而不僅僅是單次編程任務(wù)的準(zhǔn)確性。

在所有測(cè)試的模型中，Claude Opus系列表現(xiàn)最為突出，在整個(gè)觀察期間都保持著領(lǐng)先地位。GLM-5也表現(xiàn)出了令人印象深刻的性能。這些領(lǐng)先模型的成功可能源于它們?cè)谟?xùn)練過程中更多地接觸了長(zhǎng)期項(xiàng)目維護(hù)的案例，或者采用了更有利于培養(yǎng)前瞻性思維的訓(xùn)練策略。

更有意思的是，研究團(tuán)隊(duì)發(fā)現(xiàn)不同AI公司在開發(fā)策略上存在明顯差異。通過調(diào)節(jié)EvoScore中的權(quán)重參數(shù)γ，研究者能夠觀察到模型偏好的變化。MiniMax、DeepSeek和GPT系列模型表現(xiàn)出了對(duì)長(zhǎng)期收益的明顯偏好，在γ值較高時(shí)表現(xiàn)更好。這表明這些模型在面對(duì)編程任務(wù)時(shí)更傾向于采用有利于長(zhǎng)期維護(hù)的策略。

相比之下，Kimi和GLM系列模型則傾向于短期收益，在γ值較低時(shí)表現(xiàn)更佳。這可能反映了不同的訓(xùn)練哲學(xué)：一些公司可能更注重快速解決問題的能力，而另一些公司則更重視代碼的長(zhǎng)期可維護(hù)性。

Qwen、Doubao和Claude系列模型在不同γ值下表現(xiàn)相對(duì)穩(wěn)定，這種穩(wěn)定性本身就是一種優(yōu)勢(shì)，表明這些模型在短期效率和長(zhǎng)期可維護(hù)性之間找到了較好的平衡。

然而，最令人擔(dān)憂的發(fā)現(xiàn)是所有模型在控制回歸錯(cuò)誤方面都表現(xiàn)不佳。研究團(tuán)隊(duì)測(cè)量了"零回歸率"——即在整個(gè)維護(hù)過程中完全沒有破壞原有功能的任務(wù)比例。結(jié)果顯示，大多數(shù)模型的零回歸率都低于25%，只有Claude Opus系列的兩個(gè)模型超過了50%。

這個(gè)發(fā)現(xiàn)特別重要，因?yàn)樵谡鎸?shí)的軟件開發(fā)中，回歸錯(cuò)誤是極其嚴(yán)重的問題。每當(dāng)一個(gè)原本正常工作的功能因?yàn)樾碌男薷亩r(shí)，不僅會(huì)直接影響用戶體驗(yàn)，還可能引發(fā)級(jí)聯(lián)效應(yīng)，導(dǎo)致其他相關(guān)功能的不穩(wěn)定。在專業(yè)的軟件開發(fā)團(tuán)隊(duì)中，嚴(yán)格控制回歸錯(cuò)誤是質(zhì)量保證的基本要求。

這些發(fā)現(xiàn)揭示了當(dāng)前AI技術(shù)的一個(gè)重要局限性：盡管在單次編程任務(wù)上已經(jīng)達(dá)到了令人印象深刻的水平，但在需要全局考慮和長(zhǎng)期規(guī)劃的復(fù)雜維護(hù)場(chǎng)景中，AI仍然面臨著重大挑戰(zhàn)。這種局限性可能源于訓(xùn)練數(shù)據(jù)的特點(diǎn)——大多數(shù)公開可用的編程數(shù)據(jù)都是獨(dú)立的代碼片段或簡(jiǎn)單的問題-答案對(duì)，缺乏真實(shí)項(xiàng)目中長(zhǎng)期演化的完整上下文。

七、技術(shù)實(shí)現(xiàn)的精巧設(shè)計(jì)

SWE-CI在技術(shù)實(shí)現(xiàn)層面展現(xiàn)了研究團(tuán)隊(duì)的深厚功底和細(xì)致考慮。整個(gè)系統(tǒng)的設(shè)計(jì)既要保證評(píng)測(cè)的公平性和準(zhǔn)確性，又要確保實(shí)驗(yàn)的可重復(fù)性和擴(kuò)展性。

評(píng)測(cè)環(huán)境的搭建采用了容器化技術(shù)，每個(gè)任務(wù)都運(yùn)行在獨(dú)立的Docker環(huán)境中。這種設(shè)計(jì)的好處是多方面的：首先，它確保了不同任務(wù)之間的完全隔離，避免了相互干擾；其次，它能夠精確地重現(xiàn)特定時(shí)期的軟件環(huán)境，包括操作系統(tǒng)版本、編程語言版本以及各種依賴庫(kù)的具體版本；最后，它使得整個(gè)評(píng)測(cè)過程可以在任何支持Docker的機(jī)器上重現(xiàn)，大大提高了實(shí)驗(yàn)的可重復(fù)性。

測(cè)試執(zhí)行采用了pytest框架配合pytest-json-report插件，這種組合能夠生成詳細(xì)的結(jié)構(gòu)化測(cè)試報(bào)告。每次測(cè)試運(yùn)行都設(shè)置了3600秒的超時(shí)限制，這個(gè)時(shí)長(zhǎng)足以應(yīng)對(duì)大多數(shù)復(fù)雜的測(cè)試場(chǎng)景，同時(shí)避免了因?yàn)樗姥h(huán)等問題導(dǎo)致的無限等待。

雙角色協(xié)作的實(shí)現(xiàn)使用了iFlow CLI框架，這是一個(gè)專門為復(fù)雜AI智能體交互設(shè)計(jì)的工具。整個(gè)協(xié)作過程被嚴(yán)格限制在最多20輪迭代內(nèi)，這個(gè)限制既確保了評(píng)測(cè)的可控性，又避免了無謂的長(zhǎng)時(shí)間運(yùn)行。

系統(tǒng)的提示詞設(shè)計(jì)展現(xiàn)了研究團(tuán)隊(duì)對(duì)軟件工程實(shí)踐的深刻理解。建筑師角色的提示詞要求AI嚴(yán)格按照五個(gè)步驟進(jìn)行工作：總結(jié)測(cè)試失敗的原因、追蹤相關(guān)的測(cè)試文件、分析源代碼中的根本問題、篩選最關(guān)鍵的修改需求、生成規(guī)范的需求文檔。每個(gè)步驟都有詳細(xì)的指導(dǎo)原則，確保分析過程的系統(tǒng)性和全面性。

程序員角色的提示詞則強(qiáng)調(diào)了實(shí)現(xiàn)的規(guī)范性和約束性。AI被明確禁止主動(dòng)執(zhí)行測(cè)試命令，只能專注于代碼修改工作。這種約束確保了評(píng)測(cè)過程的標(biāo)準(zhǔn)化，避免了因?yàn)椴煌珹I模型采用不同驗(yàn)證策略而產(chǎn)生的不公平比較。

為了確保評(píng)測(cè)結(jié)果的可靠性，研究團(tuán)隊(duì)還實(shí)現(xiàn)了多層次的質(zhì)量控制機(jī)制。每個(gè)任務(wù)在正式評(píng)測(cè)前都要經(jīng)過環(huán)境驗(yàn)證，確?；A(chǔ)環(huán)境能夠正常運(yùn)行。測(cè)試執(zhí)行過程中的所有輸出都會(huì)被詳細(xì)記錄，便于后續(xù)的分析和調(diào)試。

特別值得一提的是，整個(gè)評(píng)測(cè)過程完全自動(dòng)化，從任務(wù)分配到結(jié)果收集都無需人工干預(yù)。這種設(shè)計(jì)不僅提高了評(píng)測(cè)效率，更重要的是確保了評(píng)測(cè)過程的客觀性和一致性，避免了人為因素對(duì)結(jié)果的影響。

八、深遠(yuǎn)影響與未來展望

SWE-CI的提出不僅僅是一個(gè)新的評(píng)測(cè)基準(zhǔn)，更代表了對(duì)AI編程能力評(píng)估理念的根本性變革。這種變革的影響將是深遠(yuǎn)而多層次的。

從技術(shù)發(fā)展角度來看，SWE-CI為AI研究者指明了一個(gè)重要的發(fā)展方向。長(zhǎng)期以來，AI編程領(lǐng)域的進(jìn)展主要通過提高在短期任務(wù)上的準(zhǔn)確率來衡量，這導(dǎo)致了研究重點(diǎn)的偏向。SWE-CI的出現(xiàn)提醒我們，真正有價(jià)值的AI編程助手不僅要能解決當(dāng)前問題，更要能夠?qū)懗鼋?jīng)得起時(shí)間考驗(yàn)的代碼。

這種評(píng)估理念的轉(zhuǎn)變可能會(huì)推動(dòng)訓(xùn)練方法的創(chuàng)新。傳統(tǒng)的訓(xùn)練數(shù)據(jù)主要由獨(dú)立的代碼片段組成，但要培養(yǎng)長(zhǎng)期維護(hù)能力，AI模型需要接觸到更多完整項(xiàng)目的演化歷程。這可能會(huì)促使研究者開發(fā)新的數(shù)據(jù)收集和標(biāo)注方法，以及新的訓(xùn)練策略。

從軟件工程實(shí)踐角度來看，SWE-CI為代碼質(zhì)量評(píng)估提供了新的視角。傳統(tǒng)的代碼審查主要關(guān)注當(dāng)前代碼的正確性和可讀性，但很難評(píng)估代碼的長(zhǎng)期可維護(hù)性。SWE-CI的評(píng)估框架可能為開發(fā)團(tuán)隊(duì)提供一種新的工具，幫助他們更好地評(píng)估和改進(jìn)代碼質(zhì)量。

在教育領(lǐng)域，SWE-CI也可能產(chǎn)生重要影響。計(jì)算機(jī)科學(xué)教育長(zhǎng)期以來重視算法正確性和編程技巧，但對(duì)軟件維護(hù)和長(zhǎng)期設(shè)計(jì)的重視不夠。SWE-CI的理念可能會(huì)推動(dòng)教育內(nèi)容和方法的調(diào)整，幫助學(xué)生從一開始就建立正確的軟件工程思維。

從產(chǎn)業(yè)應(yīng)用角度來看，SWE-CI的發(fā)現(xiàn)對(duì)AI編程工具的發(fā)展具有重要指導(dǎo)意義。目前的AI編程助手主要專注于快速生成代碼，但SWE-CI的結(jié)果表明，未來的工具需要更多地考慮代碼的長(zhǎng)期影響。這可能會(huì)推動(dòng)新一代編程助手的開發(fā)，這些工具不僅能夠解決當(dāng)前問題，還能夠預(yù)測(cè)和優(yōu)化代碼的長(zhǎng)期演化路徑。

研究團(tuán)隊(duì)也明確指出了當(dāng)前工作的局限性和未來的改進(jìn)方向。雖然SWE-CI已經(jīng)包含了100個(gè)精心構(gòu)建的任務(wù)，但這個(gè)規(guī)模相對(duì)于軟件開發(fā)的復(fù)雜性來說仍然有限。未來需要擴(kuò)展任務(wù)的數(shù)量和多樣性，涵蓋更多編程語言、更多應(yīng)用領(lǐng)域以及更多開發(fā)模式。

另一個(gè)重要的發(fā)展方向是評(píng)估指標(biāo)的進(jìn)一步完善。雖然EvoScore已經(jīng)能夠有效區(qū)分不同的維護(hù)策略，但軟件質(zhì)量的評(píng)估是一個(gè)多維度的問題。未來可能需要開發(fā)更多維度的指標(biāo)，如代碼可讀性的變化、性能的演化、安全性的保持等。

此外，雙角色協(xié)作機(jī)制雖然很好地模擬了真實(shí)團(tuán)隊(duì)的工作模式，但真實(shí)的軟件開發(fā)往往涉及更多角色和更復(fù)雜的協(xié)作關(guān)系。未來的發(fā)展可能需要引入更多角色，如產(chǎn)品經(jīng)理、測(cè)試工程師、系統(tǒng)架構(gòu)師等，構(gòu)建更完整的開發(fā)生態(tài)系統(tǒng)模擬。

九、對(duì)AI發(fā)展的深層啟示

SWE-CI的研究成果為我們理解AI能力的本質(zhì)提供了新的視角。它揭示了一個(gè)重要現(xiàn)象：AI在解決孤立問題和處理復(fù)雜系統(tǒng)性挑戰(zhàn)之間存在著顯著差距。

這種差距的根源可能在于當(dāng)前AI訓(xùn)練方法的固有局限性。大多數(shù)AI模型是通過學(xué)習(xí)大量獨(dú)立的輸入-輸出對(duì)來訓(xùn)練的，這種方法雖然在單次任務(wù)上能夠達(dá)到很高的準(zhǔn)確率，但在需要全局思考和長(zhǎng)期規(guī)劃的復(fù)雜場(chǎng)景中就顯得力不從心。

真正的軟件維護(hù)能力需要多種認(rèn)知技能的協(xié)調(diào)配合：理解當(dāng)前系統(tǒng)的結(jié)構(gòu)和約束、預(yù)測(cè)修改對(duì)系統(tǒng)的潛在影響、在多個(gè)可能的解決方案之間進(jìn)行權(quán)衡、保持代碼的一致性和可擴(kuò)展性。這些技能的培養(yǎng)需要大量的實(shí)踐經(jīng)驗(yàn)和深層次的理解，而不僅僅是模式識(shí)別和模仿。

SWE-CI的發(fā)現(xiàn)也揭示了AI評(píng)估方法的重要性。評(píng)估方法不僅是衡量AI能力的工具，更是引導(dǎo)AI發(fā)展方向的指揮棒。當(dāng)我們只關(guān)注短期任務(wù)的準(zhǔn)確性時(shí)，AI模型自然會(huì)朝著快速解決問題的方向發(fā)展。但當(dāng)我們開始重視長(zhǎng)期可維護(hù)性時(shí)，AI模型就需要發(fā)展出更加復(fù)雜和全面的能力。

這種認(rèn)識(shí)對(duì)整個(gè)AI領(lǐng)域都有著重要意義。在自然語言處理、計(jì)算機(jī)視覺、機(jī)器人控制等各個(gè)領(lǐng)域，我們可能都需要重新思考評(píng)估標(biāo)準(zhǔn)，從關(guān)注單次表現(xiàn)轉(zhuǎn)向關(guān)注系統(tǒng)性能力和長(zhǎng)期穩(wěn)定性。

從更宏觀的角度來看，SWE-CI的研究還觸及了一個(gè)深層次的哲學(xué)問題：智能的本質(zhì)是什么？真正的智能不僅體現(xiàn)在解決特定問題的能力上，更體現(xiàn)在適應(yīng)變化、學(xué)習(xí)成長(zhǎng)和保持穩(wěn)定的能力上。這種觀點(diǎn)可能會(huì)影響我們對(duì)AI發(fā)展目標(biāo)和路徑的整體思考。

說到底，SWE-CI為我們提供了一個(gè)重要的提醒：在追求AI技術(shù)突破的過程中，我們不應(yīng)該只關(guān)注令人眼花繚亂的短期成果，而應(yīng)該更多地思考如何構(gòu)建真正穩(wěn)健、可靠、可持續(xù)發(fā)展的智能系統(tǒng)。只有這樣，AI才能真正成為人類在復(fù)雜世界中的可靠伙伴。

就像一個(gè)園丁的價(jià)值不在于能否讓花朵在某一天綻放得特別美麗，而在于能否讓整個(gè)花園在四季輪回中始終保持生機(jī)勃勃一樣，真正優(yōu)秀的AI系統(tǒng)也應(yīng)該在長(zhǎng)期的任務(wù)演化中展現(xiàn)出持續(xù)的智慧和適應(yīng)能力。SWE-CI的貢獻(xiàn)在于為我們提供了衡量這種長(zhǎng)期智慧的標(biāo)準(zhǔn)和方法，這無疑將推動(dòng)AI技術(shù)向著更加成熟和實(shí)用的方向發(fā)展。

這項(xiàng)研究的發(fā)布標(biāo)志著AI編程能力評(píng)估進(jìn)入了一個(gè)新的時(shí)代。未來的AI編程助手將不再滿足于簡(jiǎn)單的"能用就行"，而是要追求"用得久、用得好、用得穩(wěn)"的更高標(biāo)準(zhǔn)。對(duì)于整個(gè)軟件行業(yè)來說，這種變化的意義怎么強(qiáng)調(diào)都不為過，因?yàn)樗罱K將讓我們擁有更可靠、更可維護(hù)、更有價(jià)值的軟件系統(tǒng)。

Q&A

Q1：SWE-CI評(píng)測(cè)基準(zhǔn)與傳統(tǒng)編程評(píng)測(cè)有什么根本區(qū)別？

A：傳統(tǒng)評(píng)測(cè)像考試單選題，只看AI能否一次性寫出正確代碼。而SWE-CI模擬真實(shí)軟件開發(fā)，要求AI在數(shù)月的持續(xù)迭代中維護(hù)代碼質(zhì)量，就像要求園丁不僅讓花朵綻放，還要在四季變化中保持花園生機(jī)。它關(guān)注的是代碼的長(zhǎng)期可維護(hù)性，而非短期功能正確性。

Q2：EvoScore進(jìn)化評(píng)分如何區(qū)分不同的AI維護(hù)策略？

A：EvoScore給后期迭代更高權(quán)重，能有效區(qū)分"短期收益"和"長(zhǎng)期投資"兩種策略。那些為了快速通過測(cè)試而草率修改代碼的AI會(huì)隨著時(shí)間推移得分越來越低，而那些前期進(jìn)展較慢但為后續(xù)發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)的AI會(huì)獲得更高評(píng)分。

Q3：為什么大多數(shù)先進(jìn)AI模型的零回歸率都很低？

A：實(shí)驗(yàn)顯示大多數(shù)模型零回歸率低于25%，說明AI在修改代碼時(shí)經(jīng)常會(huì)破壞原有功能。這反映了當(dāng)前AI訓(xùn)練主要基于獨(dú)立代碼片段，缺乏完整項(xiàng)目演化的上下文經(jīng)驗(yàn)，難以進(jìn)行全局思考和預(yù)測(cè)修改的長(zhǎng)期影響，這是AI技術(shù)的重要局限性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.