国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中山大學(xué)與阿里SWE-CI:AI代碼養(yǎng)護(hù)能力評(píng)測(cè)新體系

0
分享至


這項(xiàng)由中山大學(xué)和阿里巴巴集團(tuán)聯(lián)合開展的研究發(fā)表于2026年3月4日,已提交至頂級(jí)會(huì)議評(píng)審中,研究論文編號(hào)為arXiv:2603.03823v1。有興趣深入了解的讀者可以通過該編號(hào)在學(xué)術(shù)數(shù)據(jù)庫(kù)中查詢完整論文,也可以在Hugging Face平臺(tái)搜索"skylenage/SWE-CI"或在GitHub上訪問"SKYLENAGE-AI/SWE-CI"項(xiàng)目獲取相關(guān)資源。

想象一下這樣的場(chǎng)景:你精心照料一個(gè)花園,不僅要讓花朵綻放,更要確保花園在四季更迭中依然茁壯生長(zhǎng)。傳統(tǒng)的園藝評(píng)判只看某一時(shí)刻的花朵是否美麗,但真正的園藝大師需要讓花園在長(zhǎng)年累月的變化中保持生機(jī)盎然。同樣的道理,在軟件開發(fā)的世界里,一個(gè)優(yōu)秀的AI編程助手不僅要寫出能運(yùn)行的代碼,更要寫出能夠經(jīng)得起時(shí)間考驗(yàn)、在不斷修改和擴(kuò)展中依然保持優(yōu)雅的代碼。

然而,目前幾乎所有評(píng)測(cè)AI編程能力的標(biāo)準(zhǔn)都像是在評(píng)判"一瞬間的花朵美"——它們只關(guān)注代碼在某個(gè)特定時(shí)刻是否能正確運(yùn)行,完全忽略了代碼在長(zhǎng)期維護(hù)過程中的表現(xiàn)。這就好比只看照片中的花園是否漂亮,卻從不考慮這個(gè)花園在一年四季的風(fēng)雨中是否依然能保持美麗。

正是為了填補(bǔ)這一重要空白,研究團(tuán)隊(duì)開發(fā)了SWE-CI(軟件工程持續(xù)集成)評(píng)測(cè)基準(zhǔn)。這是全球首個(gè)專門評(píng)估AI代理在長(zhǎng)期代碼維護(hù)中表現(xiàn)的評(píng)測(cè)系統(tǒng),它不再滿足于"一次性正確",而是要求AI像真正的軟件工程師一樣,在數(shù)月甚至數(shù)年的開發(fā)過程中持續(xù)保持代碼質(zhì)量。

研究團(tuán)隊(duì)精心構(gòu)建了100個(gè)評(píng)測(cè)任務(wù),每個(gè)任務(wù)都對(duì)應(yīng)著真實(shí)世界中一個(gè)軟件項(xiàng)目的完整進(jìn)化歷程。這些項(xiàng)目平均跨越233天的開發(fā)時(shí)間,包含71個(gè)連續(xù)的代碼提交記錄。更令人印象深刻的是,研究團(tuán)隊(duì)還創(chuàng)造性地設(shè)計(jì)了一套"建筑師-程序員"雙重角色的評(píng)測(cè)協(xié)議,模擬真實(shí)軟件團(tuán)隊(duì)中的協(xié)作模式,讓AI在一個(gè)更接近現(xiàn)實(shí)的環(huán)境中接受考驗(yàn)。

通過對(duì)18個(gè)來自8家頂級(jí)AI公司的模型進(jìn)行全面測(cè)試,研究團(tuán)隊(duì)消耗了超過100億個(gè)AI計(jì)算單元,獲得了令人深思的發(fā)現(xiàn):盡管這些AI模型在短期編程任務(wù)上表現(xiàn)出色,但在長(zhǎng)期代碼維護(hù)方面卻普遍存在明顯不足。這一發(fā)現(xiàn)不僅揭示了當(dāng)前AI編程助手的重要局限性,更為未來的技術(shù)發(fā)展指明了關(guān)鍵方向。

一、從"一次性編程"到"終身維護(hù)":軟件開發(fā)的真實(shí)挑戰(zhàn)

要理解為什么需要SWE-CI這樣的評(píng)測(cè)體系,我們首先需要認(rèn)識(shí)到現(xiàn)實(shí)軟件開發(fā)與傳統(tǒng)評(píng)測(cè)之間的巨大差距。

傳統(tǒng)的AI編程評(píng)測(cè)就像考試中的單選題——給定一個(gè)明確的問題,要求AI給出一個(gè)正確的答案。比如經(jīng)典的HumanEval測(cè)試會(huì)給AI一個(gè)函數(shù)的描述,要求它完成這個(gè)函數(shù)的編寫。這種測(cè)試雖然有用,但就像在平靜的游泳池中測(cè)試游泳技能一樣,無法反映在波濤洶涌的大海中游泳的真實(shí)挑戰(zhàn)。

真實(shí)的軟件開發(fā)更像是在動(dòng)態(tài)變化的環(huán)境中持續(xù)建造一座復(fù)雜的建筑。你不能簡(jiǎn)單地搭建一個(gè)結(jié)構(gòu)然后就此完成,而是需要在建筑的使用過程中不斷進(jìn)行維護(hù)、擴(kuò)展和改進(jìn)。新的需求不斷涌現(xiàn),舊的功能需要調(diào)整,而且每一次修改都可能影響到整個(gè)建筑的穩(wěn)定性。

研究團(tuán)隊(duì)發(fā)現(xiàn)了現(xiàn)有評(píng)測(cè)方法的根本問題:它們都采用"快照式"評(píng)估。就像用一張照片來評(píng)判一個(gè)人的整個(gè)人生一樣,這種方法只能看到某個(gè)特定時(shí)刻的表現(xiàn),完全忽略了時(shí)間維度上的變化和挑戰(zhàn)。在這種評(píng)估方式下,一個(gè)匆忙拼湊的解決方案和一個(gè)經(jīng)過深思熟慮的優(yōu)雅設(shè)計(jì)可能會(huì)得到同樣的評(píng)分,因?yàn)樗鼈冊(cè)诋?dāng)下都能通過測(cè)試。

但是,當(dāng)需求開始發(fā)生變化時(shí),兩者之間的差別就會(huì)顯現(xiàn)出來。那個(gè)匆忙拼湊的解決方案會(huì)變得越來越難以維護(hù),每次修改都需要更多的時(shí)間和精力,而且容易引入新的錯(cuò)誤。相比之下,經(jīng)過深思熟慮的設(shè)計(jì)會(huì)表現(xiàn)出良好的適應(yīng)性,能夠優(yōu)雅地應(yīng)對(duì)新的需求和變化。

這種差異在軟件工程領(lǐng)域被稱為"技術(shù)債務(wù)"。就像財(cái)務(wù)債務(wù)一樣,技術(shù)債務(wù)在初期可能看起來無關(guān)緊要,甚至能夠帶來短期的便利。但是隨著時(shí)間的推移,利息會(huì)不斷累積,最終可能拖垮整個(gè)項(xiàng)目。據(jù)業(yè)界統(tǒng)計(jì),軟件維護(hù)活動(dòng)占據(jù)了整個(gè)軟件生命周期成本的60%到80%,這個(gè)驚人的數(shù)字充分說明了長(zhǎng)期維護(hù)能力的重要性。

萊曼定律(Lehman's Laws)這一軟件工程的經(jīng)典理論進(jìn)一步揭示了這個(gè)問題的本質(zhì):隨著維護(hù)過程的進(jìn)行,軟件質(zhì)量會(huì)不可避免地下降。這意味著,真正優(yōu)秀的軟件開發(fā)能力不僅僅是寫出能運(yùn)行的代碼,更重要的是寫出能夠抵御質(zhì)量衰減、在長(zhǎng)期演化中保持健康的代碼。

二、SWE-CI的創(chuàng)新突破:從靜態(tài)測(cè)試到動(dòng)態(tài)進(jìn)化

面對(duì)傳統(tǒng)評(píng)測(cè)方法的局限性,研究團(tuán)隊(duì)提出了一個(gè)根本性的范式轉(zhuǎn)變:從靜態(tài)的"快照式"評(píng)估轉(zhuǎn)向動(dòng)態(tài)的"進(jìn)化式"評(píng)估。

在傳統(tǒng)的評(píng)測(cè)方法中,整個(gè)過程就像是在特定時(shí)刻拍攝一張照片。AI接收到一個(gè)完整的需求描述,然后提供一個(gè)一次性的解決方案。無論這個(gè)解決方案是經(jīng)過精心設(shè)計(jì)的還是匆忙拼湊的,只要它能通過當(dāng)前的測(cè)試用例,就被認(rèn)為是成功的。

SWE-CI的創(chuàng)新在于引入了時(shí)間維度和持續(xù)性要求。在這個(gè)新的評(píng)測(cè)框架中,AI不再面對(duì)一個(gè)靜態(tài)的問題,而是需要在一個(gè)不斷演化的環(huán)境中持續(xù)工作。就像園丁需要根據(jù)季節(jié)變化調(diào)整照料策略一樣,AI需要根據(jù)不斷出現(xiàn)的新需求來調(diào)整代碼。

研究團(tuán)隊(duì)巧妙地將這個(gè)過程形式化為數(shù)學(xué)模型。他們定義了兩個(gè)關(guān)鍵函數(shù):需求識(shí)別函數(shù)和代碼實(shí)現(xiàn)函數(shù)。需求識(shí)別函數(shù)負(fù)責(zé)分析當(dāng)前代碼狀態(tài)與目標(biāo)狀態(tài)之間的差距,并生成相應(yīng)的需求文檔。代碼實(shí)現(xiàn)函數(shù)則根據(jù)這些需求對(duì)代碼進(jìn)行修改。

這種設(shè)計(jì)的巧妙之處在于,它創(chuàng)造了一個(gè)反饋循環(huán)。每一次代碼修改都會(huì)影響下一輪的需求識(shí)別,而之前修改的質(zhì)量會(huì)在后續(xù)的迭代中得到體現(xiàn)。如果AI在早期階段做出了草率的設(shè)計(jì)決策,這些決策的負(fù)面影響會(huì)在后續(xù)的開發(fā)過程中逐漸放大,使得后續(xù)的修改變得越來越困難。

為了更準(zhǔn)確地衡量代碼在這種動(dòng)態(tài)環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)還開發(fā)了一套新的評(píng)分機(jī)制。傳統(tǒng)的評(píng)測(cè)通常只關(guān)注"通過"或"未通過"這樣的二元結(jié)果,但SWE-CI引入了"歸一化變化"這一更細(xì)致的度量標(biāo)準(zhǔn)。

這個(gè)度量標(biāo)準(zhǔn)的設(shè)計(jì)非常貼心。當(dāng)AI改進(jìn)了代碼功能時(shí),改進(jìn)程度會(huì)按照從基線到目標(biāo)的總體差距進(jìn)行歸一化,確保無論任務(wù)大小如何,滿分都是1分。但當(dāng)AI破壞了原有功能時(shí),退步程度會(huì)按照原有基線進(jìn)行歸一化,這樣無論任務(wù)規(guī)模如何,最壞情況下的得分都是-1分。這種非對(duì)稱的設(shè)計(jì)確保了改進(jìn)和退步都能在統(tǒng)一的尺度上得到公平的評(píng)估。

更進(jìn)一步,研究團(tuán)隊(duì)還提出了EvoScore(進(jìn)化評(píng)分)這一核心指標(biāo)。這個(gè)指標(biāo)不是簡(jiǎn)單地計(jì)算所有迭代的平均得分,而是對(duì)后期迭代給予更高的權(quán)重。其背后的邏輯簡(jiǎn)單而深刻:真正可維護(hù)的代碼應(yīng)該在長(zhǎng)期演化中表現(xiàn)得越來越好,而不是越來越差。

通過調(diào)節(jié)權(quán)重參數(shù),EvoScore能夠靈敏地區(qū)分不同類型的開發(fā)策略。那些為了短期效果而犧牲長(zhǎng)期可維護(hù)性的方法會(huì)得到較低的評(píng)分,而那些在初期可能進(jìn)展較慢但能夠?yàn)楹罄m(xù)開發(fā)奠定堅(jiān)實(shí)基礎(chǔ)的方法會(huì)得到更高的認(rèn)可。

三、精心構(gòu)建真實(shí)世界的代碼進(jìn)化歷程

SWE-CI最令人印象深刻的特點(diǎn)之一就是它完全基于真實(shí)世界的軟件開發(fā)歷程。研究團(tuán)隊(duì)并沒有人為構(gòu)造簡(jiǎn)化的測(cè)試場(chǎng)景,而是花費(fèi)大量精力從實(shí)際的開源項(xiàng)目中提取完整的進(jìn)化軌跡。

整個(gè)數(shù)據(jù)構(gòu)建過程就像是考古學(xué)家在尋找和保存珍貴的歷史文物。研究團(tuán)隊(duì)首先在GitHub這個(gè)全球最大的代碼托管平臺(tái)上進(jìn)行了廣泛的搜索。他們?cè)O(shè)定了嚴(yán)格的篩選標(biāo)準(zhǔn):項(xiàng)目必須至少維護(hù)了三年,獲得了超過500個(gè)星標(biāo),包含完整的配置和測(cè)試文件,并且采用寬松的開源許可證。經(jīng)過這輪篩選,從海量的項(xiàng)目中保留下了4923個(gè)高質(zhì)量的候選項(xiàng)目。

接下來的步驟更加精細(xì)。研究團(tuán)隊(duì)分析了每個(gè)項(xiàng)目的完整提交歷史,尋找那些依賴關(guān)系保持穩(wěn)定的連續(xù)開發(fā)階段。這樣做的原因很實(shí)用:如果一個(gè)項(xiàng)目在開發(fā)過程中頻繁更換核心依賴庫(kù),那么代碼的變化可能主要是為了適應(yīng)外部變化,而不是反映內(nèi)在的功能演進(jìn)。只有在依賴關(guān)系穩(wěn)定的情況下,代碼的變化才能真正體現(xiàn)開發(fā)者的設(shè)計(jì)決策和維護(hù)能力。

為了確保任務(wù)的充實(shí)性,研究團(tuán)隊(duì)還設(shè)定了代碼變化的最低閾值:每個(gè)候選任務(wù)必須涉及至少1000行代碼的修改。這個(gè)標(biāo)準(zhǔn)確保了每個(gè)任務(wù)都代表著足夠復(fù)雜的演化過程,而不是簡(jiǎn)單的小修小補(bǔ)。

最具挑戰(zhàn)性的部分是環(huán)境重建。為了讓現(xiàn)代的AI能夠在歷史代碼環(huán)境中正常工作,研究團(tuán)隊(duì)需要為每個(gè)任務(wù)重新構(gòu)建當(dāng)時(shí)的運(yùn)行環(huán)境。這個(gè)過程就像是文物修復(fù)師在重建古代工藝品的制作環(huán)境。他們根據(jù)每個(gè)項(xiàng)目在特定時(shí)期的配置文件自動(dòng)生成Docker容器,并實(shí)現(xiàn)了一套智能修復(fù)機(jī)制:當(dāng)某個(gè)環(huán)境因?yàn)橐蕾嚾笔Ф鵁o法啟動(dòng)時(shí),系統(tǒng)會(huì)自動(dòng)檢測(cè)問題并嘗試補(bǔ)充缺失的組件。

為了進(jìn)一步保證質(zhì)量,研究團(tuán)隊(duì)還進(jìn)行了多輪精細(xì)篩選。他們?cè)谥亟ǖ沫h(huán)境中運(yùn)行項(xiàng)目的測(cè)試套件,確?;A(chǔ)代碼和目標(biāo)代碼都能正常工作。同時(shí),他們還驗(yàn)證了基礎(chǔ)版本和目標(biāo)版本之間確實(shí)存在足夠的測(cè)試差異——至少5個(gè)測(cè)試用例的差別,以確保任務(wù)具有實(shí)質(zhì)性的挑戰(zhàn)。

最終,100個(gè)精心挑選的任務(wù)組成了SWE-CI基準(zhǔn)測(cè)試集。這些任務(wù)來自68個(gè)不同的開源項(xiàng)目,平均跨越233天的真實(shí)開發(fā)時(shí)間,包含71個(gè)連續(xù)的提交記錄。每個(gè)任務(wù)都配備了完整的源代碼和預(yù)構(gòu)建的運(yùn)行環(huán)境,確保了實(shí)驗(yàn)的可重復(fù)性。

這樣的數(shù)據(jù)構(gòu)建過程確保了SWE-CI不是在測(cè)試AI處理人造問題的能力,而是在評(píng)估它們應(yīng)對(duì)真實(shí)世界復(fù)雜性的能力。這些任務(wù)中包含的每一個(gè)代碼變化、每一個(gè)設(shè)計(jì)決策都曾經(jīng)是真實(shí)開發(fā)者在面對(duì)實(shí)際需求時(shí)做出的選擇,因此具有無可替代的真實(shí)性和代表性。

四、雙重角色協(xié)作:模擬真實(shí)團(tuán)隊(duì)的智慧分工

為了更真實(shí)地模擬專業(yè)軟件開發(fā)團(tuán)隊(duì)的工作模式,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的"建筑師-程序員"雙角色協(xié)作機(jī)制。這種設(shè)計(jì)的靈感來自真實(shí)軟件團(tuán)隊(duì)中常見的分工模式:架構(gòu)師負(fù)責(zé)分析需求和制定技術(shù)方案,程序員負(fù)責(zé)具體的代碼實(shí)現(xiàn)。

建筑師角色承擔(dān)著戰(zhàn)略層面的責(zé)任。當(dāng)面對(duì)測(cè)試失敗時(shí),建筑師需要像偵探一樣進(jìn)行層層分析。首先,它要仔細(xì)研究所有失敗的測(cè)試用例,從中找出共同的模式和根本原因。這個(gè)過程就像醫(yī)生診斷病情一樣,需要從表面癥狀深入到根本病因。

接著,建筑師需要深入檢查相關(guān)的源代碼,將抽象的測(cè)試失敗與具體的代碼缺陷關(guān)聯(lián)起來。這一步驟特別重要,因?yàn)橥瑯拥臏y(cè)試失敗可能源于完全不同的代碼問題,而有效的解決方案必須針對(duì)真正的根源。

在完成分析后,建筑師的任務(wù)是設(shè)計(jì)改進(jìn)方案。但這里有一個(gè)重要的約束:建筑師必須采用增量式的思維,每次只提出最多5個(gè)最緊迫的改進(jìn)需求,避免一次性提出過于宏大的重構(gòu)計(jì)劃。這種約束模擬了真實(shí)敏捷開發(fā)中的"小步快跑"理念,確保每次迭代都是可管理的。

建筑師生成的需求文檔必須遵循兩個(gè)重要原則。首先是"增量性":文檔應(yīng)該專注于當(dāng)前最迫切的需求,避免過度設(shè)計(jì)的陷阱。其次是"高層次性":需求應(yīng)該用自然語言描述期望的行為,而不是給出具體的實(shí)現(xiàn)細(xì)節(jié),為程序員留出創(chuàng)造性發(fā)揮的空間。

程序員角色則專注于將高層次的需求轉(zhuǎn)化為具體的代碼實(shí)現(xiàn)。程序員的工作流程同樣被標(biāo)準(zhǔn)化為三個(gè)步驟:首先是理解需求,將自然語言描述的期望轉(zhuǎn)化為明確的技術(shù)規(guī)格;然后是制定實(shí)現(xiàn)計(jì)劃,考慮如何在現(xiàn)有代碼基礎(chǔ)上進(jìn)行修改;最后是具體的代碼編寫和修改。

這種雙角色設(shè)計(jì)的巧妙之處在于它真實(shí)地反映了軟件開發(fā)中的認(rèn)知負(fù)荷分配。在真實(shí)的團(tuán)隊(duì)中,架構(gòu)師和程序員往往具有不同的思維模式和關(guān)注重點(diǎn)。架構(gòu)師更多地從系統(tǒng)整體角度思考問題,而程序員更多地關(guān)注具體實(shí)現(xiàn)的技術(shù)細(xì)節(jié)。通過讓AI分別扮演這兩個(gè)角色,SWE-CI能夠更準(zhǔn)確地評(píng)估AI在不同層面上的能力。

更重要的是,這種設(shè)計(jì)避免了"上帝視角"的問題。在傳統(tǒng)的評(píng)測(cè)中,AI往往能夠同時(shí)看到問題的全貌和最終的解決方案,這與真實(shí)開發(fā)中的漸進(jìn)式認(rèn)知過程截然不同。在SWE-CI中,程序員只能根據(jù)建筑師提供的需求文檔進(jìn)行工作,而建筑師只能基于當(dāng)前的測(cè)試結(jié)果進(jìn)行分析,這種信息限制使得評(píng)測(cè)更加貼近現(xiàn)實(shí)。

雙角色協(xié)作還引入了一個(gè)重要的反饋機(jī)制。建筑師的需求質(zhì)量會(huì)直接影響程序員的實(shí)現(xiàn)效果,而程序員的實(shí)現(xiàn)質(zhì)量又會(huì)影響下一輪的測(cè)試結(jié)果,進(jìn)而影響建筑師的后續(xù)分析。這種相互依賴的關(guān)系準(zhǔn)確地模擬了真實(shí)團(tuán)隊(duì)合作中的復(fù)雜動(dòng)態(tài)。

五、革命性的評(píng)估指標(biāo):捕捉長(zhǎng)期維護(hù)的真實(shí)挑戰(zhàn)

SWE-CI的評(píng)估體系最具創(chuàng)新性的地方在于它不再簡(jiǎn)單地關(guān)注"對(duì)錯(cuò)",而是深入分析代碼在時(shí)間維度上的表現(xiàn)變化。這種評(píng)估理念的轉(zhuǎn)變就像是從關(guān)注單次考試成績(jī)轉(zhuǎn)向關(guān)注學(xué)習(xí)能力的長(zhǎng)期發(fā)展。

傳統(tǒng)評(píng)測(cè)的局限性在于它假設(shè)每個(gè)問題都有一個(gè)明確的"正確答案"。但在真實(shí)的軟件維護(hù)中,很多時(shí)候并不存在唯一的標(biāo)準(zhǔn)答案,而是存在多種可能的解決路徑,這些路徑在短期內(nèi)可能表現(xiàn)相似,但長(zhǎng)期效果卻大相徑庭。

SWE-CI引入的"歸一化變化"指標(biāo)巧妙地解決了這個(gè)問題。這個(gè)指標(biāo)的設(shè)計(jì)哲學(xué)是:不僅要看AI能否解決問題,更要看它解決問題的方式是否可持續(xù)。當(dāng)AI改善了代碼功能時(shí),改善的程度會(huì)按照總體目標(biāo)進(jìn)行歸一化,這樣無論任務(wù)規(guī)模大小,完全達(dá)成目標(biāo)都對(duì)應(yīng)1分的滿分。但當(dāng)AI破壞了原有功能時(shí),破壞程度會(huì)按照原有基線進(jìn)行歸一化,確保最糟糕的情況(完全破壞所有原有功能)對(duì)應(yīng)-1分。

這種非對(duì)稱的評(píng)分設(shè)計(jì)反映了軟件維護(hù)的一個(gè)重要現(xiàn)實(shí):破壞現(xiàn)有功能的代價(jià)往往比增加新功能的收益更大。在真實(shí)的開發(fā)環(huán)境中,引入回歸錯(cuò)誤(即破壞原本正常工作的功能)是極其嚴(yán)重的問題,因?yàn)樗鼤?huì)直接影響用戶體驗(yàn),并可能引發(fā)連鎖反應(yīng)。

EvoScore(進(jìn)化評(píng)分)的設(shè)計(jì)更是獨(dú)具匠心。這個(gè)指標(biāo)通過給后期迭代分配更高的權(quán)重,有效地區(qū)分了兩種截然不同的開發(fā)策略。一種是"短期收益"策略,通過快速但可能不夠穩(wěn)固的修改來盡快通過測(cè)試;另一種是"長(zhǎng)期投資"策略,可能在初期進(jìn)展較慢,但會(huì)為后續(xù)開發(fā)建立堅(jiān)實(shí)的基礎(chǔ)。

權(quán)重參數(shù)γ的作用非常關(guān)鍵。當(dāng)γ等于1時(shí),EvoScore就是簡(jiǎn)單的平均分,對(duì)所有迭代一視同仁。但隨著γ的增加,后期迭代的重要性急劇上升。這種設(shè)計(jì)模擬了真實(shí)軟件項(xiàng)目中的一個(gè)重要現(xiàn)象:技術(shù)債務(wù)的復(fù)合效應(yīng)。早期的草率決策在初期可能影響不大,但隨著項(xiàng)目的發(fā)展,其負(fù)面影響會(huì)越來越明顯。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同AI模型在面對(duì)不同γ值時(shí)表現(xiàn)出了明顯的偏好差異。一些模型在低γ值時(shí)表現(xiàn)較好,說明它們擅長(zhǎng)快速解決當(dāng)前問題,但可能缺乏長(zhǎng)期規(guī)劃能力。而另一些模型在高γ值時(shí)表現(xiàn)更佳,表明它們能夠做出更有利于長(zhǎng)期發(fā)展的設(shè)計(jì)決策。

這種差異性揭示了AI模型訓(xùn)練策略的深層影響。那些主要基于短期編程任務(wù)訓(xùn)練的模型往往傾向于快速解決問題,而那些更多接觸到長(zhǎng)期項(xiàng)目維護(hù)案例的模型則表現(xiàn)出更好的前瞻性思考能力。

六、令人深思的實(shí)驗(yàn)發(fā)現(xiàn):AI的維護(hù)能力現(xiàn)狀

研究團(tuán)隊(duì)對(duì)18個(gè)來自8家主要AI公司的先進(jìn)模型進(jìn)行了全面評(píng)測(cè),總計(jì)消耗了超過100億個(gè)計(jì)算token,獲得了一系列令人深思的發(fā)現(xiàn)。

最引人注目的發(fā)現(xiàn)是AI模型的發(fā)展軌跡呈現(xiàn)出明顯的加速趨勢(shì)。在同一家公司的產(chǎn)品線中,較新的模型幾乎總是比較早的版本表現(xiàn)更好,而且2026年后發(fā)布的模型相比其前代產(chǎn)品顯示出了更大幅度的改進(jìn)。這種趨勢(shì)表明,AI公司正在越來越重視代碼維護(hù)能力的提升,而不僅僅是單次編程任務(wù)的準(zhǔn)確性。

在所有測(cè)試的模型中,Claude Opus系列表現(xiàn)最為突出,在整個(gè)觀察期間都保持著領(lǐng)先地位。GLM-5也表現(xiàn)出了令人印象深刻的性能。這些領(lǐng)先模型的成功可能源于它們?cè)谟?xùn)練過程中更多地接觸了長(zhǎng)期項(xiàng)目維護(hù)的案例,或者采用了更有利于培養(yǎng)前瞻性思維的訓(xùn)練策略。

更有意思的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同AI公司在開發(fā)策略上存在明顯差異。通過調(diào)節(jié)EvoScore中的權(quán)重參數(shù)γ,研究者能夠觀察到模型偏好的變化。MiniMax、DeepSeek和GPT系列模型表現(xiàn)出了對(duì)長(zhǎng)期收益的明顯偏好,在γ值較高時(shí)表現(xiàn)更好。這表明這些模型在面對(duì)編程任務(wù)時(shí)更傾向于采用有利于長(zhǎng)期維護(hù)的策略。

相比之下,Kimi和GLM系列模型則傾向于短期收益,在γ值較低時(shí)表現(xiàn)更佳。這可能反映了不同的訓(xùn)練哲學(xué):一些公司可能更注重快速解決問題的能力,而另一些公司則更重視代碼的長(zhǎng)期可維護(hù)性。

Qwen、Doubao和Claude系列模型在不同γ值下表現(xiàn)相對(duì)穩(wěn)定,這種穩(wěn)定性本身就是一種優(yōu)勢(shì),表明這些模型在短期效率和長(zhǎng)期可維護(hù)性之間找到了較好的平衡。

然而,最令人擔(dān)憂的發(fā)現(xiàn)是所有模型在控制回歸錯(cuò)誤方面都表現(xiàn)不佳。研究團(tuán)隊(duì)測(cè)量了"零回歸率"——即在整個(gè)維護(hù)過程中完全沒有破壞原有功能的任務(wù)比例。結(jié)果顯示,大多數(shù)模型的零回歸率都低于25%,只有Claude Opus系列的兩個(gè)模型超過了50%。

這個(gè)發(fā)現(xiàn)特別重要,因?yàn)樵谡鎸?shí)的軟件開發(fā)中,回歸錯(cuò)誤是極其嚴(yán)重的問題。每當(dāng)一個(gè)原本正常工作的功能因?yàn)樾碌男薷亩r(shí),不僅會(huì)直接影響用戶體驗(yàn),還可能引發(fā)級(jí)聯(lián)效應(yīng),導(dǎo)致其他相關(guān)功能的不穩(wěn)定。在專業(yè)的軟件開發(fā)團(tuán)隊(duì)中,嚴(yán)格控制回歸錯(cuò)誤是質(zhì)量保證的基本要求。

這些發(fā)現(xiàn)揭示了當(dāng)前AI技術(shù)的一個(gè)重要局限性:盡管在單次編程任務(wù)上已經(jīng)達(dá)到了令人印象深刻的水平,但在需要全局考慮和長(zhǎng)期規(guī)劃的復(fù)雜維護(hù)場(chǎng)景中,AI仍然面臨著重大挑戰(zhàn)。這種局限性可能源于訓(xùn)練數(shù)據(jù)的特點(diǎn)——大多數(shù)公開可用的編程數(shù)據(jù)都是獨(dú)立的代碼片段或簡(jiǎn)單的問題-答案對(duì),缺乏真實(shí)項(xiàng)目中長(zhǎng)期演化的完整上下文。

七、技術(shù)實(shí)現(xiàn)的精巧設(shè)計(jì)

SWE-CI在技術(shù)實(shí)現(xiàn)層面展現(xiàn)了研究團(tuán)隊(duì)的深厚功底和細(xì)致考慮。整個(gè)系統(tǒng)的設(shè)計(jì)既要保證評(píng)測(cè)的公平性和準(zhǔn)確性,又要確保實(shí)驗(yàn)的可重復(fù)性和擴(kuò)展性。

評(píng)測(cè)環(huán)境的搭建采用了容器化技術(shù),每個(gè)任務(wù)都運(yùn)行在獨(dú)立的Docker環(huán)境中。這種設(shè)計(jì)的好處是多方面的:首先,它確保了不同任務(wù)之間的完全隔離,避免了相互干擾;其次,它能夠精確地重現(xiàn)特定時(shí)期的軟件環(huán)境,包括操作系統(tǒng)版本、編程語言版本以及各種依賴庫(kù)的具體版本;最后,它使得整個(gè)評(píng)測(cè)過程可以在任何支持Docker的機(jī)器上重現(xiàn),大大提高了實(shí)驗(yàn)的可重復(fù)性。

測(cè)試執(zhí)行采用了pytest框架配合pytest-json-report插件,這種組合能夠生成詳細(xì)的結(jié)構(gòu)化測(cè)試報(bào)告。每次測(cè)試運(yùn)行都設(shè)置了3600秒的超時(shí)限制,這個(gè)時(shí)長(zhǎng)足以應(yīng)對(duì)大多數(shù)復(fù)雜的測(cè)試場(chǎng)景,同時(shí)避免了因?yàn)樗姥h(huán)等問題導(dǎo)致的無限等待。

雙角色協(xié)作的實(shí)現(xiàn)使用了iFlow CLI框架,這是一個(gè)專門為復(fù)雜AI智能體交互設(shè)計(jì)的工具。整個(gè)協(xié)作過程被嚴(yán)格限制在最多20輪迭代內(nèi),這個(gè)限制既確保了評(píng)測(cè)的可控性,又避免了無謂的長(zhǎng)時(shí)間運(yùn)行。

系統(tǒng)的提示詞設(shè)計(jì)展現(xiàn)了研究團(tuán)隊(duì)對(duì)軟件工程實(shí)踐的深刻理解。建筑師角色的提示詞要求AI嚴(yán)格按照五個(gè)步驟進(jìn)行工作:總結(jié)測(cè)試失敗的原因、追蹤相關(guān)的測(cè)試文件、分析源代碼中的根本問題、篩選最關(guān)鍵的修改需求、生成規(guī)范的需求文檔。每個(gè)步驟都有詳細(xì)的指導(dǎo)原則,確保分析過程的系統(tǒng)性和全面性。

程序員角色的提示詞則強(qiáng)調(diào)了實(shí)現(xiàn)的規(guī)范性和約束性。AI被明確禁止主動(dòng)執(zhí)行測(cè)試命令,只能專注于代碼修改工作。這種約束確保了評(píng)測(cè)過程的標(biāo)準(zhǔn)化,避免了因?yàn)椴煌珹I模型采用不同驗(yàn)證策略而產(chǎn)生的不公平比較。

為了確保評(píng)測(cè)結(jié)果的可靠性,研究團(tuán)隊(duì)還實(shí)現(xiàn)了多層次的質(zhì)量控制機(jī)制。每個(gè)任務(wù)在正式評(píng)測(cè)前都要經(jīng)過環(huán)境驗(yàn)證,確?;A(chǔ)環(huán)境能夠正常運(yùn)行。測(cè)試執(zhí)行過程中的所有輸出都會(huì)被詳細(xì)記錄,便于后續(xù)的分析和調(diào)試。

特別值得一提的是,整個(gè)評(píng)測(cè)過程完全自動(dòng)化,從任務(wù)分配到結(jié)果收集都無需人工干預(yù)。這種設(shè)計(jì)不僅提高了評(píng)測(cè)效率,更重要的是確保了評(píng)測(cè)過程的客觀性和一致性,避免了人為因素對(duì)結(jié)果的影響。

八、深遠(yuǎn)影響與未來展望

SWE-CI的提出不僅僅是一個(gè)新的評(píng)測(cè)基準(zhǔn),更代表了對(duì)AI編程能力評(píng)估理念的根本性變革。這種變革的影響將是深遠(yuǎn)而多層次的。

從技術(shù)發(fā)展角度來看,SWE-CI為AI研究者指明了一個(gè)重要的發(fā)展方向。長(zhǎng)期以來,AI編程領(lǐng)域的進(jìn)展主要通過提高在短期任務(wù)上的準(zhǔn)確率來衡量,這導(dǎo)致了研究重點(diǎn)的偏向。SWE-CI的出現(xiàn)提醒我們,真正有價(jià)值的AI編程助手不僅要能解決當(dāng)前問題,更要能夠?qū)懗鼋?jīng)得起時(shí)間考驗(yàn)的代碼。

這種評(píng)估理念的轉(zhuǎn)變可能會(huì)推動(dòng)訓(xùn)練方法的創(chuàng)新。傳統(tǒng)的訓(xùn)練數(shù)據(jù)主要由獨(dú)立的代碼片段組成,但要培養(yǎng)長(zhǎng)期維護(hù)能力,AI模型需要接觸到更多完整項(xiàng)目的演化歷程。這可能會(huì)促使研究者開發(fā)新的數(shù)據(jù)收集和標(biāo)注方法,以及新的訓(xùn)練策略。

從軟件工程實(shí)踐角度來看,SWE-CI為代碼質(zhì)量評(píng)估提供了新的視角。傳統(tǒng)的代碼審查主要關(guān)注當(dāng)前代碼的正確性和可讀性,但很難評(píng)估代碼的長(zhǎng)期可維護(hù)性。SWE-CI的評(píng)估框架可能為開發(fā)團(tuán)隊(duì)提供一種新的工具,幫助他們更好地評(píng)估和改進(jìn)代碼質(zhì)量。

在教育領(lǐng)域,SWE-CI也可能產(chǎn)生重要影響。計(jì)算機(jī)科學(xué)教育長(zhǎng)期以來重視算法正確性和編程技巧,但對(duì)軟件維護(hù)和長(zhǎng)期設(shè)計(jì)的重視不夠。SWE-CI的理念可能會(huì)推動(dòng)教育內(nèi)容和方法的調(diào)整,幫助學(xué)生從一開始就建立正確的軟件工程思維。

從產(chǎn)業(yè)應(yīng)用角度來看,SWE-CI的發(fā)現(xiàn)對(duì)AI編程工具的發(fā)展具有重要指導(dǎo)意義。目前的AI編程助手主要專注于快速生成代碼,但SWE-CI的結(jié)果表明,未來的工具需要更多地考慮代碼的長(zhǎng)期影響。這可能會(huì)推動(dòng)新一代編程助手的開發(fā),這些工具不僅能夠解決當(dāng)前問題,還能夠預(yù)測(cè)和優(yōu)化代碼的長(zhǎng)期演化路徑。

研究團(tuán)隊(duì)也明確指出了當(dāng)前工作的局限性和未來的改進(jìn)方向。雖然SWE-CI已經(jīng)包含了100個(gè)精心構(gòu)建的任務(wù),但這個(gè)規(guī)模相對(duì)于軟件開發(fā)的復(fù)雜性來說仍然有限。未來需要擴(kuò)展任務(wù)的數(shù)量和多樣性,涵蓋更多編程語言、更多應(yīng)用領(lǐng)域以及更多開發(fā)模式。

另一個(gè)重要的發(fā)展方向是評(píng)估指標(biāo)的進(jìn)一步完善。雖然EvoScore已經(jīng)能夠有效區(qū)分不同的維護(hù)策略,但軟件質(zhì)量的評(píng)估是一個(gè)多維度的問題。未來可能需要開發(fā)更多維度的指標(biāo),如代碼可讀性的變化、性能的演化、安全性的保持等。

此外,雙角色協(xié)作機(jī)制雖然很好地模擬了真實(shí)團(tuán)隊(duì)的工作模式,但真實(shí)的軟件開發(fā)往往涉及更多角色和更復(fù)雜的協(xié)作關(guān)系。未來的發(fā)展可能需要引入更多角色,如產(chǎn)品經(jīng)理、測(cè)試工程師、系統(tǒng)架構(gòu)師等,構(gòu)建更完整的開發(fā)生態(tài)系統(tǒng)模擬。

九、對(duì)AI發(fā)展的深層啟示

SWE-CI的研究成果為我們理解AI能力的本質(zhì)提供了新的視角。它揭示了一個(gè)重要現(xiàn)象:AI在解決孤立問題和處理復(fù)雜系統(tǒng)性挑戰(zhàn)之間存在著顯著差距。

這種差距的根源可能在于當(dāng)前AI訓(xùn)練方法的固有局限性。大多數(shù)AI模型是通過學(xué)習(xí)大量獨(dú)立的輸入-輸出對(duì)來訓(xùn)練的,這種方法雖然在單次任務(wù)上能夠達(dá)到很高的準(zhǔn)確率,但在需要全局思考和長(zhǎng)期規(guī)劃的復(fù)雜場(chǎng)景中就顯得力不從心。

真正的軟件維護(hù)能力需要多種認(rèn)知技能的協(xié)調(diào)配合:理解當(dāng)前系統(tǒng)的結(jié)構(gòu)和約束、預(yù)測(cè)修改對(duì)系統(tǒng)的潛在影響、在多個(gè)可能的解決方案之間進(jìn)行權(quán)衡、保持代碼的一致性和可擴(kuò)展性。這些技能的培養(yǎng)需要大量的實(shí)踐經(jīng)驗(yàn)和深層次的理解,而不僅僅是模式識(shí)別和模仿。

SWE-CI的發(fā)現(xiàn)也揭示了AI評(píng)估方法的重要性。評(píng)估方法不僅是衡量AI能力的工具,更是引導(dǎo)AI發(fā)展方向的指揮棒。當(dāng)我們只關(guān)注短期任務(wù)的準(zhǔn)確性時(shí),AI模型自然會(huì)朝著快速解決問題的方向發(fā)展。但當(dāng)我們開始重視長(zhǎng)期可維護(hù)性時(shí),AI模型就需要發(fā)展出更加復(fù)雜和全面的能力。

這種認(rèn)識(shí)對(duì)整個(gè)AI領(lǐng)域都有著重要意義。在自然語言處理、計(jì)算機(jī)視覺、機(jī)器人控制等各個(gè)領(lǐng)域,我們可能都需要重新思考評(píng)估標(biāo)準(zhǔn),從關(guān)注單次表現(xiàn)轉(zhuǎn)向關(guān)注系統(tǒng)性能力和長(zhǎng)期穩(wěn)定性。

從更宏觀的角度來看,SWE-CI的研究還觸及了一個(gè)深層次的哲學(xué)問題:智能的本質(zhì)是什么?真正的智能不僅體現(xiàn)在解決特定問題的能力上,更體現(xiàn)在適應(yīng)變化、學(xué)習(xí)成長(zhǎng)和保持穩(wěn)定的能力上。這種觀點(diǎn)可能會(huì)影響我們對(duì)AI發(fā)展目標(biāo)和路徑的整體思考。

說到底,SWE-CI為我們提供了一個(gè)重要的提醒:在追求AI技術(shù)突破的過程中,我們不應(yīng)該只關(guān)注令人眼花繚亂的短期成果,而應(yīng)該更多地思考如何構(gòu)建真正穩(wěn)健、可靠、可持續(xù)發(fā)展的智能系統(tǒng)。只有這樣,AI才能真正成為人類在復(fù)雜世界中的可靠伙伴。

就像一個(gè)園丁的價(jià)值不在于能否讓花朵在某一天綻放得特別美麗,而在于能否讓整個(gè)花園在四季輪回中始終保持生機(jī)勃勃一樣,真正優(yōu)秀的AI系統(tǒng)也應(yīng)該在長(zhǎng)期的任務(wù)演化中展現(xiàn)出持續(xù)的智慧和適應(yīng)能力。SWE-CI的貢獻(xiàn)在于為我們提供了衡量這種長(zhǎng)期智慧的標(biāo)準(zhǔn)和方法,這無疑將推動(dòng)AI技術(shù)向著更加成熟和實(shí)用的方向發(fā)展。

這項(xiàng)研究的發(fā)布標(biāo)志著AI編程能力評(píng)估進(jìn)入了一個(gè)新的時(shí)代。未來的AI編程助手將不再滿足于簡(jiǎn)單的"能用就行",而是要追求"用得久、用得好、用得穩(wěn)"的更高標(biāo)準(zhǔn)。對(duì)于整個(gè)軟件行業(yè)來說,這種變化的意義怎么強(qiáng)調(diào)都不為過,因?yàn)樗罱K將讓我們擁有更可靠、更可維護(hù)、更有價(jià)值的軟件系統(tǒng)。

Q&A

Q1:SWE-CI評(píng)測(cè)基準(zhǔn)與傳統(tǒng)編程評(píng)測(cè)有什么根本區(qū)別?

A:傳統(tǒng)評(píng)測(cè)像考試單選題,只看AI能否一次性寫出正確代碼。而SWE-CI模擬真實(shí)軟件開發(fā),要求AI在數(shù)月的持續(xù)迭代中維護(hù)代碼質(zhì)量,就像要求園丁不僅讓花朵綻放,還要在四季變化中保持花園生機(jī)。它關(guān)注的是代碼的長(zhǎng)期可維護(hù)性,而非短期功能正確性。

Q2:EvoScore進(jìn)化評(píng)分如何區(qū)分不同的AI維護(hù)策略?

A:EvoScore給后期迭代更高權(quán)重,能有效區(qū)分"短期收益"和"長(zhǎng)期投資"兩種策略。那些為了快速通過測(cè)試而草率修改代碼的AI會(huì)隨著時(shí)間推移得分越來越低,而那些前期進(jìn)展較慢但為后續(xù)發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)的AI會(huì)獲得更高評(píng)分。

Q3:為什么大多數(shù)先進(jìn)AI模型的零回歸率都很低?

A:實(shí)驗(yàn)顯示大多數(shù)模型零回歸率低于25%,說明AI在修改代碼時(shí)經(jīng)常會(huì)破壞原有功能。這反映了當(dāng)前AI訓(xùn)練主要基于獨(dú)立代碼片段,缺乏完整項(xiàng)目演化的上下文經(jīng)驗(yàn),難以進(jìn)行全局思考和預(yù)測(cè)修改的長(zhǎng)期影響,這是AI技術(shù)的重要局限性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯坦福卷瘋了!當(dāng)你在糾結(jié)怎么用 AI 寫代碼時(shí),頂級(jí)名校已經(jīng)開始系統(tǒng)教 “Vibe Coding” 了...

斯坦福卷瘋了!當(dāng)你在糾結(jié)怎么用 AI 寫代碼時(shí),頂級(jí)名校已經(jīng)開始系統(tǒng)教 “Vibe Coding” 了...

留學(xué)生日?qǐng)?bào)
2026-03-14 15:34:12
52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說了句話讓他當(dāng)場(chǎng)愣住

52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說了句話讓他當(dāng)場(chǎng)愣住

老杉說歷史
2026-03-13 23:00:06
國(guó)乒這步棋太狠!放棄蒯曼亮出底牌,壓死日本新星撕開孫王防線

國(guó)乒這步棋太狠!放棄蒯曼亮出底牌,壓死日本新星撕開孫王防線

生活新鮮市
2026-03-14 11:18:04
第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

萬物知識(shí)圈
2026-03-14 09:40:59
蘋果首款折疊屏機(jī)型頂配版定價(jià)超2萬元!將成為蘋果最貴手機(jī)

蘋果首款折疊屏機(jī)型頂配版定價(jià)超2萬元!將成為蘋果最貴手機(jī)

大象新聞
2026-03-12 08:41:03
蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個(gè)零售時(shí)代落幕

蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個(gè)零售時(shí)代落幕

叮當(dāng)當(dāng)科技
2026-03-14 01:50:37
空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

生活新鮮市
2026-03-14 17:15:43
茅臺(tái)1935酒(尊享)上線i茅臺(tái),首秀超預(yù)期

茅臺(tái)1935酒(尊享)上線i茅臺(tái),首秀超預(yù)期

微酒
2026-03-14 19:15:12
054A抵達(dá)伊朗海域護(hù)航

054A抵達(dá)伊朗海域護(hù)航

烽火觀天下
2026-03-10 11:54:38
伊朗革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

伊朗革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

難得君
2026-03-04 12:29:04
3·15影子暗訪|神秘的“特供酒”

3·15影子暗訪|神秘的“特供酒”

澎湃新聞
2026-03-14 08:04:32
老婆沒穿內(nèi)褲引人取笑,丈夫一怒之下拔刀亂捅,整整逃亡二十多年

老婆沒穿內(nèi)褲引人取笑,丈夫一怒之下拔刀亂捅,整整逃亡二十多年

長(zhǎng)安一孤客
2026-03-12 16:00:24
獲全場(chǎng)最低分 U23國(guó)足紅星坑慘申花 空門踢偏失絕殺 補(bǔ)時(shí)假摔染紅

獲全場(chǎng)最低分 U23國(guó)足紅星坑慘申花 空門踢偏失絕殺 補(bǔ)時(shí)假摔染紅

我愛英超
2026-03-14 18:10:23
淚目!中國(guó)女籃30歲王牌轟17+5+4,央視名嘴大贊:節(jié)奏大師

淚目!中國(guó)女籃30歲王牌轟17+5+4,央視名嘴大贊:節(jié)奏大師

李喜林籃球絕殺
2026-03-14 22:05:19
反轉(zhuǎn)了?張藝興工作室正式回應(yīng),歸國(guó)四子幾近全塌房

反轉(zhuǎn)了?張藝興工作室正式回應(yīng),歸國(guó)四子幾近全塌房

姩姩有娛
2026-03-14 14:41:47
被誤解的曼聯(lián)“兩翼齊飛”傳統(tǒng),弗格森的秘密武器從來不是對(duì)稱

被誤解的曼聯(lián)“兩翼齊飛”傳統(tǒng),弗格森的秘密武器從來不是對(duì)稱

卡靈頓分析師
2026-03-14 21:48:41
七歲兒子寫詩(shī)向父親要錢,全篇20字無一錢字,好友:我把女兒嫁他

七歲兒子寫詩(shī)向父親要錢,全篇20字無一錢字,好友:我把女兒嫁他

柳絮憶史
2026-03-14 09:07:10
歐洲晚宴上,王毅定調(diào)中歐關(guān)系,71歲默克爾現(xiàn)身,開口就直戳痛處

歐洲晚宴上,王毅定調(diào)中歐關(guān)系,71歲默克爾現(xiàn)身,開口就直戳痛處

風(fēng)眼軍情
2026-03-14 21:25:39
特朗普這么一打伊朗,烏克蘭幾乎全是壞消息

特朗普這么一打伊朗,烏克蘭幾乎全是壞消息

觀察者網(wǎng)
2026-03-14 09:34:10
委內(nèi)瑞拉5億美元石油1億美元黃金,為何運(yùn)向美國(guó)?

委內(nèi)瑞拉5億美元石油1億美元黃金,為何運(yùn)向美國(guó)?

中國(guó)新聞周刊
2026-03-14 12:42:09
2026-03-14 23:15:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

教育
時(shí)尚
手機(jī)
本地
家居

教育要聞

童年的天空的云彩會(huì)伴隨孩子的一生

女人到了三四十歲穿衣要顯貴,這些穿搭值得借鑒,大方又好看

手機(jī)要聞

緊跟華為步伐!安卓首款闊折疊屏來了 三星打造

本地新聞

坐標(biāo)北京,過敏季反向遷徒

家居要聞

藝術(shù)之家 法式優(yōu)雅

無障礙瀏覽 進(jìn)入關(guān)懷版