国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)跳動(dòng)驚人發(fā)現(xiàn):最強(qiáng)AI程序員竟然連基本編程任務(wù)都搞不定

0
分享至


在人工智能飛速發(fā)展的今天,很多人都在討論AI什么時(shí)候能完全替代人類(lèi)程序員。然而,字節(jié)跳動(dòng)Seed中國(guó)團(tuán)隊(duì)聯(lián)合M-A-P、2077AI、Humanlaya Data等多家研究機(jī)構(gòu)剛剛發(fā)布的一項(xiàng)重磅研究卻給這種樂(lè)觀(guān)情緒澆了一盆冷水。這項(xiàng)研究發(fā)表于2025年12月,題為"NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents",有興趣深入了解的讀者可以通過(guò)arXiv:2512.12730v1查詢(xún)完整論文。

想象一下,你要求一個(gè)據(jù)說(shuō)是"世界頂級(jí)"的建筑師為你設(shè)計(jì)并建造一棟完整的房子,你只給了他一張寫(xiě)著詳細(xì)需求的紙條,比如"我想要一個(gè)三室兩廳的房子,有現(xiàn)代化廚房,陽(yáng)光充足的客廳"等等。然后你走開(kāi),讓他獨(dú)自完成從設(shè)計(jì)到建造的全部工作。幾天后回來(lái),你發(fā)現(xiàn)他只搭了半截墻就放棄了,或者建了一棟看起來(lái)不錯(cuò)但門(mén)窗都打不開(kāi)的房子。

這正是研究團(tuán)隊(duì)發(fā)現(xiàn)的AI程序員現(xiàn)狀。目前最先進(jìn)的AI編程助手,包括Claude、GPT-5等明星產(chǎn)品,在面對(duì)需要獨(dú)立完成整個(gè)軟件項(xiàng)目的任務(wù)時(shí),表現(xiàn)遠(yuǎn)遠(yuǎn)不如我們想象的那樣出色。即便是表現(xiàn)最好的Claude系統(tǒng),成功率也僅有40%左右,而大多數(shù)AI的成功率甚至不到20%。

這項(xiàng)研究的獨(dú)特之處在于,它首次系統(tǒng)性地測(cè)試了AI程序員在"長(zhǎng)期項(xiàng)目"中的真實(shí)能力。以往的測(cè)試就像是考察建筑師能否正確安裝一扇門(mén)或者粉刷一面墻,而這次研究則是讓AI獨(dú)自承擔(dān)從零開(kāi)始建造整棟房子的任務(wù)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為NL2Repo-Bench的全新測(cè)試平臺(tái),包含104個(gè)不同難度的真實(shí)軟件項(xiàng)目,每個(gè)項(xiàng)目都需要AI從一張需求說(shuō)明書(shū)開(kāi)始,獨(dú)立完成架構(gòu)設(shè)計(jì)、代碼編寫(xiě)、依賴(lài)管理等全部工作,最終交付一個(gè)可以正常運(yùn)行的完整軟件包。

一、傳統(tǒng)測(cè)試方法的局限性:只見(jiàn)樹(shù)木不見(jiàn)森林

在深入了解這項(xiàng)研究之前,我們需要理解為什么以往的AI編程能力測(cè)試可能誤導(dǎo)了我們。現(xiàn)有的大多數(shù)AI編程測(cè)試就像是在考駕照時(shí)只考察能否踩油門(mén)剎車(chē),而不測(cè)試能否獨(dú)立完成一次長(zhǎng)途旅行。

比如說(shuō),目前最流行的編程測(cè)試通常會(huì)給AI一個(gè)具體的編程題目,比如"寫(xiě)一個(gè)函數(shù)來(lái)計(jì)算兩個(gè)數(shù)字的最大公約數(shù)",或者"修復(fù)這段代碼中的一個(gè)bug"。這類(lèi)測(cè)試就像是讓建筑工人展示如何使用錘子或螺絲刀,雖然能測(cè)試某些技能,但完全無(wú)法評(píng)估他們能否獨(dú)立建造一棟房子。

研究團(tuán)隊(duì)發(fā)現(xiàn),即使是那些在單個(gè)編程任務(wù)上表現(xiàn)優(yōu)異的AI系統(tǒng),在面對(duì)需要長(zhǎng)期規(guī)劃和多模塊協(xié)調(diào)的復(fù)雜項(xiàng)目時(shí),往往會(huì)出現(xiàn)各種意想不到的問(wèn)題。這就好比一個(gè)能夠精美雕刻每一塊磚石的工匠,卻無(wú)法理解如何將這些磚石組合成一座穩(wěn)固的建筑。

當(dāng)前的測(cè)試方法主要分為三類(lèi)。第一類(lèi)是"修補(bǔ)型"測(cè)試,給AI一個(gè)已經(jīng)存在但有問(wèn)題的軟件項(xiàng)目,讓它找出并修復(fù)bug,這就像是讓裝修工人修補(bǔ)墻面的裂縫。第二類(lèi)是"填空型"測(cè)試,給AI一個(gè)不完整的項(xiàng)目框架,讓它填補(bǔ)缺失的部分,就像給裝修工人一個(gè)半成品房間,要求完成剩余工作。第三類(lèi)是"復(fù)制型"測(cè)試,讓AI根據(jù)學(xué)術(shù)論文重新實(shí)現(xiàn)研究成果,但這類(lèi)測(cè)試通常依賴(lài)其他AI來(lái)評(píng)判結(jié)果好壞,就像讓一個(gè)裝修工人評(píng)價(jià)另一個(gè)工人的工作質(zhì)量。

這些測(cè)試方法的共同問(wèn)題是,它們都為AI提供了大量的"腳手架"支撐,就像是為建筑工人提供了詳細(xì)的施工圖紙、預(yù)制的建筑構(gòu)件,甚至現(xiàn)成的地基。在這種條件下表現(xiàn)良好,并不意味著AI具備了獨(dú)立規(guī)劃和建造整個(gè)項(xiàng)目的能力。

二、NL2Repo-Bench的創(chuàng)新設(shè)計(jì):真正的獨(dú)立建房挑戰(zhàn)

為了真實(shí)評(píng)估AI的完整編程能力,研究團(tuán)隊(duì)創(chuàng)造了一個(gè)全新的測(cè)試環(huán)境,稱(chēng)為NL2Repo-Bench。這個(gè)測(cè)試平臺(tái)的設(shè)計(jì)理念就像是給建筑師一塊空地和一份詳細(xì)的需求說(shuō)明書(shū),然后完全讓他們獨(dú)自完成從設(shè)計(jì)到建造的全部工作。

NL2Repo-Bench的核心設(shè)計(jì)包含三個(gè)關(guān)鍵要素。首先是"空白起點(diǎn)"原則,AI面對(duì)的是一個(gè)完全空白的工作環(huán)境,沒(méi)有任何預(yù)先編寫(xiě)的代碼、沒(méi)有項(xiàng)目框架、甚至連基本的文件夾結(jié)構(gòu)都需要AI自己創(chuàng)建。這就像是給建筑師一塊什么都沒(méi)有的空地,連地基都需要他們自己設(shè)計(jì)和挖掘。

其次是"純文字需求"的輸入方式。AI只能獲得一份用自然語(yǔ)言寫(xiě)成的項(xiàng)目需求文檔,這份文檔詳細(xì)描述了軟件應(yīng)該具備的功能、應(yīng)該如何使用、以及期望的行為表現(xiàn)。但是,這份文檔不包含任何代碼示例、函數(shù)簽名或具體實(shí)現(xiàn)提示。這就像是給建筑師一份房屋需求說(shuō)明書(shū),上面寫(xiě)著"需要三室兩廳、現(xiàn)代化廚房、充足采光",但不會(huì)告訴他如何設(shè)計(jì)房屋結(jié)構(gòu)或選擇建筑材料。

第三個(gè)關(guān)鍵要素是"嚴(yán)格驗(yàn)證"的評(píng)判標(biāo)準(zhǔn)。與以往依賴(lài)其他AI或人工主觀(guān)評(píng)價(jià)不同,NL2Repo-Bench使用真實(shí)軟件項(xiàng)目的原始測(cè)試套件來(lái)驗(yàn)證AI生成的代碼。這些測(cè)試套件是軟件原始開(kāi)發(fā)者編寫(xiě)的,用來(lái)確保軟件各項(xiàng)功能正常工作。這就像是用建筑工程的嚴(yán)格驗(yàn)收標(biāo)準(zhǔn)來(lái)檢查房屋質(zhì)量,包括結(jié)構(gòu)安全性、水電系統(tǒng)功能、門(mén)窗開(kāi)關(guān)是否正常等等。

研究團(tuán)隊(duì)從GitHub上精心篩選了104個(gè)真實(shí)的開(kāi)源軟件項(xiàng)目作為測(cè)試素材。這些項(xiàng)目涵蓋了網(wǎng)頁(yè)開(kāi)發(fā)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、系統(tǒng)工具等九大類(lèi)別,規(guī)模從簡(jiǎn)單的工具庫(kù)到復(fù)雜的系統(tǒng)軟件不等。每個(gè)項(xiàng)目的規(guī)?刂圃300到12萬(wàn)行代碼之間,確保既有足夠的復(fù)雜性來(lái)測(cè)試AI的長(zhǎng)期規(guī)劃能力,又不會(huì)超出當(dāng)前AI系統(tǒng)的處理能力上限。

為了確保測(cè)試的公平性和準(zhǔn)確性,研究團(tuán)隊(duì)還開(kāi)發(fā)了專(zhuān)門(mén)的Docker容器化測(cè)試環(huán)境。每個(gè)測(cè)試項(xiàng)目都在一個(gè)隔離的、預(yù)配置好的虛擬環(huán)境中運(yùn)行,確保AI生成的代碼能夠在標(biāo)準(zhǔn)化的條件下接受測(cè)試。這就像是為每個(gè)建筑項(xiàng)目提供統(tǒng)一的質(zhì)檢標(biāo)準(zhǔn)和工具,確保評(píng)估結(jié)果的客觀(guān)性和可比較性。

三、令人意外的測(cè)試結(jié)果:AI編程能力的真實(shí)水平

當(dāng)研究團(tuán)隊(duì)運(yùn)行這些嚴(yán)格的測(cè)試時(shí),結(jié)果讓所有人都感到震驚。即使是當(dāng)前性能最強(qiáng)的AI系統(tǒng),在面對(duì)完整項(xiàng)目開(kāi)發(fā)任務(wù)時(shí)的表現(xiàn)也遠(yuǎn)遠(yuǎn)低于預(yù)期。

Claude系列AI表現(xiàn)最為出色,其中Claude-Sonnet-4.5的平均成功率達(dá)到40.2%,這已經(jīng)是所有測(cè)試AI中的最高分?jǐn)?shù)。但即便如此,這意味著在10個(gè)項(xiàng)目中,它也只能完整成功完成4個(gè)。而其他知名的AI系統(tǒng)表現(xiàn)更加令人擔(dān)憂(yōu),GPT-5的成功率只有21.7%,一些開(kāi)源AI模型的成功率甚至低于20%。

更讓人意外的是,在104個(gè)測(cè)試項(xiàng)目中,即使是表現(xiàn)最好的Claude-Sonnet-4.5,也只有3個(gè)項(xiàng)目能夠完全通過(guò)所有測(cè)試用例。這就像是讓世界上最優(yōu)秀的建筑師獨(dú)立建造10棟房子,結(jié)果發(fā)現(xiàn)其中6棟房子都有嚴(yán)重的結(jié)構(gòu)問(wèn)題或功能缺陷,而真正完全符合要求、可以安全入住的房子屈指可數(shù)。

研究團(tuán)隊(duì)進(jìn)一步分析發(fā)現(xiàn),AI的表現(xiàn)與項(xiàng)目復(fù)雜程度呈現(xiàn)明顯的反比關(guān)系。在簡(jiǎn)單項(xiàng)目(代碼量少于1500行)中,Claude-Sonnet-4.5的成功率能達(dá)到51.8%,但在復(fù)雜項(xiàng)目(代碼量超過(guò)4000行)中,成功率急劇下降到25.1%。這種現(xiàn)象類(lèi)似于一個(gè)建筑師能夠熟練建造小型住宅,但在面對(duì)大型建筑項(xiàng)目時(shí)就力不從心了。

不同類(lèi)型的項(xiàng)目對(duì)AI來(lái)說(shuō)也呈現(xiàn)出不同的挑戰(zhàn)程度。研究發(fā)現(xiàn),AI在處理系統(tǒng)工具和數(shù)據(jù)庫(kù)交互類(lèi)項(xiàng)目時(shí)表現(xiàn)相對(duì)較好,成功率能達(dá)到40%以上。但在機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)通信類(lèi)項(xiàng)目上,所有AI的表現(xiàn)都顯著下降,成功率普遍低于20%。這就像是某些建筑師擅長(zhǎng)建造傳統(tǒng)住宅,但在面對(duì)需要復(fù)雜電氣系統(tǒng)或特殊結(jié)構(gòu)設(shè)計(jì)的建筑時(shí)就顯得束手無(wú)策。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI系統(tǒng)的上下文窗口大小對(duì)性能有顯著影響。Claude系列AI擁有100萬(wàn)token的超大上下文窗口,這讓它能夠在整個(gè)開(kāi)發(fā)過(guò)程中記住項(xiàng)目的所有細(xì)節(jié)和早期決策。相比之下,那些只有25萬(wàn)token上下文窗口的AI系統(tǒng),就像是患有短期失憶癥的建筑師,經(jīng)常忘記前面做過(guò)的設(shè)計(jì)決定,導(dǎo)致項(xiàng)目后期出現(xiàn)各種不一致的問(wèn)題。

四、AI失敗模式分析:編程過(guò)程中的典型錯(cuò)誤

通過(guò)深入分析AI在測(cè)試中的失敗案例,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾種典型的錯(cuò)誤模式,這些發(fā)現(xiàn)揭示了當(dāng)前AI編程能力的根本性局限。

最常見(jiàn)的問(wèn)題是"過(guò)度自信的早期放棄"。許多AI系統(tǒng)在項(xiàng)目進(jìn)行到一半時(shí)就認(rèn)為任務(wù)已經(jīng)完成,提前宣布"工程完工"。這就像是建筑工人只搭建了房屋的基本框架和外墻,就告訴業(yè)主"房子建好了",完全忽略了內(nèi)部裝修、水電安裝、門(mén)窗安裝等大量必要工作。這種現(xiàn)象在"思維型"AI模型中尤為嚴(yán)重,比如Qwen3-Thinking模型有49%的項(xiàng)目都出現(xiàn)了這種過(guò)早停工的問(wèn)題。

研究團(tuán)隊(duì)認(rèn)為,這種現(xiàn)象可能源于A(yíng)I的"內(nèi)部思維幻覺(jué)"。這些AI在內(nèi)部推理過(guò)程中會(huì)說(shuō)服自己代碼已經(jīng)正確完成,就像是一個(gè)建筑工人在腦海中想象房子已經(jīng)建好的樣子,然后就誤以為現(xiàn)實(shí)中的房子也真的建好了。這種內(nèi)部的"成功感"掩蓋了外部實(shí)際存在的問(wèn)題,導(dǎo)致AI跳過(guò)了必要的驗(yàn)證和完善步驟。

另一個(gè)嚴(yán)重問(wèn)題是"協(xié)作依賴(lài)癥"。一些AI,特別是GPT-5,經(jīng)常在項(xiàng)目進(jìn)行過(guò)程中停下來(lái)等待人類(lèi)的進(jìn)一步指示。它們會(huì)說(shuō)"我已經(jīng)完成了基礎(chǔ)框架,接下來(lái)應(yīng)該怎么辦?"或者"我需要確認(rèn)這個(gè)設(shè)計(jì)方案是否符合您的要求"。這就像是建筑工人每完成一個(gè)小步驟就停下來(lái)詢(xún)問(wèn)監(jiān)工該怎么辦,雖然這在人機(jī)協(xié)作場(chǎng)景中可能是優(yōu)點(diǎn),但在需要獨(dú)立完成任務(wù)的情況下就成了致命缺陷。

第三種常見(jiàn)問(wèn)題是"架構(gòu)一致性缺失"。隨著項(xiàng)目規(guī)模的增長(zhǎng),AI往往無(wú)法維持整體設(shè)計(jì)的一致性。它們可能在項(xiàng)目初期制定了一套命名規(guī)范和代碼結(jié)構(gòu),但在后期卻忘記了這些決定,開(kāi)始使用完全不同的風(fēng)格和方法。這就像是建筑師在建房子時(shí),前面用的是現(xiàn)代風(fēng)格的設(shè)計(jì)元素,后面卻忽然改用古典風(fēng)格,導(dǎo)致整棟建筑風(fēng)格混亂、不協(xié)調(diào)。

第四種問(wèn)題是"依賴(lài)管理混亂"。許多AI無(wú)法正確處理軟件項(xiàng)目中的外部依賴(lài)關(guān)系,經(jīng)常出現(xiàn)導(dǎo)入錯(cuò)誤、版本沖突或缺少必要組件的情況。這就像是建筑師在設(shè)計(jì)房屋時(shí)沒(méi)有考慮好水管、電線(xiàn)的走線(xiàn)方案,導(dǎo)致后期安裝時(shí)發(fā)現(xiàn)管線(xiàn)無(wú)法正確連接,整個(gè)系統(tǒng)無(wú)法正常工作。

研究還發(fā)現(xiàn),AI在處理錯(cuò)誤和調(diào)試方面存在顯著缺陷。當(dāng)代碼出現(xiàn)錯(cuò)誤時(shí),人類(lèi)程序員通常會(huì)系統(tǒng)性地分析問(wèn)題、查看錯(cuò)誤信息、逐步調(diào)試定位問(wèn)題。但AI往往缺乏這種持久的問(wèn)題解決能力,容易陷入重復(fù)嘗試同樣的錯(cuò)誤解決方案的循環(huán)中,就像是修理工明明看到某個(gè)零件壞了,卻一遍又一遍地嘗試用同樣的方法修理,而不是考慮更換零件或改用其他方法。

五、工具使用模式揭示的深層問(wèn)題

研究團(tuán)隊(duì)詳細(xì)分析了AI在開(kāi)發(fā)過(guò)程中如何使用各種編程工具,這種分析就像是觀(guān)察建筑工人如何使用不同的工具來(lái)完成建房任務(wù),結(jié)果揭示了AI工作方式的有趣特點(diǎn)。

在所有AI系統(tǒng)中,代碼編輯工具的使用頻率最高,約占全部工具調(diào)用的50-60%。這相當(dāng)于建筑工人大部分時(shí)間都在使用錘子和螺絲刀等基礎(chǔ)工具。其次是命令執(zhí)行工具,占用約27-35%的時(shí)間,這就像是工人需要頻繁使用電鉆、切割機(jī)等電動(dòng)工具。

最有趣的發(fā)現(xiàn)是關(guān)于"任務(wù)規(guī)劃工具"的使用差異。表現(xiàn)最好的AI系統(tǒng),如Claude和GPT-5,會(huì)花費(fèi)約11-14%的時(shí)間使用任務(wù)規(guī)劃工具,這就像是優(yōu)秀的建筑工人會(huì)定期停下來(lái)查看施工圖紙、規(guī)劃下一步工作。而表現(xiàn)較差的AI系統(tǒng)很少使用這類(lèi)工具,特別是Qwen3-Thinking模型完全不使用任務(wù)規(guī)劃工具,它似乎完全依賴(lài)內(nèi)部思維來(lái)進(jìn)行規(guī)劃,但這種方式顯然效果不佳。

研究發(fā)現(xiàn),AI系統(tǒng)平均需要進(jìn)行約180輪的互動(dòng)才能完成一個(gè)項(xiàng)目,但不同AI的互動(dòng)模式差異巨大。Claude系列AI能夠保持穩(wěn)定的工作節(jié)奏,平均每個(gè)項(xiàng)目約180輪互動(dòng)。而其他一些AI要么互動(dòng)次數(shù)過(guò)少(如GPT-5平均只有78輪,往往沒(méi)完成項(xiàng)目就停止了),要么互動(dòng)次數(shù)過(guò)多(如Kimi-k2平均需要275輪,表現(xiàn)出效率低下的試錯(cuò)模式)。

通過(guò)分析AI的工作流程,研究團(tuán)隊(duì)識(shí)別出了幾種典型的工作模式。高效的AI展現(xiàn)出"編輯-測(cè)試"循環(huán)模式,它們會(huì)編寫(xiě)一段代碼,立即運(yùn)行測(cè)試驗(yàn)證效果,然后根據(jù)結(jié)果進(jìn)行調(diào)整。這就像是經(jīng)驗(yàn)豐富的建筑工人,每完成一個(gè)步驟就會(huì)檢查質(zhì)量,確保沒(méi)有問(wèn)題后再繼續(xù)下一步。

相比之下,效率低下的AI往往陷入"盲目編輯"模式,它們會(huì)連續(xù)編寫(xiě)大量代碼而不進(jìn)行中間測(cè)試,就像是建筑工人埋頭苦干卻不檢查工作質(zhì)量,結(jié)果到最后發(fā)現(xiàn)前面的工作都需要重做。還有一些AI表現(xiàn)出"迷航"模式,它們會(huì)反復(fù)在項(xiàng)目目錄中尋找文件、查看代碼,但很少進(jìn)行實(shí)際的編輯工作,就像是工人在工地上轉(zhuǎn)來(lái)轉(zhuǎn)去卻不知道該做什么。

六、上下文窗口大小的關(guān)鍵影響

研究中最有啟發(fā)性的發(fā)現(xiàn)之一是AI的"記憶容量"(技術(shù)上稱(chēng)為上下文窗口大小)對(duì)其編程能力的巨大影響。這就像是建筑師的記憶力對(duì)其工作質(zhì)量的影響一樣重要。

Claude系列AI擁有100萬(wàn)token的超大記憶容量,這讓它能夠在整個(gè)項(xiàng)目開(kāi)發(fā)過(guò)程中記住所有的設(shè)計(jì)決定、代碼結(jié)構(gòu)和遇到的問(wèn)題。相比之下,大多數(shù)其他AI只有25萬(wàn)token左右的記憶容量,就像是記憶力有限的建筑師,容易忘記早期的設(shè)計(jì)決定,導(dǎo)致后期工作與前期不一致。

這種記憶容量的差異在復(fù)雜項(xiàng)目中表現(xiàn)得尤為明顯。當(dāng)項(xiàng)目代碼量超過(guò)1萬(wàn)行時(shí),擁有大記憶容量的AI能夠維持相對(duì)穩(wěn)定的性能,而記憶容量有限的AI性能會(huì)急劇下降。這就像是在建造大型建筑時(shí),記憶力好的建筑師能夠始終把握整體設(shè)計(jì)思路,而記憶力差的建筑師則會(huì)在項(xiàng)目后期迷失方向。

然而,研究也發(fā)現(xiàn),僅僅擁有大記憶容量并不能保證成功。一些擁有較大記憶容量的AI(如Kimi-k2)表現(xiàn)卻不如預(yù)期,這說(shuō)明除了能夠記住信息外,如何有效利用這些信息同樣重要。這就像是一個(gè)記憶力超群但缺乏經(jīng)驗(yàn)的建筑師,雖然能記住所有細(xì)節(jié),但不知道如何將這些信息有效組織和應(yīng)用。

七、揭示的根本性挑戰(zhàn)

通過(guò)這項(xiàng)大規(guī)模的系統(tǒng)性研究,團(tuán)隊(duì)揭示了當(dāng)前AI編程能力面臨的幾個(gè)根本性挑戰(zhàn),這些挑戰(zhàn)遠(yuǎn)比我們之前認(rèn)識(shí)到的更加深刻。

首先是"長(zhǎng)期規(guī)劃能力"的缺失,F(xiàn)在的AI系統(tǒng)雖然能夠很好地處理單個(gè)編程任務(wù),但在需要制定并執(zhí)行跨越數(shù)百個(gè)步驟的長(zhǎng)期計(jì)劃時(shí)就顯得力不從心。這就像是一個(gè)工匠能夠精美地雕刻每一塊木料,但無(wú)法設(shè)計(jì)和建造一件復(fù)雜的家具。真正的軟件開(kāi)發(fā)需要在項(xiàng)目初期就考慮好整體架構(gòu),然后在數(shù)天或數(shù)周的時(shí)間里堅(jiān)持執(zhí)行這個(gè)計(jì)劃,同時(shí)根據(jù)實(shí)際情況進(jìn)行靈活調(diào)整。

其次是"全局一致性維護(hù)"的困難。軟件項(xiàng)目中的各個(gè)模塊需要保持風(fēng)格一致、接口兼容、命名規(guī)范統(tǒng)一等等。這就像是建造一棟房子時(shí),需要確保所有房間的設(shè)計(jì)風(fēng)格協(xié)調(diào)統(tǒng)一、所有的門(mén)窗規(guī)格匹配、所有的水電接口標(biāo)準(zhǔn)一致。AI往往在項(xiàng)目初期能夠做得很好,但隨著項(xiàng)目規(guī)模增長(zhǎng),就逐漸失去了對(duì)整體一致性的控制。

第三個(gè)挑戰(zhàn)是"錯(cuò)誤恢復(fù)和調(diào)試能力"。真實(shí)的軟件開(kāi)發(fā)過(guò)程中,出現(xiàn)錯(cuò)誤和需要調(diào)試是家常便飯。優(yōu)秀的程序員不僅要能避免錯(cuò)誤,更要能在錯(cuò)誤出現(xiàn)時(shí)快速定位和修復(fù)問(wèn)題。但現(xiàn)在的AI往往缺乏這種持久的問(wèn)題解決能力,容易在遇到復(fù)雜錯(cuò)誤時(shí)陷入困境或采用低效的試錯(cuò)方法。

最后是"環(huán)境適應(yīng)性"的不足。真實(shí)的軟件開(kāi)發(fā)環(huán)境復(fù)雜多變,存在版本兼容性問(wèn)題、依賴(lài)沖突、系統(tǒng)差異等各種挑戰(zhàn)。AI需要能夠像有經(jīng)驗(yàn)的程序員一樣,在遇到這些環(huán)境問(wèn)題時(shí)知道如何搜索解決方案、調(diào)整配置或?qū)ふ姨娲桨浮5壳暗腁I在這方面還顯得相當(dāng)脆弱。

八、對(duì)未來(lái)AI發(fā)展的啟示

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了對(duì)當(dāng)前AI能力的評(píng)估,它為我們指出了AI編程能力發(fā)展的關(guān)鍵方向。

研究表明,簡(jiǎn)單地增加AI的計(jì)算資源或訓(xùn)練數(shù)據(jù)可能無(wú)法解決這些根本性問(wèn)題。就像是給建筑工人更多的錢(qián)或更好的工具,并不能自動(dòng)讓他們學(xué)會(huì)建造摩天大樓一樣。AI需要的是更好的"長(zhǎng)期工作能力"和"項(xiàng)目管理技能"。

未來(lái)的AI編程助手可能需要具備更強(qiáng)的自我監(jiān)督和驗(yàn)證能力。它們需要能夠定期"回顧"自己的工作,檢查是否偏離了最初的設(shè)計(jì)目標(biāo),并主動(dòng)糾正發(fā)現(xiàn)的問(wèn)題。這就像是建筑師需要定期審視整個(gè)建筑項(xiàng)目,確保各個(gè)部分協(xié)調(diào)統(tǒng)一。

另一個(gè)重要方向是改善AI的"規(guī)劃持久性",F(xiàn)在的AI往往制定計(jì)劃后就忘記了,或者輕易改變計(jì)劃。未來(lái)的AI需要能夠制定詳細(xì)、可執(zhí)行的長(zhǎng)期計(jì)劃,并在執(zhí)行過(guò)程中保持對(duì)這個(gè)計(jì)劃的堅(jiān)持,同時(shí)在必要時(shí)進(jìn)行合理的調(diào)整。

研究還暗示,未來(lái)可能需要開(kāi)發(fā)專(zhuān)門(mén)針對(duì)長(zhǎng)期項(xiàng)目的AI訓(xùn)練方法。目前的AI訓(xùn)練主要基于短期任務(wù),這可能解釋了它們?cè)陂L(zhǎng)期項(xiàng)目中的不佳表現(xiàn)。就像是培訓(xùn)建筑師不能只讓他們練習(xí)砌磚,還需要讓他們實(shí)際參與完整建筑項(xiàng)目的規(guī)劃和建造。

九、對(duì)行業(yè)和社會(huì)的影響

這項(xiàng)研究的發(fā)現(xiàn)對(duì)軟件開(kāi)發(fā)行業(yè)和整個(gè)社會(huì)都有重要的現(xiàn)實(shí)意義。

首先,它提醒我們不要過(guò)度高估當(dāng)前AI的編程能力。雖然AI在協(xié)助程序員完成特定任務(wù)方面表現(xiàn)出色,但距離完全自主的軟件開(kāi)發(fā)還有很長(zhǎng)的路要走。這就像是說(shuō),雖然現(xiàn)在有了很好的電動(dòng)工具,但我們?nèi)匀恍枰炀毜慕ㄖと藖?lái)規(guī)劃和協(xié)調(diào)整個(gè)建筑項(xiàng)目。

對(duì)于軟件開(kāi)發(fā)團(tuán)隊(duì)來(lái)說(shuō),這意味著AI應(yīng)該被視為強(qiáng)大的助手而不是替代品。最有效的應(yīng)用方式可能是人機(jī)協(xié)作,讓AI處理重復(fù)性的編碼任務(wù),而讓人類(lèi)程序員負(fù)責(zé)架構(gòu)設(shè)計(jì)、項(xiàng)目規(guī)劃和質(zhì)量把控。這就像是現(xiàn)代建筑項(xiàng)目中,電動(dòng)工具大大提高了工人的效率,但項(xiàng)目的成功仍然依賴(lài)于有經(jīng)驗(yàn)的建筑師和項(xiàng)目經(jīng)理。

對(duì)于A(yíng)I開(kāi)發(fā)公司來(lái)說(shuō),這項(xiàng)研究指出了明確的改進(jìn)方向。僅僅提高AI在簡(jiǎn)單編程任務(wù)上的表現(xiàn)是不夠的,真正的突破需要在長(zhǎng)期規(guī)劃、項(xiàng)目管理和錯(cuò)誤處理能力方面取得進(jìn)展。這就像是汽車(chē)工業(yè)從制造單個(gè)零件的能力發(fā)展到整車(chē)設(shè)計(jì)和制造能力的飛躍。

從更廣闊的社會(huì)角度來(lái)看,這項(xiàng)研究也提醒我們?cè)贏(yíng)I發(fā)展過(guò)程中保持理性和謹(jǐn)慎。雖然AI技術(shù)進(jìn)步迅速,但在某些需要長(zhǎng)期規(guī)劃和復(fù)雜協(xié)調(diào)的領(lǐng)域,人類(lèi)的獨(dú)特價(jià)值仍然不可替代。這不是要貶低AI的價(jià)值,而是要幫助我們更好地理解如何最有效地利用AI技術(shù)。

說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)重要道理:真正的智能不僅僅是解決單個(gè)問(wèn)題的能力,更是規(guī)劃、執(zhí)行和完成復(fù)雜長(zhǎng)期項(xiàng)目的能力。雖然當(dāng)前的AI在某些方面已經(jīng)超越了人類(lèi),但在需要持久性、一致性和全局思維的復(fù)雜任務(wù)中,我們?nèi)匀挥泻荛L(zhǎng)的路要走。這既是挑戰(zhàn),也是機(jī)遇,為未來(lái)的AI研究指明了清晰的發(fā)展方向。

就像建造一棟真正優(yōu)秀的建筑需要的不僅僅是精湛的手工技藝,還需要深思熟慮的設(shè)計(jì)、精確的規(guī)劃和持之以恒的執(zhí)行一樣,創(chuàng)造真正智能的AI編程助手也需要我們?cè)谒惴、架?gòu)和訓(xùn)練方法上進(jìn)行更深層次的創(chuàng)新和突破。

Q&A

Q1:NL2Repo-Bench測(cè)試平臺(tái)是什么?

A:NL2Repo-Bench是字節(jié)跳動(dòng)團(tuán)隊(duì)開(kāi)發(fā)的AI編程能力測(cè)試平臺(tái),它讓AI從零開(kāi)始獨(dú)立完成整個(gè)軟件項(xiàng)目開(kāi)發(fā)。測(cè)試中AI只能獲得一份文字需求說(shuō)明,需要自己進(jìn)行架構(gòu)設(shè)計(jì)、代碼編寫(xiě)、依賴(lài)管理等全部工作,最終交付可運(yùn)行的完整軟件包。這就像給建筑師一塊空地和需求書(shū),讓他獨(dú)自完成從設(shè)計(jì)到建造的全部工作。

Q2:目前最強(qiáng)的AI編程助手成功率有多高?

A:研究測(cè)試了包括Claude、GPT-5等在內(nèi)的多個(gè)頂級(jí)AI系統(tǒng),發(fā)現(xiàn)即使是表現(xiàn)最好的Claude-Sonnet-4.5,平均成功率也只有40.2%。大多數(shù)AI的成功率甚至不到20%。在104個(gè)測(cè)試項(xiàng)目中,Claude-Sonnet-4.5只有3個(gè)項(xiàng)目能完全通過(guò)所有測(cè)試。這意味著AI距離獨(dú)立完成復(fù)雜軟件項(xiàng)目還有很大差距。

Q3:AI編程失敗的主要原因是什么?

A:研究發(fā)現(xiàn)AI編程失敗主要有四個(gè)原因:過(guò)度自信導(dǎo)致提前停工、依賴(lài)人類(lèi)指導(dǎo)無(wú)法獨(dú)立工作、無(wú)法維持長(zhǎng)期項(xiàng)目的架構(gòu)一致性、以及依賴(lài)管理混亂。比如一些AI會(huì)在項(xiàng)目完成一半時(shí)就認(rèn)為任務(wù)結(jié)束,或者在項(xiàng)目后期忘記早期的設(shè)計(jì)決定,導(dǎo)致代碼風(fēng)格不一致。這些問(wèn)題反映出AI缺乏長(zhǎng)期規(guī)劃和項(xiàng)目管理能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
解放軍軍演:距離臺(tái)島不到9公里,第一次以美軍核潛艇為假想敵

解放軍軍演:距離臺(tái)島不到9公里,第一次以美軍核潛艇為假想敵

頭條爆料007
2025-12-29 11:24:47
網(wǎng)購(gòu)羽絨服半個(gè)月后遭退貨,口袋里還留著旅游的機(jī)票,商家怒斥:退回的衣服到處都是油漬,你是活不起了嗎?

網(wǎng)購(gòu)羽絨服半個(gè)月后遭退貨,口袋里還留著旅游的機(jī)票,商家怒斥:退回的衣服到處都是油漬,你是活不起了嗎?

觀(guān)威海
2025-12-30 10:06:03
主持人發(fā)聲指廣州停車(chē)費(fèi)太貴應(yīng)降價(jià),引發(fā)不少車(chē)主跟評(píng),發(fā)展改革委工作人員回應(yīng)

主持人發(fā)聲指廣州停車(chē)費(fèi)太貴應(yīng)降價(jià),引發(fā)不少車(chē)主跟評(píng),發(fā)展改革委工作人員回應(yīng)

極目新聞
2025-12-29 15:37:33
萬(wàn)物皆可 AI 的 2025,生活更需要「有人在」

萬(wàn)物皆可 AI 的 2025,生活更需要「有人在」

愛(ài)范兒
2025-12-29 12:17:10
日本國(guó)運(yùn)的衰落,遠(yuǎn)遠(yuǎn)超出了我們的想象

日本國(guó)運(yùn)的衰落,遠(yuǎn)遠(yuǎn)超出了我們的想象

優(yōu)趣紀(jì)史記
2025-12-29 19:43:13
河南信陽(yáng)夜間突傳巨響!“樓房、窗戶(hù)都在抖動(dòng),大批消防車(chē)出動(dòng)”,官方通報(bào):未接到有效報(bào)警,市民不必恐慌

河南信陽(yáng)夜間突傳巨響!“樓房、窗戶(hù)都在抖動(dòng),大批消防車(chē)出動(dòng)”,官方通報(bào):未接到有效報(bào)警,市民不必恐慌

大風(fēng)新聞
2025-12-30 09:08:06
普京揪出身邊最大“內(nèi)鬼”,原來(lái)總理是敵方間諜,給中方敲響警鐘

普京揪出身邊最大“內(nèi)鬼”,原來(lái)總理是敵方間諜,給中方敲響警鐘

花花娛界
2025-12-29 20:25:38
6500萬(wàn)鎊!曝曼城不講理買(mǎi)斷塞梅尼奧+48小時(shí)內(nèi)簽約 阿森納心很慌

6500萬(wàn)鎊!曝曼城不講理買(mǎi)斷塞梅尼奧+48小時(shí)內(nèi)簽約 阿森納心很慌

風(fēng)過(guò)鄉(xiāng)
2025-12-30 06:25:24
三年四次軍演,在臺(tái)海布下鐵桶陣,特朗普讀懂中國(guó)的意思了嗎?

三年四次軍演,在臺(tái)海布下鐵桶陣,特朗普讀懂中國(guó)的意思了嗎?

強(qiáng)軍路
2025-12-29 16:53:45
伊利拍了個(gè)“養(yǎng)牛爽劇”,年輕人居然追瘋了?

伊利拍了個(gè)“養(yǎng)牛爽劇”,年輕人居然追瘋了?

一點(diǎn)財(cái)經(jīng)
2025-12-30 12:18:25
白嫖攝影師后續(xù):?jiǎn)挝粋鏖_(kāi)已社死,朋友曝更多,白嫖只是冰山一角

白嫖攝影師后續(xù):?jiǎn)挝粋鏖_(kāi)已社死,朋友曝更多,白嫖只是冰山一角

深析古今
2025-12-30 12:01:35
體制內(nèi)“近親繁殖”,現(xiàn)階段無(wú)解

體制內(nèi)“近親繁殖”,現(xiàn)階段無(wú)解

冰川思想庫(kù)
2025-12-30 11:38:23
談判進(jìn)入“最后階段”,棘手問(wèn)題尚未解決,美烏總統(tǒng)談了3小時(shí)仍無(wú)突破

談判進(jìn)入“最后階段”,棘手問(wèn)題尚未解決,美烏總統(tǒng)談了3小時(shí)仍無(wú)突破

環(huán)球網(wǎng)資訊
2025-12-30 07:02:23
一個(gè)國(guó)家正在崩塌:伊朗女孩扔掉頭巾,如同大清朝開(kāi)始剪辮子

一個(gè)國(guó)家正在崩塌:伊朗女孩扔掉頭巾,如同大清朝開(kāi)始剪辮子

老范談史
2025-12-29 15:59:06
故宮原副院長(zhǎng)被抄家,狗窩都用和田玉

故宮原副院長(zhǎng)被抄家,狗窩都用和田玉

法經(jīng)網(wǎng)
2025-12-29 21:01:33
全明星首輪投票結(jié)果出爐:東契奇暫列票王 詹杜排名下降庫(kù)里上升

全明星首輪投票結(jié)果出爐:東契奇暫列票王 詹杜排名下降庫(kù)里上升

羅說(shuō)NBA
2025-12-30 06:12:59
男孩偷吃鄰居變態(tài)辣外賣(mài)引發(fā)急性腸胃炎,住院花費(fèi)兩千元,家長(zhǎng)向被偷者索賠

男孩偷吃鄰居變態(tài)辣外賣(mài)引發(fā)急性腸胃炎,住院花費(fèi)兩千元,家長(zhǎng)向被偷者索賠

大風(fēng)新聞
2025-12-30 10:43:03
廣汽埃安突放大招:自燃、衰減、智能泊車(chē)兜底

廣汽埃安突放大招:自燃、衰減、智能泊車(chē)兜底

電動(dòng)汽車(chē)觀(guān)察家
2025-12-30 12:51:18
全球首家市值突破 5萬(wàn)億美元上市公司誕生

全球首家市值突破 5萬(wàn)億美元上市公司誕生

證券時(shí)報(bào)
2025-12-30 06:31:05
中方軍演第2天,賴(lài)清德表態(tài),高市表態(tài),特朗普:關(guān)系好,不收臺(tái)

中方軍演第2天,賴(lài)清德表態(tài),高市表態(tài),特朗普:關(guān)系好,不收臺(tái)

時(shí)時(shí)有聊
2025-12-30 09:49:07
2025-12-30 14:35:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6700文章數(shù) 545關(guān)注度
往期回顧 全部

科技要聞

估值150億的智元,開(kāi)始批量"制造"小獨(dú)角獸

頭條要聞

媒體:賴(lài)清德稱(chēng)"大陸不敢越雷池" 第二天解放軍就演習(xí)

頭條要聞

媒體:賴(lài)清德稱(chēng)"大陸不敢越雷池" 第二天解放軍就演習(xí)

體育要聞

這個(gè)59歲的胖子,還在表演“蝎子擺尾”

娛樂(lè)要聞

林俊杰官宣文案爭(zhēng)議!女方名字都不提

財(cái)經(jīng)要聞

朱光耀:美關(guān)稅政策正使WTO名存實(shí)亡

汽車(chē)要聞

標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

手機(jī)
親子
本地
藝術(shù)
公開(kāi)課

手機(jī)要聞

榮耀 Power2 官宣:搭載第二代鴻燕通信,主打超強(qiáng)續(xù)航

親子要聞

后續(xù)!3歲“熊孩子”頭卡石像懷中,家長(zhǎng)回應(yīng)!評(píng)論區(qū)笑不活了!

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

藝術(shù)要聞

謝稚柳雪景山水20圖

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版