国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超6萬GitHub項(xiàng)目實(shí)測:Agent寫代碼效率暴漲,通過率仍落后人類

0
分享至

當(dāng) AI 用 3 天完成人類程序員原本3年的代碼任務(wù)量,人類的角色會(huì)發(fā)生怎樣的變化?

當(dāng)前,AI 正在從工具變?yōu)槿祟惖摹瓣?duì)友”。隨著大模型的加速發(fā)展,AI 在軟件工程領(lǐng)域的作用已不再是輔助代碼補(bǔ)全,而是正在成為可自主編碼的智能體(Agent)。

現(xiàn)在,我們只需向 AI 描述代碼想要實(shí)現(xiàn)的功能,它就能自動(dòng)生成完整代碼;借助 Agent,甚至能在十幾分鐘內(nèi)完成千行級別的代碼生成或修改。

近期,加拿大女王大學(xué)博士后李豪與所在團(tuán)隊(duì)在一項(xiàng)研究中首次構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集 AIDev,系統(tǒng)分析和統(tǒng)計(jì)了自主編碼 Agent 在 7,000 多個(gè)較流行的軟件中的實(shí)際表現(xiàn)和影響。

其覆蓋范圍包括在 GitHub 平臺上已提交的超 45.6 萬條 Agent 代碼合并請求(PR,pull requests),涵蓋 6.1 萬個(gè)代碼庫和 4.7 萬名開發(fā)者,包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


圖丨李豪(來源:受訪者)

研究人員在 AI 領(lǐng)域和軟件工程做相關(guān)研究時(shí),往往會(huì)選擇用 SWE-bench 做測試,通過交給 AI 一些高質(zhì)量、有測試樣例的任務(wù),來優(yōu)化 AI 性能以及優(yōu)化系統(tǒng)設(shè)計(jì)等。

但這也帶來了很多挑戰(zhàn)性的問題。例如,一家公司如果將測試題目用于訓(xùn)練模型,極有可能因“作弊”導(dǎo)致分?jǐn)?shù)虛高。此外,由于 SWE-bench 是一個(gè)靜態(tài)的基準(zhǔn)集(benchmark),部分?jǐn)?shù)據(jù)有可能存在一定滯后性。

李豪指出,該研究最大的不同點(diǎn)在于,AIDev 是真實(shí)世界、大規(guī)模、實(shí)時(shí)采集數(shù)據(jù)的數(shù)據(jù)集,更貼近于業(yè)界實(shí)踐和生產(chǎn)。此外,研究人員還可以利用該數(shù)據(jù)集打造更新的 benchmark。


(來源:arXiv)

研究團(tuán)隊(duì)在 AI 編碼 Agent 的速度和質(zhì)量方面找到了有趣的發(fā)現(xiàn)。一項(xiàng)個(gè)例分析結(jié)果顯示,有開發(fā)者在使用 AI 編碼 Agent 后,3 天內(nèi)完成的任務(wù)量接近其過去 3 年的總量。

而 AI 在自然語言處理方面的優(yōu)勢,也同樣值得關(guān)注。他們發(fā)現(xiàn),AI 在編寫代碼或文本方面的任務(wù)中表現(xiàn)優(yōu)異,例如從文檔相關(guān)的合并請求接受率來看,OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%,而人類在該方面表現(xiàn)為 76.5%。


(來源:arXiv)

合并請求接受率是衡量 AI 產(chǎn)出質(zhì)量和可信度的關(guān)鍵指標(biāo),它與人類開發(fā)者/項(xiàng)目維護(hù)者對 AI 貢獻(xiàn)的認(rèn)可度密切相關(guān)。該團(tuán)隊(duì)還發(fā)現(xiàn),編碼 Agent 的合并請求接受率比人類開發(fā)者低 15% 至 40%(不同任務(wù)類型下區(qū)間差異顯著),尤其是在新功能開發(fā)、修復(fù) Bug 等復(fù)雜的任務(wù)方面。例如,OpenAI Codex 的 PR 接受率為 64%,而人類開發(fā)者的 PR 接受率高達(dá) 76.8%。

這意味著,AI 寫代碼并非全面超越了人類。需要看到的是,盡管目前 AI 編碼 Agent 生成速度很快,但性能方面還有一些缺陷,在結(jié)構(gòu)上也相對較簡單,需要研究人員繼續(xù)對其進(jìn)行增強(qiáng),以確保代碼的長期可維護(hù)性。

李豪對 DeepTech 表示:“短期看,AI Agent 的代碼接受率相對人類較低,效率與質(zhì)量的取舍仍需權(quán)衡(trade-off),但這種磨合期對應(yīng)的是數(shù)據(jù)飛輪的啟動(dòng)階段,形成飛輪效應(yīng)后,我們有望獲得生產(chǎn)力的顯著提升?!?/p>


(來源:arXiv)

該研究通過分析自主編碼 Agent 的表現(xiàn),為未來更好地優(yōu)化人與 AI 協(xié)作提供了數(shù)據(jù)基礎(chǔ)。這也帶來了一種全新的生成模式,開發(fā)者面臨的問題不是如何寫更多的代碼,而是接到一項(xiàng)任務(wù)后,如何拆分成更細(xì)的任務(wù),再管理這些 AI 更好地執(zhí)行。

“該方向在學(xué)界和產(chǎn)業(yè)界還存在較大的空白。編程人員的角色也會(huì)逐漸從寫代碼的人,轉(zhuǎn)換成提供代碼審查或提供管理模式的人。目前,我們也在做相關(guān)的研究,來探索新一代軟件開發(fā)流程來支持開發(fā)者們利用 AI Agent?!崩詈辣硎?。

此外研究還揭示出,盡管 AI 的出現(xiàn)推動(dòng)了人機(jī)協(xié)同審查流程,但同時(shí)也可能會(huì)帶來偏見等問題。例如,假如 AI 寫代碼的 Agent 與審查代碼的機(jī)器人自同一公司,很有可能在AI審查環(huán)節(jié)忽視某些特定類型的錯(cuò)誤。

在未來的研究中,該團(tuán)隊(duì)計(jì)劃建立更全面的 benchmark,對 AI 編程 Agent 進(jìn)行真實(shí)的表現(xiàn)評測。他們還打算建立新知識庫,推動(dòng)領(lǐng)域內(nèi)的研究人員共同改進(jìn)相關(guān)方向,包括如何更好地預(yù)測和分析AI可能的失敗場景,以及失敗原因等。從更長遠(yuǎn)的發(fā)展來看,探索更自動(dòng)化與標(biāo)準(zhǔn)化的審查機(jī)制,也是一個(gè)值得深入研究的方向。

相關(guān)論文以《軟件工程 3.0 中 AI 隊(duì)友的崛起:自主編碼 Agent 如何重塑軟件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)為題發(fā)表在 arXiv[1]。目前,相關(guān)代碼已在 GitHub 開源。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2507.15003v1

2.AIDev 數(shù)據(jù)集獲?。篽ttps://github.com/SAILResearch/AI_Teammates_in_SE3

排版:胡莉花

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈梅內(nèi)伊死了!伊朗迎來轉(zhuǎn)折,如何影響烏戰(zhàn)?

哈梅內(nèi)伊死了!伊朗迎來轉(zhuǎn)折,如何影響烏戰(zhàn)?

書生論劍
2026-03-01 14:20:39
上海浦東機(jī)場多架航班返航!中國旅客:我已經(jīng)哭過了,感到后怕;中東機(jī)場改簽排隊(duì)數(shù)百米,國內(nèi)三大航可免費(fèi)退改簽

上海浦東機(jī)場多架航班返航!中國旅客:我已經(jīng)哭過了,感到后怕;中東機(jī)場改簽排隊(duì)數(shù)百米,國內(nèi)三大航可免費(fèi)退改簽

大象新聞
2026-03-01 14:45:10
美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時(shí)刻”

美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時(shí)刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
中國男籃100-93中國臺北 球員評價(jià):5人優(yōu)秀,2人及格,5人低迷

中國男籃100-93中國臺北 球員評價(jià):5人優(yōu)秀,2人及格,5人低迷

籃球資訊達(dá)人
2026-03-01 18:00:37
伊朗革命衛(wèi)隊(duì)發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復(fù)仇之手已張開

伊朗革命衛(wèi)隊(duì)發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復(fù)仇之手已張開

健身狂人
2026-03-01 10:58:21
復(fù)旦神級教授“預(yù)言”:美國不敢打伊朗,國力嚴(yán)重下降難支撐全球霸權(quán)

復(fù)旦神級教授“預(yù)言”:美國不敢打伊朗,國力嚴(yán)重下降難支撐全球霸權(quán)

回旋鏢
2026-03-01 21:20:11
伊朗“斬首”疑云:美以為何總能做到“百萬軍中取上將首級”?

伊朗“斬首”疑云:美以為何總能做到“百萬軍中取上將首級”?

國是直通車
2026-03-01 17:53:07
法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
全線拉升!剛剛,超10萬人爆倉!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

全線拉升!剛剛,超10萬人爆倉!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

每日經(jīng)濟(jì)新聞
2026-03-01 19:40:50
喵喵殺煥新回歸!《三國殺:一將成名》閃閃節(jié)萌趣來襲

喵喵殺煥新回歸!《三國殺:一將成名》閃閃節(jié)萌趣來襲

風(fēng)塵Game
2026-03-01 12:24:19
真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

火山詩話
2026-03-01 18:08:52
重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

每日經(jīng)濟(jì)新聞
2026-02-28 10:40:45
32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

離離言幾許
2026-02-28 18:06:09
女下屬眼中的易煉紅

女下屬眼中的易煉紅

新浪財(cái)經(jīng)
2026-03-01 21:05:43
世界首次五百強(qiáng)斷崖差:日本149家,美國151家,中國3家,現(xiàn)在呢

世界首次五百強(qiáng)斷崖差:日本149家,美國151家,中國3家,現(xiàn)在呢

紀(jì)中百大事
2026-03-01 12:24:25
今年,北京已無離職潮

今年,北京已無離職潮

微微熱評
2026-03-01 18:45:40
學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

環(huán)球網(wǎng)資訊
2026-02-28 21:46:30
鄧婕六十八歲離婚是終生的傷,繼子不爭氣,養(yǎng)女愈發(fā)像丈夫!

鄧婕六十八歲離婚是終生的傷,繼子不爭氣,養(yǎng)女愈發(fā)像丈夫!

一盅情懷
2026-03-01 17:51:08
高興太早,中國男籃大勝中國臺北隊(duì),卻收壞消息,打日本隊(duì)要小心

高興太早,中國男籃大勝中國臺北隊(duì),卻收壞消息,打日本隊(duì)要小心

宗介說體育
2026-03-01 18:19:54
2026-03-01 22:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16343文章數(shù) 514681關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

在以貼瓷磚的中國小伙:爆炸聲在頭頂響起 真的被嚇到

頭條要聞

在以貼瓷磚的中國小伙:爆炸聲在頭頂響起 真的被嚇到

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

親子
教育
本地
家居
時(shí)尚

親子要聞

寧愿挨一刀也不愿順產(chǎn)?宋玉希四胎道出想剖腹產(chǎn)的原因,太不值當(dāng)

教育要聞

中考數(shù)學(xué)復(fù)習(xí),中考數(shù)學(xué)重難點(diǎn)二次函數(shù),經(jīng)典壓軸題,難度大

本地新聞

津南好·四時(shí)總相宜

家居要聞

素色肌理 品意式格調(diào)

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

無障礙瀏覽 進(jìn)入關(guān)懷版