国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)跳動(dòng)Seed發(fā)布NL2Repo-Bench倉(cāng)庫(kù)級(jí)長(zhǎng)程代碼生成基準(zhǔn)

0
分享至



在 AI 編程領(lǐng)域,大家似乎正處于一個(gè)認(rèn)知錯(cuò)覺的頂點(diǎn):隨著 Coding Agents 獨(dú)立完成任務(wù)的難度和范圍逐漸增加,Coding 領(lǐng)域的 AGI 似乎就可以實(shí)現(xiàn)?

然而,真正的工程師都知道,寫代碼的靈魂不在于file/function level的 code creation,而是 project level 的 code completion。寫了很長(zhǎng)時(shí)間的代碼,不代表項(xiàng)目做完,更不代表項(xiàng)目做好了。

一個(gè)完整的項(xiàng)目開發(fā)要求開發(fā)者從一個(gè)空文件夾開始,理解上萬(wàn) token 的需求,設(shè)計(jì)架構(gòu)、管理多模態(tài)邏輯,并產(chǎn)出可安裝、可運(yùn)行的代碼倉(cāng)庫(kù)。然而現(xiàn)有代碼評(píng)測(cè)基準(zhǔn)主要集中在局部代碼生成(如 HumanEval、MBPP)或在已有代碼庫(kù)上進(jìn)行修復(fù)(如 SWE-bench)。

近日,首個(gè)專門評(píng)估編碼智能體端到端倉(cāng)庫(kù)生成能力的基準(zhǔn)測(cè)試 ——NL2Repo-Bench 正式發(fā)布。它由字節(jié)跳動(dòng) Seed、南京大學(xué)、北京大學(xué)等多家機(jī)構(gòu)的研究者聯(lián)合打造,發(fā)布后受到廣泛關(guān)注。



  • 論文標(biāo)題:NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
  • 論文主頁(yè):https://huggingface.co/papers/2512.12730
  • 項(xiàng)目鏈接:https://github.com/multimodal-art-projection/NL2RepoBench
  • ArXiv 論文:https://arxiv.org/pdf/2512.12730

Show me your Repo,

NL2Repo 如何考察 Coding Agent 從 0 到 1 工作能力?

在 OpenAI 對(duì)通用人工智能(AGI)的定義中,AGI 需要在大多數(shù)具有經(jīng)濟(jì)價(jià)值的任務(wù)上達(dá)到或超過人類表現(xiàn)。在軟件工程領(lǐng)域,這種愿景意味著開發(fā)方式的顛覆式變化:人類只需提供需求,Coding Agent 即可獨(dú)立完成開發(fā)、調(diào)試、部署等全部環(huán)節(jié),人類不再需要直接寫代碼。

與以往依賴 LLM 評(píng)分或?qū)σ延写a倉(cāng)庫(kù)進(jìn)行修改的基準(zhǔn)不同,NL2Repo-Bench 的設(shè)計(jì)亮點(diǎn)在于從 “人類不再需要直接寫代碼 " 的終極愿景出發(fā),設(shè)計(jì)了極其嚴(yán)格的 “零代碼執(zhí)行評(píng)估” 機(jī)制。該基準(zhǔn)要求智能體面對(duì)完全真空的初始工作空間,僅通過平均長(zhǎng)度超 1.8 萬(wàn) token 的長(zhǎng)篇需求說明,自主進(jìn)行需求理解、開發(fā)、測(cè)試、多文件協(xié)同管理等全鏈路工作。

簡(jiǎn)單來(lái)說,NL2Repo 團(tuán)隊(duì)從 GitHub 挑選了 104 個(gè)擁有完備 pytest 測(cè)試用例的 Python 開源項(xiàng)目。實(shí)驗(yàn)過程中,不同的 Coding Agent 需要根據(jù)專家構(gòu)建的高質(zhì)量需求文檔,從零復(fù)現(xiàn)整個(gè)倉(cāng)庫(kù),并以項(xiàng)目原有的測(cè)試用例作為基準(zhǔn)來(lái)評(píng)估復(fù)現(xiàn)效果。

NL2Repo-Bench 是如何構(gòu)建評(píng)測(cè)的?

首先是任務(wù)選取。

構(gòu)建 NL2Repo-Bench 這一基準(zhǔn)評(píng)測(cè)數(shù)據(jù)集的首要挑戰(zhàn)在于,如何從海量的 GitHub 開源倉(cāng)庫(kù)中萃取出具備高技術(shù)含量且可驗(yàn)證的黃金樣本。

為了利用可驗(yàn)證的真值(Ground Truth)評(píng)估倉(cāng)庫(kù)級(jí)代碼生成能力,NL2Repo-Bench 從具有模塊化架構(gòu)和權(quán)威 pytest 測(cè)試套件的真實(shí) Python 庫(kù)中提取任務(wù)。Coding Agent 僅接收單一的自然語(yǔ)言規(guī)范,必須從零開始重建完整的倉(cāng)庫(kù),包括文件結(jié)構(gòu)和功能邏輯。正確性嚴(yán)格通過在原始上游測(cè)試套件中運(yùn)行生成的代碼來(lái)衡量。

為了確保評(píng)測(cè)數(shù)據(jù)的現(xiàn)實(shí)意義與技術(shù)深度,團(tuán)隊(duì)在篩選流程設(shè)定了多維度的準(zhǔn)入門檻:

  1. 活躍度:近 3 年內(nèi)有至少一次更新。

  2. 權(quán)威性:Github 星數(shù)至少為 10。

  3. 完整性:包含清晰的目錄結(jié)構(gòu)、完整測(cè)試用例(pytest/unittest)。且源代碼倉(cāng)能夠通過其自帶的測(cè)試用例。

  4. 高難度:代碼總行數(shù)需在 300 行以上(絕大部分任務(wù)超過 1000 行,部分任務(wù)過萬(wàn)行)。

  5. 代表性:覆蓋工具類(如數(shù)據(jù)清洗庫(kù))、框架類(如輕量級(jí) Web 框架)、算法類(如圖像處理庫(kù))等多個(gè)不同類型的 python library。

選擇 Python Library 級(jí)別的倉(cāng)庫(kù)作為目標(biāo),正是因?yàn)槠溟_源屬性與規(guī)范化程度完美契合了這一驗(yàn)證機(jī)制,帶有完備的測(cè)試用例等特征,為評(píng)估大模型在倉(cāng)庫(kù)級(jí)代碼生成上的真實(shí)表現(xiàn)提供了科學(xué)的實(shí)驗(yàn)場(chǎng)。



評(píng)測(cè)構(gòu)建流程圖

任務(wù)覆蓋方面,NL2RepoBench 包含 104 個(gè)真實(shí) Python 倉(cāng)庫(kù)級(jí)任務(wù),涵蓋工具類、框架類、算法類等多個(gè)主流 Python 庫(kù)類別,嚴(yán)格考察 Agent 從自然語(yǔ)言文檔出發(fā)獨(dú)立開發(fā)可直接運(yùn)行、可部署的軟件倉(cāng)庫(kù)能力。

如何消除 Coding Agent 評(píng)估過程中的隨機(jī)性?

需求文檔 + 評(píng)測(cè)環(huán)境 + 全流程 QC

在保障 NL2Repo-Bench 任務(wù)文檔質(zhì)量的過程中,構(gòu)建團(tuán)隊(duì)確立了一套嚴(yán)密的自動(dòng)化工具與人工深度參與相結(jié)合的驗(yàn)證體系。



NL2Repo 任務(wù)文檔示例

1. 為了精準(zhǔn)鎖定倉(cāng)庫(kù)的核心功能節(jié)點(diǎn),技術(shù)團(tuán)隊(duì)首先利用靜態(tài)掃描工具對(duì)源代碼進(jìn)行拓?fù)浞治?,提取出支撐?xiàng)目運(yùn)行的關(guān)鍵架構(gòu)信息。

2. 在此基礎(chǔ)上,任務(wù)文檔的編寫追求極高的嚴(yán)謹(jǐn)性與全面性,通過 “人工專家 + AI 工具” 的雙重校驗(yàn)機(jī)制,確保每一個(gè)核心功能節(jié)點(diǎn)在需求描述中均無(wú)遺漏,為模型的代碼生成提供準(zhǔn)確的指引。

3. 評(píng)測(cè)環(huán)境的穩(wěn)定性是確保結(jié)果可重復(fù)性的基石。為此,團(tuán)隊(duì)對(duì)任務(wù)相關(guān)的鏡像環(huán)境進(jìn)行了精細(xì)化配置,通過最小化非功能性依賴,消除了由于環(huán)境波動(dòng)帶來(lái)的干擾項(xiàng)。

每一項(xiàng)任務(wù)從初步草擬到最終收入評(píng)測(cè)集,都必須強(qiáng)制通過人工文檔審核、靜態(tài)工具檢測(cè)、鏡像環(huán)境驗(yàn)證以及預(yù)實(shí)驗(yàn)驗(yàn)證這四個(gè)階段。這種全生命周期的質(zhì)量控制閉環(huán),有效排除了低質(zhì)量任務(wù)對(duì)基準(zhǔn)測(cè)試信度的影響,確保了 NL2Repo-Bench 能夠真實(shí)反映 Coding Agent 在復(fù)雜工程場(chǎng)景下的核心競(jìng)爭(zhēng)力。

Repo 一梭出,

一線 Coding Agent 實(shí)際表現(xiàn)如何?

NL2Repo-Bench 團(tuán)隊(duì)首次完整測(cè)試了當(dāng)前最強(qiáng)的 Coding Agent,結(jié)果顯示即便是表現(xiàn)最佳的 Claude4.5,整體通過率仍低于 40%,多數(shù)模型的整體表現(xiàn)僅在 20% 左右。

  • 任務(wù)難度上升,模型表現(xiàn)快速下降:真實(shí)復(fù)雜項(xiàng)目開發(fā)難度有效體現(xiàn)。
  • Claude 家族遙遙領(lǐng)先,GPT5 意外掉隊(duì):交互策略的缺陷明顯拖累了 GPT5 表現(xiàn)。



NL2Repo-Bench 團(tuán)隊(duì)進(jìn)一步分析了模型調(diào)用工具的偏好與開發(fā)策略,發(fā)現(xiàn)以下典型問題:

  • 早停(Early-Stop):部分模型缺乏長(zhǎng)程規(guī)劃,過早終止開發(fā);
  • 未終止(Non-Finish):模型頻繁陷入等待用戶指令的狀態(tài),開發(fā)未完成;
  • 盲目編輯與導(dǎo)航陷阱:部分 Agent 缺乏系統(tǒng)性規(guī)劃,浪費(fèi)大量輪次在無(wú)意義操作。




消融實(shí)驗(yàn) 1:輪次數(shù)對(duì)模型表現(xiàn)的影響

NL2Repo-Bench 團(tuán)隊(duì)發(fā)現(xiàn),交互輪次增加到 200 次左右可顯著提高模型表現(xiàn)。此外,即便在 “開卷考試”(提供測(cè)試用例)的條件下,模型也難以突破 60 分,足見真實(shí)倉(cāng)庫(kù)級(jí)開發(fā)任務(wù)難度之高。



claude4.5 得分變化趨勢(shì)圖

消融實(shí)驗(yàn) 2:泄露測(cè)試用例對(duì)模型表現(xiàn)的影響

主實(shí)驗(yàn)中,CodingAgent 除了任務(wù)文檔和指令外沒有任何輸入內(nèi)容。 為了判斷測(cè)試用例能否對(duì)模型的開發(fā)工作實(shí)現(xiàn)有效輔助,NL2Repo-Bench 團(tuán)隊(duì)選取 Claude4.5+ClaudeCode,在執(zhí)行任務(wù)的 workspace 中注入了測(cè)試階段的所有測(cè)試文件。



實(shí)驗(yàn)結(jié)果:生成階段提供測(cè)試用例后,模型在各個(gè)難度任務(wù)的表現(xiàn)都有了明顯的提升,但總體得分仍然偏低(59.4,低于 60 分) 。這一結(jié)果一方面表明提供測(cè)試用例的情況確實(shí)能夠?qū)崿F(xiàn)對(duì)模型開發(fā)的輔助,另一方面,依然較低的 all-pass rate 也表明了當(dāng)前的 coding-agent 即使是在 “開卷考試” 的情況下也依然較難實(shí)現(xiàn)完整倉(cāng)庫(kù)的長(zhǎng)程開發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大家不知道的是,媽祖乩童的真實(shí)待遇,不只是榮耀這么簡(jiǎn)單

大家不知道的是,媽祖乩童的真實(shí)待遇,不只是榮耀這么簡(jiǎn)單

刺頭體育
2026-02-25 11:38:17
果然不簡(jiǎn)單:中國(guó)摁住日本后,又讓美國(guó)見識(shí)了北京的“陽(yáng)謀”

果然不簡(jiǎn)單:中國(guó)摁住日本后,又讓美國(guó)見識(shí)了北京的“陽(yáng)謀”

花小貓的美食日常
2026-02-26 06:51:35
朝鮮勞動(dòng)黨九大閉幕

朝鮮勞動(dòng)黨九大閉幕

國(guó)際在線
2026-02-26 07:06:07
美貿(mào)易代表:美對(duì)部分國(guó)家加征的“全球進(jìn)口關(guān)稅”稅率或達(dá)15%

美貿(mào)易代表:美對(duì)部分國(guó)家加征的“全球進(jìn)口關(guān)稅”稅率或達(dá)15%

每日經(jīng)濟(jì)新聞
2026-02-26 00:36:32
《鏢人》海外大爆,登頂多國(guó)冠軍,總票房破9億

《鏢人》海外大爆,登頂多國(guó)冠軍,總票房破9億

影視高原說
2026-02-25 16:50:47
1942年潛伏在日偽心臟的中共特工送來(lái)手繪圖,粟裕:槍斃電報(bào)科長(zhǎng)

1942年潛伏在日偽心臟的中共特工送來(lái)手繪圖,粟裕:槍斃電報(bào)科長(zhǎng)

讓時(shí)間說真話
2024-05-13 22:06:58
汪小菲徹底變了!三胎兒子出生,岳父一句話太真實(shí)

汪小菲徹底變了!三胎兒子出生,岳父一句話太真實(shí)

情感大頭說說
2026-02-26 07:22:07
同一位造型師,給陳飛宇陳曉任嘉倫做的古裝,腰部設(shè)計(jì)差出一條街

同一位造型師,給陳飛宇陳曉任嘉倫做的古裝,腰部設(shè)計(jì)差出一條街

冒泡泡的魚兒
2026-02-25 17:37:20
74歲陳凱歌在三亞豪宅過年,穿5萬(wàn)元皮鞋戴大金表,臉上有老年斑

74歲陳凱歌在三亞豪宅過年,穿5萬(wàn)元皮鞋戴大金表,臉上有老年斑

離離言幾許
2026-02-25 16:07:01
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

她時(shí)尚丫
2026-02-17 22:41:30
紫牛頭條 | 全家出游老人服務(wù)區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

紫牛頭條 | 全家出游老人服務(wù)區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

揚(yáng)子晚報(bào)
2026-02-24 23:56:16
彭博社消息,Unity考慮出售中國(guó)業(yè)務(wù),估值或超10億美元

彭博社消息,Unity考慮出售中國(guó)業(yè)務(wù),估值或超10億美元

游戲干線
2026-02-25 22:04:54
10億換一命!京東副總裁蔡磊對(duì)抗?jié)u凍癥4年后,終于贏得一線生機(jī)

10億換一命!京東副總裁蔡磊對(duì)抗?jié)u凍癥4年后,終于贏得一線生機(jī)

小莜讀史
2026-02-02 18:27:35
“天下誰(shuí)人不貪污,你殺得完嗎?”朱元璋回答了8個(gè)字,流傳至今

“天下誰(shuí)人不貪污,你殺得完嗎?”朱元璋回答了8個(gè)字,流傳至今

千秋文化
2026-02-21 19:39:28
厄爾尼諾回歸,我國(guó)氣候大轉(zhuǎn)折,今年夏天或有大變化

厄爾尼諾回歸,我國(guó)氣候大轉(zhuǎn)折,今年夏天或有大變化

老特有話說
2026-02-24 23:26:27
平頂山事件二次通報(bào)!真相竟是先打其他3人再暴打15歲女生!

平頂山事件二次通報(bào)!真相竟是先打其他3人再暴打15歲女生!

魔都囡
2026-02-25 10:57:52
8歲高考760分,智商230超過愛因斯坦,神童陶哲軒如今怎么樣了?

8歲高考760分,智商230超過愛因斯坦,神童陶哲軒如今怎么樣了?

戶外阿毽
2026-02-26 06:16:12
直問"璃龍": 你倆到底是什么關(guān)系

直問"璃龍": 你倆到底是什么關(guān)系

徐靜波靜說日本
2026-02-26 09:08:15
譚詠麟32歲兒子近照曝光,眉宇英氣如母親,加拿大任工程師

譚詠麟32歲兒子近照曝光,眉宇英氣如母親,加拿大任工程師

心靈得以滋養(yǎng)
2025-12-30 20:01:32
面對(duì)中方索賠,巴總統(tǒng)改口,李嘉誠(chéng)因禍得福,或能保住43個(gè)港口

面對(duì)中方索賠,巴總統(tǒng)改口,李嘉誠(chéng)因禍得福,或能保住43個(gè)港口

透視到底
2026-02-12 07:15:10
2026-02-26 09:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12362文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方對(duì)日方出口管制措施落地后 高市早苗表態(tài)了

頭條要聞

中方對(duì)日方出口管制措施落地后 高市早苗表態(tài)了

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變!有人投百萬(wàn)賠得精光

汽車要聞

750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
本地
公開課

藝術(shù)要聞

一幅眼花繚亂草書:從書法創(chuàng)作到青少年書法教育的思考

家居要聞

藝居辦公 溫度與效率

旅游要聞

市花開了!主題公園今年有望啟動(dòng)

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版