国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為CLI-Gym:環(huán)境交互類任務(wù)首個(gè)公開(kāi)的數(shù)據(jù)Scaling方案

0
分享至



「首個(gè)公開(kāi)的面向 Terminal-Bench 環(huán)境交互類任務(wù)的數(shù)據(jù)規(guī)模化生產(chǎn)管線正式發(fā)布!」

  • 開(kāi)源完整自動(dòng)化數(shù)據(jù)構(gòu)建算法
  • 構(gòu)建 1655 個(gè)高可靠 CLI 任務(wù)環(huán)境鏡像
  • 通過(guò) 291 條軌跡數(shù)據(jù)帶來(lái) 20% 解決率提升

在 Agentic Coding 領(lǐng)域,基于 SWE-bench 的數(shù)據(jù)管線研究已取得長(zhǎng)足進(jìn)展。過(guò)去一年中,業(yè)界涌現(xiàn)了大量相關(guān)工作,例如 SWE-Gym、SWE-Smith 和 R2E-Gym 等,極大推動(dòng)了以代碼生成為核心的 Agentic Coding 發(fā)展,也使得當(dāng)前最先進(jìn)的開(kāi)源模型與閉源模型之間的表現(xiàn)差距顯著縮小。然而,對(duì)于更廣泛的環(huán)境交互類問(wèn)題(如 Terminal-Bench 所涵蓋的任務(wù)),目前尚沒(méi)有公開(kāi)的高效和可規(guī)?;臄?shù)據(jù)生產(chǎn)方案,導(dǎo)致相關(guān)數(shù)據(jù)構(gòu)建困難重重,高度依賴人工參與,這已然成為制約該方向發(fā)展的瓶頸,也使得在相關(guān)任務(wù)上開(kāi)源模型的表現(xiàn)大幅落后于閉源模型。



因此 CLI-Gym 來(lái)了!我們首先嘗試用 Dockerfile 對(duì)環(huán)境進(jìn)行結(jié)構(gòu)化與可復(fù)現(xiàn)定義;進(jìn)一步,將數(shù)據(jù)生產(chǎn)管線本身重新建模為一種 Agentic Coding 任務(wù):在健康環(huán)境中驅(qū)動(dòng) Code Agent 執(zhí)行環(huán)境反演(即 “劣化” 操作),自動(dòng)生成問(wèn)題環(huán)境及其準(zhǔn)確的單元測(cè)試,從而實(shí)現(xiàn)問(wèn)題實(shí)例與驗(yàn)證工具的自動(dòng)化構(gòu)造。我們?cè)?29 個(gè)基礎(chǔ)鏡像上制造出 1655 個(gè)針對(duì) Terminal-Bench 實(shí)例并產(chǎn)出 291 條高質(zhì)量成功軌跡,我們的微調(diào)模型 LiberCoder 32B 和 235B 在 Terminal Bench 上分別實(shí)現(xiàn)了 + 28.6%(至 38.9%)和 + 21.1%(至 46.1%)的提升。

我們的管線創(chuàng)新性地以Codebase、Dockerfile 與 Base Image為核心抽象,完備地定義任意 CLI Coding 實(shí)體,使環(huán)境構(gòu)建、問(wèn)題生成與驗(yàn)證機(jī)制形成統(tǒng)一表達(dá)框架,具備良好的可組合性與通用性。我們希望這一范式能夠進(jìn)一步拓展至更多 Agentic Coding 場(chǎng)景,推動(dòng)更通用的數(shù)據(jù)生產(chǎn)算法與基準(zhǔn)構(gòu)建方法的發(fā)展。



論文、代碼和鏡像數(shù)據(jù)均會(huì)在如下鏈接放出:

  • 論文鏈接:https://arxiv.org/pdf/2602.10999
  • 開(kāi)源代碼:https://github.com/LiberCoders/CLI-Gym
  • 鏡像數(shù)據(jù):https://huggingface.co/datasets/LiberCoders/CLI-Gym

背景介紹

近年來(lái),Agentic Coding 正在快速改變軟件工程任務(wù)的解決方式,模型能力的邊界正在從 “寫代碼” 逐漸擴(kuò)展為 “解決真實(shí)軟件系統(tǒng)中的復(fù)雜問(wèn)題”。當(dāng)前的研究重點(diǎn)還停留在以 SWE-bench 為核心的的代碼層面的研究,而在現(xiàn)實(shí)的軟件工程和系統(tǒng)運(yùn)維場(chǎng)景中,大量問(wèn)題并非源于代碼本身,而是來(lái)自運(yùn)行環(huán)境,例如依賴版本沖突、環(huán)境變量錯(cuò)誤、權(quán)限配置問(wèn)題、系統(tǒng)庫(kù)損壞、網(wǎng)絡(luò)配置錯(cuò)誤等。這類問(wèn)題通常無(wú)法或很難通過(guò)修改代碼修復(fù),而必須依賴 agent 通過(guò)命令行理解系統(tǒng)狀態(tài),定位問(wèn)題來(lái)源,并執(zhí)行一系列系統(tǒng)級(jí)操作恢復(fù)環(huán)境運(yùn)行狀態(tài)。因此,對(duì) agent 的環(huán)境理解與干預(yù)能力的要求越來(lái)越高。

Terminal-Bench 的任務(wù)恰好契合這一需求。其基準(zhǔn)中包含大量以環(huán)境修復(fù)為核心目標(biāo)的任務(wù),對(duì) agent 在 CLI 環(huán)境下的交互、診斷與修復(fù)能力提出了更高要求。然而,從當(dāng)前官方 leaderboard 可以觀察到,高性能方案往往依賴圍繞強(qiáng)閉源模型構(gòu)建的復(fù)雜 agent 框架,通過(guò)大量提示工程與多輪反思機(jī)制來(lái)彌補(bǔ)模型在環(huán)境理解與問(wèn)題定位方面的能力不足。相比之下,圍繞開(kāi)源模型如何通過(guò)系統(tǒng)性訓(xùn)練提升其環(huán)境修復(fù)能力的研究仍然相當(dāng)有限。

其根本瓶頸在于:環(huán)境密集型任務(wù)難以規(guī)?;伞4a類問(wèn)題可以通過(guò)挖掘倉(cāng)庫(kù)歷史與 pull request 自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù),但環(huán)境狀態(tài)通常缺乏可追溯的演化記錄,難以進(jìn)行自動(dòng)化重建與標(biāo)注。這使得環(huán)境任務(wù)的數(shù)據(jù)長(zhǎng)期依賴人工構(gòu)造,規(guī)模難以擴(kuò)展,也限制了模型在該方向上的持續(xù)訓(xùn)練與能力提升。



CLI-Gym 正是在這一背景下提出,旨在通過(guò)自動(dòng)化機(jī)制突破環(huán)境依賴型任務(wù)數(shù)據(jù)難以規(guī)模化的問(wèn)題,為 agent 能力訓(xùn)練提供可持續(xù)的數(shù)據(jù)來(lái)源。我們創(chuàng)新性地將數(shù)據(jù)生產(chǎn)管線本身重新建模為一種 Agentic Coding 任務(wù):在健康環(huán)境中驅(qū)動(dòng) Code Agent 執(zhí)行環(huán)境反演(即 “劣化” 操作),自動(dòng)生成問(wèn)題環(huán)境及其精確的單元測(cè)試,從而實(shí)現(xiàn)問(wèn)題實(shí)例與驗(yàn)證機(jī)制的自動(dòng)化構(gòu)建。



如上表所示,該建模思路具有良好的通用性,不僅適用于環(huán)境依賴型任務(wù)的構(gòu)造,也在統(tǒng)一框架下涵蓋了此前 SWE 系列方法的核心范式,實(shí)現(xiàn)了方法論層面的整合與擴(kuò)展。

Pipeline:通過(guò)環(huán)境反演自動(dòng)生成故障任務(wù)

CLI-Gym 的核心思想非常巧妙,通過(guò)模擬環(huán)境歷史自動(dòng)生成故障場(chǎng)景。與傳統(tǒng)方法相反,我們不是從零構(gòu)建受損環(huán)境,而是驅(qū)動(dòng)一個(gè) “破壞者” agent 主動(dòng)篡改健康環(huán)境,制造多樣化故障,再將其轉(zhuǎn)化為可修復(fù)的任務(wù)實(shí)例。



CLI-Gym 的核心思想在于重新思考任務(wù)生成方式:既然真實(shí)環(huán)境問(wèn)題通常源于環(huán)境狀態(tài)的錯(cuò)誤,那么我們不再?gòu)牧闳斯?gòu)造損壞環(huán)境,而是從健康環(huán)境出發(fā),自動(dòng)模擬環(huán)境如何被破壞,從而反向構(gòu)造出可修復(fù)任務(wù)。這一思想被稱為 “環(huán)境反演”,即通過(guò) agent 將一個(gè)原本正常運(yùn)行的環(huán)境主動(dòng)破壞,使其回退到包含運(yùn)行錯(cuò)誤的狀態(tài),再將這一退化過(guò)程轉(zhuǎn)換為 agent 需要修復(fù)的問(wèn)題實(shí)例。在具體流程中,系統(tǒng)首先從真實(shí)開(kāi)源倉(cāng)庫(kù)中構(gòu)建包含健康環(huán)境的 Docker 鏡像,該環(huán)境能夠成功運(yùn)行并通過(guò)全部單元測(cè)試,作為后續(xù)任務(wù)生成的起點(diǎn)。隨后系統(tǒng)自動(dòng)從 Unit Tests 中抽取目標(biāo) UT,通過(guò)語(yǔ)言模型生成誘導(dǎo) agent 執(zhí)行環(huán)境破壞的指令,例如刪除關(guān)鍵依賴、篡改配置文件、破壞系統(tǒng)庫(kù)、修改路徑或權(quán)限等,agent 在執(zhí)行過(guò)程中不斷改變環(huán)境狀態(tài),使得部分測(cè)試失敗,從而模擬真實(shí)系統(tǒng)退化或配置錯(cuò)誤產(chǎn)生的歷史過(guò)程。

當(dāng)環(huán)境中出現(xiàn)失敗測(cè)試后,系統(tǒng)根據(jù)失敗日志、執(zhí)行軌跡以及環(huán)境變更自動(dòng)生成問(wèn)題描述與修復(fù)目標(biāo),從而形成完整 CLI 任務(wù)實(shí)例,agent 的目標(biāo)是通過(guò)命令行操作恢復(fù)環(huán)境,使失敗測(cè)試重新通過(guò)。整個(gè)流程無(wú)需人工參與,從健康環(huán)境生成故障環(huán)境,再?gòu)墓收檄h(huán)境構(gòu)造修復(fù)任務(wù),實(shí)現(xiàn)了環(huán)境問(wèn)題的自動(dòng)規(guī)模化生成。這一過(guò)程不僅能夠模擬真實(shí)系統(tǒng)問(wèn)題的產(chǎn)生方式,同時(shí)由于每次破壞路徑不同,也帶來(lái)了豐富多樣的任務(wù)類型,使得生成任務(wù)覆蓋軟件工程、系統(tǒng)管理、安全調(diào)試等多個(gè)場(chǎng)景,顯著提升訓(xùn)練數(shù)據(jù)的多樣性與真實(shí)性。

產(chǎn)出:規(guī)?;c高質(zhì)量的數(shù)據(jù)



基于這一自動(dòng)化 pipeline,CLI-Gym 在 29 個(gè)真實(shí)開(kāi)源倉(cāng)庫(kù)中生成了 1,655 個(gè)環(huán)境密集型 CLI 任務(wù)實(shí)例,規(guī)模遠(yuǎn)超 Terminal-Bench 的人工構(gòu)造數(shù)據(jù),同時(shí)任務(wù)類型覆蓋多個(gè)應(yīng)用領(lǐng)域,展現(xiàn)出極強(qiáng)的可擴(kuò)展性。與現(xiàn)有 benchmark 相比,這些任務(wù)具有更高復(fù)雜度,每個(gè)任務(wù)平均包含超過(guò) 20 個(gè)失敗測(cè)試,為 agent 提供更豐富的診斷信號(hào)和修復(fù)反饋,使模型必須真正理解系統(tǒng)狀態(tài)并執(zhí)行多步操作才能完成修復(fù),而不是通過(guò)簡(jiǎn)單代碼修改或投機(jī)策略通過(guò)測(cè)試。此外,該流程完全自動(dòng)化運(yùn)行,僅消耗計(jì)算資源而無(wú)需人工標(biāo)注,相比依賴大量工程師構(gòu)造任務(wù)的傳統(tǒng)方式大幅降低成本,使環(huán)境任務(wù)數(shù)據(jù)能夠持續(xù)擴(kuò)展。

在軌跡數(shù)據(jù)收集階段,系統(tǒng)通過(guò)強(qiáng)模型運(yùn)行這些自動(dòng)生成任務(wù),收集成功修復(fù)軌跡,并通過(guò)嚴(yán)格過(guò)濾機(jī)制排除過(guò)于簡(jiǎn)單或存在作弊路徑的軌跡,僅保留真正體現(xiàn)復(fù)雜環(huán)境修復(fù)過(guò)程的數(shù)據(jù),最終獲得數(shù)百條高質(zhì)量 agent 行為軌跡,用于后續(xù)模型訓(xùn)練。這些軌跡展示了豐富的修復(fù)策略,包括依賴恢復(fù)、系統(tǒng)配置調(diào)試、權(quán)限問(wèn)題處理與環(huán)境組件修復(fù)等,為模型學(xué)習(xí)真實(shí)環(huán)境問(wèn)題解決模式提供了寶貴監(jiān)督信號(hào)。

實(shí)戰(zhàn)效果:顯著提升環(huán)境問(wèn)題解決能力





基于 CLI-Gym 生成的數(shù)據(jù)對(duì) Qwen3 系列模型進(jìn)行微調(diào)后,得到 LiberCoder 系列模型,在 Terminal-Bench 上取得顯著性能提升。LiberCoder-32B 在 Terminal-Bench 1.0 上的 Pass@1 達(dá)到 38.9%,相比基礎(chǔ)模型實(shí)現(xiàn)大幅提升,而規(guī)模更大的 LiberCoder-235B-A22B 達(dá)到 46.1%,超過(guò)大多數(shù)開(kāi)源模型,并接近部分閉源模型性能。進(jìn)一步分析發(fā)現(xiàn),微調(diào)后的模型在環(huán)境問(wèn)題處理能力上發(fā)生明顯變化,模型不再頻繁失敗于編輯錯(cuò)誤或問(wèn)題定位,而更多受到上下文長(zhǎng)度與執(zhí)行時(shí)間等外部因素限制,說(shuō)明其核心環(huán)境修復(fù)能力已經(jīng)顯著增強(qiáng)。同時(shí)在多個(gè)任務(wù)類別中均觀察到一致提升,包括軟件工程、系統(tǒng)管理、安全修復(fù)與調(diào)試任務(wù),說(shuō)明 CLI-Gym 數(shù)據(jù)并非針對(duì)單一場(chǎng)景優(yōu)化,而是全面增強(qiáng)了模型在環(huán)境交互任務(wù)中的泛化能力。





結(jié)語(yǔ)

CLI-Gym 是第一種用于擴(kuò)展 CLI 代理編碼任務(wù)訓(xùn)練環(huán)境的公開(kāi)方法。使用 Dockerfile 來(lái)表示每個(gè)環(huán)境,以進(jìn)行精確的配置和版本控制,并使用 agent 來(lái)模擬環(huán)境歷史。整理了 1655 個(gè)任務(wù)實(shí)例,收集了 291 個(gè)成功的軌跡。實(shí)驗(yàn)表明,對(duì)我們的數(shù)據(jù)進(jìn)行微調(diào)可以大大增強(qiáng)以環(huán)境為中心的代理編碼,從而在開(kāi)源模型中在 Terminal Bench 上實(shí)現(xiàn)頂級(jí)性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇翊鳴谷愛(ài)凌參加表彰大會(huì)彼此不熟,都挺疲憊,快睡著了眼皮耷拉

蘇翊鳴谷愛(ài)凌參加表彰大會(huì)彼此不熟,都挺疲憊,快睡著了眼皮耷拉

樂(lè)悠悠娛樂(lè)
2026-03-01 10:23:24
“反詐老陳”賬號(hào)被封,本人回應(yīng):?jiǎn)栃臒o(wú)愧!MCN機(jī)構(gòu):即刻解除所有合約,雙方合作立即終止

“反詐老陳”賬號(hào)被封,本人回應(yīng):?jiǎn)栃臒o(wú)愧!MCN機(jī)構(gòu):即刻解除所有合約,雙方合作立即終止

都市快報(bào)橙柿互動(dòng)
2026-03-01 07:15:47
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒(méi)到慶祝的時(shí)候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒(méi)到慶祝的時(shí)候

小蘿卜絲
2026-03-01 09:56:11
伊朗總統(tǒng)等將領(lǐng)導(dǎo)國(guó)家,為何其不單獨(dú)接掌?委內(nèi)瑞拉模式會(huì)再現(xiàn)么

伊朗總統(tǒng)等將領(lǐng)導(dǎo)國(guó)家,為何其不單獨(dú)接掌?委內(nèi)瑞拉模式會(huì)再現(xiàn)么

聞號(hào)說(shuō)經(jīng)濟(jì)
2026-03-01 12:08:37
人物|伊朗最高領(lǐng)袖哈梅內(nèi)伊確認(rèn)殉職:活在暗殺陰影中,后半生視死如歸

人物|伊朗最高領(lǐng)袖哈梅內(nèi)伊確認(rèn)殉職:活在暗殺陰影中,后半生視死如歸

上觀新聞
2026-03-01 12:57:06
迪拜國(guó)際機(jī)場(chǎng)遭襲

迪拜國(guó)際機(jī)場(chǎng)遭襲

財(cái)聯(lián)社
2026-03-01 05:34:14
哈梅內(nèi)伊四位親屬據(jù)稱在襲擊中身亡

哈梅內(nèi)伊四位親屬據(jù)稱在襲擊中身亡

每日經(jīng)濟(jì)新聞
2026-03-01 09:29:42
再年輕也沒(méi)用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

再年輕也沒(méi)用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

青梅侃史啊
2026-02-27 23:44:02
不宣而戰(zhàn)!美以精準(zhǔn)斬首,哈梅內(nèi)伊身亡,伊朗進(jìn)入權(quán)力真空

不宣而戰(zhàn)!美以精準(zhǔn)斬首,哈梅內(nèi)伊身亡,伊朗進(jìn)入權(quán)力真空

林子說(shuō)事
2026-03-01 10:55:50
中東航班深夜返航 有旅客中途暴哭:安全最重要

中東航班深夜返航 有旅客中途暴哭:安全最重要

看看新聞Knews
2026-03-01 10:35:03
美以對(duì)伊朗斬首轟炸得逞 “反常規(guī)”白天空襲是成功關(guān)鍵

美以對(duì)伊朗斬首轟炸得逞 “反常規(guī)”白天空襲是成功關(guān)鍵

洪超飛軍事
2026-03-01 11:47:26
伊朗發(fā)動(dòng)大規(guī)模襲擊:已襲擊27個(gè)美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

伊朗發(fā)動(dòng)大規(guī)模襲擊:已襲擊27個(gè)美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

極目新聞
2026-03-01 13:09:32
伊朗,現(xiàn)代人類文明的傷疤

伊朗,現(xiàn)代人類文明的傷疤

科海識(shí)貝sci
2026-01-15 16:44:32
特朗普稱他心中已有可執(zhí)掌伊朗政權(quán)的“合適人選”

特朗普稱他心中已有可執(zhí)掌伊朗政權(quán)的“合適人選”

臺(tái)州交通廣播
2026-03-01 10:54:31
17天14跌!開(kāi)普云暴跌54%,重組告吹股民深套

17天14跌!開(kāi)普云暴跌54%,重組告吹股民深套

財(cái)經(jīng)智多星
2026-03-01 11:15:50
河南洛陽(yáng)一女子過(guò)年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

河南洛陽(yáng)一女子過(guò)年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
伊朗確認(rèn)哈梅內(nèi)伊遇害,有指定的接班人嗎?對(duì)伊朗局勢(shì)有何影響?

伊朗確認(rèn)哈梅內(nèi)伊遇害,有指定的接班人嗎?對(duì)伊朗局勢(shì)有何影響?

之乎者也小魚(yú)兒
2026-03-01 10:28:33
伊朗伊斯蘭革命衛(wèi)隊(duì)就哈梅內(nèi)伊殉職發(fā)表聲明

伊朗伊斯蘭革命衛(wèi)隊(duì)就哈梅內(nèi)伊殉職發(fā)表聲明

界面新聞
2026-03-01 10:29:40
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
倒計(jì)時(shí)107天!伊朗國(guó)難當(dāng)頭威脅退出世界杯 FIFA緊急發(fā)聲

倒計(jì)時(shí)107天!伊朗國(guó)難當(dāng)頭威脅退出世界杯 FIFA緊急發(fā)聲

葉青足球世界
2026-03-01 10:21:26
2026-03-01 13:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂(lè)部

頭條要聞

哈梅內(nèi)伊生前已安排好"后事" 總統(tǒng)佩澤希齊揚(yáng)被邊緣化

頭條要聞

哈梅內(nèi)伊生前已安排好"后事" 總統(tǒng)佩澤希齊揚(yáng)被邊緣化

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
房產(chǎn)
本地
家居

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級(jí)又耐看

藝術(shù)要聞

2025第四屆“精神·圖式”——中國(guó)寫意油畫雙年展 | 入選油畫選刊

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

本地新聞

津南好·四時(shí)總相宜

家居要聞

素色肌理 品意式格調(diào)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版