国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別Docker:北大開源「迷你沙盒」,無容器也能訓(xùn)練SWE Agent

0
分享至



本工作來自北京大學(xué)王選所趙東巖、張輝帥老師團(tuán)隊(duì),第一作者為北京大學(xué)前沿交叉學(xué)院三年級碩士袁旦龍。

AI 編程這么火,想訓(xùn)練個(gè) SWE Agent 卻沒有資源怎么辦?

最近,軟件工程智能體(后統(tǒng)稱 SWE Agent)由于其清晰的落地場景和巨大的應(yīng)用價(jià)值受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

然而,當(dāng)上手訓(xùn)練 SWE Agent 時(shí),卻發(fā)現(xiàn)事情并不簡單。當(dāng)前 SWE Agent 的訓(xùn)練都是通過容器(Docker 或 Podman)來實(shí)現(xiàn)運(yùn)行環(huán)境的隔離和復(fù)現(xiàn)。但是,容器的高昂開銷卻把很多從業(yè)者拒之門外。

那么能不能做一個(gè)不依賴容器的低成本框架,讓資源不多的從業(yè)者也能訓(xùn)練自己的 SWE Agent 呢?SWE-MiniSandbox 正是在這樣的初衷下開源了~



  • 論文標(biāo)題:SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents
  • 論文鏈接:https://arxiv.org/abs/2602.11210
  • 代碼鏈接:https://github.com/lblankl/SWE-MiniSandbox
  • 文檔鏈接:https://lblankl.github.io/SWE-MiniSandbox/
  • 鏡像鏈接:https://hub.docker.com/repository/docker/lblankl/swe-minisandbox/general
  • 訓(xùn)練曲線 Demo 鏈接:https://wandb.ai/open_source_blank/SWE-MiniSandbox

SWE-MiniSandbox 是一個(gè)無需容器(Container-Free)的軟件工程沙盒環(huán)境。其目標(biāo)是解決當(dāng)前 SWE Agent 訓(xùn)練中依賴容器的痛點(diǎn):需要構(gòu)建和維護(hù)大量的容器鏡像,并運(yùn)行高性能的容器服務(wù)器集群,導(dǎo)致了高昂基礎(chǔ)設(shè)施和運(yùn)維成本。因此,當(dāng)擴(kuò)展批量規(guī)?;蛱岣?rollout 數(shù)量時(shí),容器服務(wù)器承載量成為主要性能瓶頸,造成計(jì)算資源受限情況下訓(xùn)練無法擴(kuò)展,而缺乏容器管理權(quán)限或沒有專用編排基礎(chǔ)設(shè)施的從業(yè)人員則無法訓(xùn)練自己的 Agent。

與容器環(huán)境相對,SWE-MiniSandbox 在實(shí)現(xiàn)進(jìn)程和文件系統(tǒng)隔離的過程中繞過了對容器或重型鏡像的依賴,通過按實(shí)例劃分的掛載命名空間(mount namespaces)和基于 chroot 的文件系統(tǒng)隔離機(jī)制,為每個(gè)實(shí)例創(chuàng)建隔離的終端會話和私有目錄。

在此基礎(chǔ)上,SWE-MiniSandbox 實(shí)現(xiàn)了一套環(huán)境預(yù)緩存流水線:構(gòu)建基于輕量級 Python conda+venv 的混合環(huán)境,安裝特定任務(wù)的依賴項(xiàng),并在不同運(yùn)行間復(fù)用壓縮的緩存產(chǎn)物。通過將環(huán)境和代碼倉庫打包成緩存,利用基于 Ray 的資源控制和信號量來限制并發(fā)解壓,從而實(shí)現(xiàn) I/O 的精細(xì)管理。

通過直接與現(xiàn)有核心 SWE 工具集成 ——SWE-Rex(終端管理)、SWE-agent(任務(wù)求解)和 SkyRL(可擴(kuò)展的多節(jié)點(diǎn) RL),SWE-MiniSandbox 成為了 SWE Agent 任務(wù)中容器后端的一個(gè)無縫、即插即用的替代品。

在實(shí)際效果上,SWE-MiniSandbox 使環(huán)境緩存大小降低至同類基于容器方法的5%左右,將環(huán)境準(zhǔn)備時(shí)間縮短至容器基線的25%,并且消除了對額外容器服務(wù)器的需求。

而在這樣低資源依賴下,該環(huán)境在同等數(shù)據(jù)和參數(shù)設(shè)置下訓(xùn)練出的 SWE Agent 和容器環(huán)境下訓(xùn)練出的 Agent 在 SWE-bench Verified 上評測效果相當(dāng),可以說,大幅降低了 SWE Agent 的入門門檻。

具體方法



I. 無容器隔離機(jī)制(Container-Free Isolation)

核心優(yōu)化:Chroot + Mount Namespaces + Terminal Isolation

Chroot

  • 將每個(gè)任務(wù)的根目錄(/)重定向到一個(gè)獨(dú)立的、預(yù)先配置好的目錄。
  • 任務(wù)進(jìn)程只能訪問該目錄下的文件,形成「虛擬根文件系統(tǒng)」,實(shí)現(xiàn)文件系統(tǒng)隔離。例如:任務(wù) A 的根目錄是 /sandbox/A,任務(wù) B 是 /sandbox/B,彼此隔離。

Mount Namespaces(掛載命名空間)

  • 每個(gè)任務(wù)擁有獨(dú)立的掛載視圖??梢栽诓桓蓴_宿主機(jī)的情況下,掛載宿主文件系統(tǒng)(如 tmpfs、dev、mnt 等)。
  • 混合只讀,可寫掛載模式保證任務(wù)間不沖突。

Terminal Isolation(終端隔離)

  • 每個(gè)任務(wù)分配一個(gè)獨(dú)立的偽終端,通過 SWE-Rex 進(jìn)行終端會話管理。
  • 支持標(biāo)準(zhǔn)輸入 / 輸出、信號傳遞(如 Ctrl+C 中斷),確保交互式執(zhí)行的完整性。

? 優(yōu)勢:

  • 內(nèi)核開銷比容器小,速度更快

II. 環(huán)境預(yù)緩存流水線(Pre-Caching Pipeline)



傳統(tǒng)解決方案

每個(gè)任務(wù)都需要建立獨(dú)立鏡像,并基于 conda 安裝獨(dú)立 python 環(huán)境

SWE-MiniSandbox 解決方案

1. 構(gòu)建輕量級 Python 環(huán)境(conda+venv)

  • 預(yù)制不同 python 版本的 conda 環(huán)境,每個(gè)任務(wù)根據(jù)需求選擇對應(yīng)的 conda 版本創(chuàng)建 venv 虛擬環(huán)境。
  • 僅包含任務(wù)所需依賴(如 numpy, requests, pytest 等),體積平均不到 100MB。
  • 摒棄直接用 conda(太重,通常 >500MB)。
  • 將創(chuàng)建出的 venv 打包成 tar 文件,再次啟動環(huán)境時(shí)直接解壓加速啟動。

2.I/O 瓶頸管理與并發(fā)控制

為解決任務(wù)高并發(fā)下磁盤隊(duì)列擁堵問題,為并發(fā)任務(wù)總吞吐量設(shè)置上界:





SWE-MiniSandbox 通過結(jié)合信號量和 ray 資源標(biāo)簽機(jī)制對并發(fā)數(shù)進(jìn)行控制。

III. 與現(xiàn)有工具鏈的集成



在 RL 分布式擴(kuò)展方面,該框架基于 Ray 構(gòu)建,支持多節(jié)點(diǎn)資源分配調(diào)度,適應(yīng)大規(guī)模 RL 訓(xùn)練需求。

實(shí)驗(yàn)效果

I. 更小體積



傳統(tǒng)容器方法需要維護(hù)動輒 GB 級的容器鏡像,而 SWE-MiniSandbox 單環(huán)境僅需維護(hù) 100MB 左右輕量化 venv 緩存。例如在 SWE-smith 數(shù)據(jù)集上,SWE-MiniSandbox 環(huán)境緩存大小僅為傳統(tǒng)容器鏡像的 5%。

II. 相同訓(xùn)練效果,更快的環(huán)境啟動時(shí)間



實(shí)驗(yàn)結(jié)果顯示 SWE-MiniSandbox 框架的訓(xùn)練質(zhì)量(SWE-bench Verified)和傳統(tǒng) Docker 框架幾乎一致,同時(shí)在環(huán)境準(zhǔn)備時(shí)間上僅僅是 Docker 的 25% ,顯著減少了 rollout 的平均時(shí)間開銷。

III. 優(yōu)秀的多節(jié)點(diǎn)可擴(kuò)展性



在多節(jié)點(diǎn)訓(xùn)練中 SWE-MiniSandbox 會被平均分配到各個(gè)節(jié)點(diǎn)上,因此在負(fù)載合理的情況下多節(jié)點(diǎn)的平均環(huán)境啟動速度和單節(jié)點(diǎn)幾乎一致。

IV. 可視化



通過拆解強(qiáng)化學(xué)習(xí) rollout 的時(shí)間代價(jià)并對各部分進(jìn)行可視化分析,發(fā)現(xiàn) SWE-MiniSandbox 在環(huán)境準(zhǔn)備時(shí)間(藍(lán)色)上明顯短于 Docker 環(huán)境。

除此之外,使用 1600 條數(shù)據(jù)在 SWE-Agent-LM-7B 上訓(xùn)練 200 步后對比 SWE-MiniSandbox 和 Docker 環(huán)境的 Reward 曲線,發(fā)現(xiàn)二者走勢基本一致,從而進(jìn)一步驗(yàn)證了 SWE-MiniSandbox 提供的無容器環(huán)境能夠?qū)崿F(xiàn)和傳統(tǒng) Docker 環(huán)境一致的訓(xùn)練效果。



未來展望

在 SWE-MiniSandbox 開源基礎(chǔ)上,團(tuán)隊(duì)認(rèn)為未來有幾個(gè)方向可以考慮:

  • 在現(xiàn)有自動構(gòu)建環(huán)境基礎(chǔ)上,引入 Agent 工作流,打造適配 SWE-MiniSandbox 框架的環(huán)境自動化構(gòu)建流程,并擴(kuò)展對更多開源 SWE 數(shù)據(jù)集的支持。
  • 將 SWE-MiniSandbox 的應(yīng)用生態(tài)拓展至更廣泛的任務(wù)場景,如 Terminal Bench、Skill Bench 等。
  • 優(yōu)化環(huán)境啟動機(jī)制,例如基于 BranchFS 實(shí)現(xiàn)分支隔離從而避免緩存的解壓拷貝開銷。優(yōu)化強(qiáng)化學(xué)習(xí)的訓(xùn)練機(jī)制,通過實(shí)現(xiàn)環(huán)境啟動與梯度反向傳播的異步重疊等方式,提升訓(xùn)練效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)易號平臺每日辟謠公告(三月二十六日)

網(wǎng)易號平臺每日辟謠公告(三月二十六日)

網(wǎng)易號官方平臺
2026-03-26 18:04:59
姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

新民周刊
2026-03-26 19:12:17
跌光2500億!泡泡瑪特,股價(jià)崩塌

跌光2500億!泡泡瑪特,股價(jià)崩塌

財(cái)經(jīng)銳眼
2026-03-26 18:54:18
伊朗軍方:已擊中或擊落202架各類美以軍機(jī)

伊朗軍方:已擊中或擊落202架各類美以軍機(jī)

界面新聞
2026-03-26 15:29:15
41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

180視角
2026-03-26 13:01:03
商務(wù)部:中方將自5月1日起對所有非洲建交國全面實(shí)施零關(guān)稅舉措

商務(wù)部:中方將自5月1日起對所有非洲建交國全面實(shí)施零關(guān)稅舉措

界面新聞
2026-03-26 16:08:24
大陸對全體臺胞發(fā)出邀請:兩岸統(tǒng)一之時(shí),即可從臺島自駕直達(dá)北京

大陸對全體臺胞發(fā)出邀請:兩岸統(tǒng)一之時(shí),即可從臺島自駕直達(dá)北京

小童歷史
2026-03-25 18:20:29
突發(fā)!以色列徹底失控!

突發(fā)!以色列徹底失控!

財(cái)經(jīng)要參
2026-03-26 21:58:11
萬科創(chuàng)始人妻子解除邊控

萬科創(chuàng)始人妻子解除邊控

地產(chǎn)微資訊
2026-03-26 20:23:02
48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

飯小妹說歷史
2026-03-26 20:26:05
內(nèi)塔尼亞胡妻子:我兒子就因是以總理孩子被羞辱

內(nèi)塔尼亞胡妻子:我兒子就因是以總理孩子被羞辱

看看新聞Knews
2026-03-26 14:21:02
日本網(wǎng)民真怕了,呼吁嚴(yán)懲闖入中國使館的暴徒,防止226事件再現(xiàn)

日本網(wǎng)民真怕了,呼吁嚴(yán)懲闖入中國使館的暴徒,防止226事件再現(xiàn)

知法而形
2026-03-25 18:38:56
尺度大到曾下架!模特冠軍泳裝大雷出演影游即將發(fā)售

尺度大到曾下架!模特冠軍泳裝大雷出演影游即將發(fā)售

游民星空
2026-03-26 11:58:13
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
聯(lián)大通過決議,宣布“最嚴(yán)重反人類罪”

聯(lián)大通過決議,宣布“最嚴(yán)重反人類罪”

澎湃新聞
2026-03-26 11:03:06
張雪峰員工:辦公室已拆掉紅色錦旗,員工徹夜難眠,家長電話打爆

張雪峰員工:辦公室已拆掉紅色錦旗,員工徹夜難眠,家長電話打爆

每日人物
2026-03-26 13:34:51
張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
到底有多無知,才能做出這樣的判決!

到底有多無知,才能做出這樣的判決!

槽三刀
2026-03-25 22:01:04
張雪峰前女友哭紅眼,喊話不要給他潑臟水,曝兩人分手原因

張雪峰前女友哭紅眼,喊話不要給他潑臟水,曝兩人分手原因

茶韻浮生
2026-03-26 20:26:51
中共中央批準(zhǔn),開除劉慧黨籍

中共中央批準(zhǔn),開除劉慧黨籍

新京報(bào)
2026-03-26 17:14:17
2026-03-27 01:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
家居
本地
游戲
公開課

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

家居要聞

傍海而居 靜觀蝴蝶海

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版