国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大團(tuán)隊(duì)提出SEAlign對(duì)齊框架:顯著提升軟件工程智能體決策質(zhì)量

0
分享至



本文的通訊作者是北京大學(xué)計(jì)算機(jī)學(xué)院金芝教授和李戈教授。第一作者為課題組博士生張克馳,本科畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,研究方向?yàn)榇a智能體和代碼大模型。他曾以第一作者在自然語言處理、軟件工程等領(lǐng)域的國(guó)際會(huì)議上發(fā)表多篇論文,其代表工作 CodeAgent 發(fā)表于 ACL2024,是較早提出代碼智能體概念并開展系統(tǒng)研究的工作。一作論文先后獲得 2023 年 ACM 杰出論文獎(jiǎng)(ACM SIGSOFT Distinguished Paper Award in ICPC)和 2026 年 ACM 杰出論文獎(jiǎng)(ACM SIGSOFT Distinguished Paper Award in ICSE)。

在代碼大模型和代碼智能體技術(shù)快速發(fā)展的今天,一個(gè)日益凸顯的現(xiàn)象是:能夠在經(jīng)典代碼生成基準(zhǔn)上取得優(yōu)異成績(jī)的模型,一旦被放入真實(shí)軟件工程環(huán)境中,表現(xiàn)卻往往大幅下滑。

這種落差的根源在于,真實(shí)軟件工程并不是一道孤立的編程題,而是一個(gè)長(zhǎng)時(shí)程、強(qiáng)上下文持續(xù)交互、反復(fù)驗(yàn)證與修正的復(fù)雜過程。

模型不僅要會(huì)寫代碼,還要能夠正確理解需求、在倉(cāng)庫(kù)中定位文件、在合適時(shí)機(jī)調(diào)用工具、解釋測(cè)試反饋、修正先前錯(cuò)誤,并在必要時(shí)及時(shí)停止。

這意味著,在評(píng)測(cè)基準(zhǔn)上表現(xiàn)出色的代碼模型,其評(píng)價(jià)體系與訓(xùn)練模式通常更側(cè)重于單一任務(wù)的代碼生成,并不天然適用于現(xiàn)實(shí)世界中復(fù)雜的軟件工程任務(wù)。

圍繞這一問題,北京大學(xué)金芝教授和李戈教授團(tuán)隊(duì)提出了一套軟件工程智能體對(duì)齊框架 SEAlign,通過對(duì)智能體軌跡中的關(guān)鍵決策點(diǎn)進(jìn)行識(shí)別與對(duì)齊,顯著提升模型在真實(shí)工程任務(wù)中的表現(xiàn)。實(shí)驗(yàn)證明,經(jīng)過 SEAlign 優(yōu)化后的 14B 參數(shù)開源模型,在SWE-bench等真實(shí)場(chǎng)景中表現(xiàn)出明顯領(lǐng)先同體量模型、甚至媲美頂級(jí)閉源模型的能力。相關(guān)成果發(fā)表于軟件工程頂會(huì) ICSE 2026,并榮獲 ACM SIGSOFT Distinguished Paper Award (杰出論文獎(jiǎng))。



ICSE,即 IEEE/ACM 國(guó)際軟件工程會(huì)議,是軟件工程領(lǐng)域的頂級(jí)會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的 A 類國(guó)際學(xué)術(shù)會(huì)議。本年度 ICSE 共收到全球 1469 篇論文投稿,最終錄用 321 篇,其中僅 22 篇被評(píng)為頂尖論文,獲獎(jiǎng)比例不足總投稿的 1.5%,用以表彰其在軟件工程領(lǐng)域技術(shù)創(chuàng)新性和影響力方面的杰出貢獻(xiàn)。



  • 論文題目: SEAlign: Alignment Training for Software Engineering Agent
  • 論文鏈接:https://arxiv.org/abs/2503.18455

行業(yè)瓶頸:現(xiàn)有模型難以適配真實(shí)軟件工程場(chǎng)景

現(xiàn)有代碼模型的后訓(xùn)練大多圍繞編程競(jìng)賽、算法題代碼生成展開,這類任務(wù)通常目標(biāo)清晰、上下文短、依賴少,主要考察生成代碼答案的能力;而真實(shí)軟件工程任務(wù)則要求模型在復(fù)雜倉(cāng)庫(kù)、工具鏈和反饋循環(huán)中持續(xù)做決策。

論文實(shí)驗(yàn)數(shù)據(jù)顯示,即便是經(jīng)過充分后訓(xùn)練、在各種 Benchmark 任務(wù)上表現(xiàn)不俗的 Qwen2.5-Coder-Instruct-14B ,配合 OpenHands 框架后,在模擬真實(shí) GitHub 漏洞修復(fù)的 SWE-Bench-Verified 上,僅有 2.8% 的問題解決率。這說明現(xiàn)有對(duì)齊方式主要教會(huì)了模型「如何寫代碼」,卻尚未充分教會(huì)模型「如何驅(qū)動(dòng)一個(gè)軟件工程智能體持續(xù)行動(dòng)」。

論文進(jìn)一步分析了失敗軌跡,發(fā)現(xiàn)問題主要集中在三類行為失配上。

1、一是指令跟隨不足:模型沒有真正讀懂 issue 中的約束,或者過早按照自己的理解動(dòng)手修改,最后寫出的代碼「看起來合理」,卻沒有解決真實(shí)問題。

2、二是工具調(diào)用錯(cuò)誤:包括錯(cuò)誤地選擇工具、傳入不合法參數(shù)、查看無關(guān)文件,或者沒有在關(guān)鍵時(shí)刻使用正確工具,導(dǎo)致上下文和計(jì)算預(yù)算被大量浪費(fèi)。

3、三是重復(fù)循環(huán):模型不斷重復(fù)相似動(dòng)作,卻沒有根據(jù)環(huán)境反饋更新判斷,最終陷入無效迭代。也就是說,真實(shí)軟件工程中的核心瓶頸并不是單步代碼生成,而是整個(gè)多步?jīng)Q策過程中的行為質(zhì)量。

SEAlign:對(duì)齊智能體中的關(guān)鍵決策

針對(duì)上述問題,SEAlign 的核心思想非常直接:如果軟件工程智能體的成敗,取決于一系列中間決策,那么訓(xùn)練目標(biāo)就不應(yīng)只關(guān)注最終代碼是否正確,而應(yīng)顯式優(yōu)化模型在關(guān)鍵步驟上的行為選擇。

論文提出,智能體軌跡中不同動(dòng)作的重要性并不相同。有些動(dòng)作即便略有偏差,模型也會(huì)在后續(xù)路徑中糾正錯(cuò)誤;但另一些動(dòng)作一旦出錯(cuò),就可能讓整個(gè)軌跡徹底偏航。

因此,軟件工程對(duì)齊的關(guān)鍵并不在于均勻優(yōu)化每一個(gè) token 或所有步驟,而在于識(shí)別真正決定成敗的關(guān)鍵節(jié)點(diǎn),并在這些節(jié)點(diǎn)處引導(dǎo)模型偏好更優(yōu)決策。

最近也有一些研究人員開始將 Agent 與控制論的思路進(jìn)行類比。從瓦特調(diào)速器到現(xiàn)代控制系統(tǒng),一個(gè)更值得關(guān)注的共同點(diǎn)在于,它們并不是要預(yù)先規(guī)定每一步具體動(dòng)作,而是通過識(shí)別那些可能引發(fā)系統(tǒng)性偏離的關(guān)鍵狀態(tài),并在這些位置上施加適當(dāng)?shù)男U盘?hào),以維持整體運(yùn)行方向的穩(wěn)定。對(duì)應(yīng)到軟件工程智能體,模型的能力也不應(yīng)只是生成某一段代碼,而更體現(xiàn)在其能否在關(guān)鍵節(jié)點(diǎn)上持續(xù)作出較為合理的判斷。

SEAlign 的啟發(fā)性正在于此:它并不對(duì)整條軌跡上的所有行為施加均勻約束,而是將對(duì)齊的重點(diǎn)放在那些更可能影響軌跡走向的關(guān)鍵決策點(diǎn)上,從而在一定意義上把軟件工程智能體的訓(xùn)練問題轉(zhuǎn)化為一個(gè)面向閉環(huán)反饋的過程控制問題。

具體來說,SEAlign 包含三個(gè)核心階段:



第一步是軌跡數(shù)據(jù)收集:論文將模型置于真實(shí)的軟件工程環(huán)境中,讓其在 Agent 框架下完成任務(wù),并記錄完整的 Agent 決策軌跡,同時(shí)根據(jù)任務(wù)是否被最終解決來給出成功或失敗的標(biāo)記。為了避免數(shù)據(jù)泄漏,論文明確排除了測(cè)試數(shù)據(jù)集所涉及的任何倉(cāng)庫(kù)以及與之相近的倉(cāng)庫(kù)。

第二步是軌跡樹構(gòu)建與關(guān)鍵動(dòng)作識(shí)別:論文觀察到,不同軌跡之間常常共享相同前綴,因此將這些重合的決策路徑進(jìn)行合并,可以將一群獨(dú)立的智能體軌跡鏈合并成一個(gè)軌跡樹結(jié)構(gòu),每個(gè)非葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)決策步驟,每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)成功或失敗結(jié)果。基于這棵軌跡樹,SEAlign 進(jìn)一步過濾掉低質(zhì)量樣本,例如反復(fù)重復(fù)同一動(dòng)作、沒有實(shí)質(zhì)推進(jìn)的 loop 軌跡,以及與其他樣本沒有有效重疊的離群軌跡。

第三步是偏好對(duì)齊訓(xùn)練:論文利用類蒙特卡洛采樣的節(jié)點(diǎn)評(píng)分方法,從同一前綴下找出「一個(gè)動(dòng)作導(dǎo)致后續(xù)成功概率顯著更高,另一個(gè)動(dòng)作導(dǎo)致顯著更差」的關(guān)鍵動(dòng)作對(duì),再通過偏好學(xué)習(xí)讓模型在這些關(guān)鍵點(diǎn)上學(xué)習(xí)偏好更優(yōu)行為。



從方法設(shè)計(jì)上看,SEAlign 把軟件工程能力明確建模為一種智能體軌跡上的關(guān)鍵點(diǎn)決策能力。這與過去很多代碼對(duì)齊方法只圍繞程序正確性、偏好輸出或競(jìng)賽題結(jié)果來構(gòu)造訓(xùn)練信號(hào)不同:SEAlign 關(guān)心的是模型是否會(huì)在關(guān)鍵節(jié)點(diǎn)避免走偏。這也是它與一般代碼生成優(yōu)化工作的本質(zhì)差異所在。在當(dāng)前追逐 Long Running Agent Harness 的時(shí)代,SEAlign 采用了近似控制論的設(shè)計(jì)思路,在關(guān)鍵決策點(diǎn)上為模型提供約束的同時(shí),也允許模型進(jìn)行廣闊的探索。

實(shí)驗(yàn)結(jié)果

在高度貼近真實(shí)軟件工程場(chǎng)景的 SWE-Bench 系列實(shí)驗(yàn)中,SEAlign 展現(xiàn)出了明顯的提升。論文僅使用不到一千條樣本,以相對(duì)較低的訓(xùn)練開銷,便在同等參數(shù)規(guī)模的開源模型中取得領(lǐng)先表現(xiàn),部分指標(biāo)甚至逼近商業(yè)閉源模型 GPT4o。

在Qwen2.5-Coder-Instruct-14B上的實(shí)驗(yàn)顯示,SEAlign 的訓(xùn)練方法使得該模型 在SWE-Bench-Lite上的問題解決率從3.7%提升到17.7%;在SWE-Bench-Verified上,則從2.8%提升到21.8%。

與此同時(shí),基線模型中非常常見的兩類問題 —— 空補(bǔ)丁率(empty patch)和循環(huán)卡死率 (stuck-in-loop) 也顯著下降:例如在 SWE-Bench-Verified 上,14B 基線模型的空補(bǔ)丁率(empty patch)為52.0%、卡死率(stuck)比例為27.8%,而 SEAlign-14B 分別降至22.8%與15.6%。這說明 SEAlign 能夠系統(tǒng)性改善模型在 Agent 框架中的行為過程。





為了驗(yàn)證 SEAlign 學(xué)到的不是對(duì)某一個(gè)類 Benchmark 的過擬合,論文進(jìn)一步在 HumanEvalFix 這一類程序修復(fù)任務(wù)上進(jìn)行實(shí)驗(yàn)。

對(duì) Qwen-2.5-Coder-Instruct-14B 而言,不使用 Agent 框架時(shí)代碼修復(fù)通過率(Pass@1)為54.3%,一旦放入 Agent 工作流中,反而掉到31.1%,說明它雖然會(huì)直接寫代碼,卻并不擅長(zhǎng)在工具交互流程中行動(dòng)。

相反,SEAlign-14B 在無 Agent 時(shí)的通過率為52.4%,加入 Agent 后則提升到62.8%,同時(shí)無效補(bǔ)丁率( invalid patch rate )降到10.4%。

這表明 SEAlign 的收益并不只體現(xiàn)在 SWE-Bench 這種復(fù)雜倉(cāng)庫(kù)任務(wù)上,也確實(shí)提高了模型在工具輔助、多步交互場(chǎng)景下的穩(wěn)定性與泛化能力。



消融實(shí)驗(yàn)

論文的消融實(shí)驗(yàn)進(jìn)一步說明,SEAlign 的關(guān)鍵在于其對(duì)細(xì)粒度關(guān)鍵動(dòng)作優(yōu)化本身。

  • 只做 SFT 不做細(xì)粒度 DPO:SWE-Bench-Lite 上的解決率為13.0%;
  • 只做 DPO 不做 SFT:解決率降至10.7%;完整方案則達(dá)到17.7%;
  • 更關(guān)鍵的是,如果去掉關(guān)鍵動(dòng)作識(shí)別,直接把整條成功軌跡和失敗軌跡拿去做偏好優(yōu)化,效果會(huì)明顯退化到5.3%。



數(shù)據(jù)規(guī)模實(shí)驗(yàn)也顯示出較清晰的趨勢(shì):隨著訓(xùn)練數(shù)據(jù)從 25% 增加到 50%、75% 和 100%,SWE-Bench-Lite 上的解決率從 3.7% 穩(wěn)步提升到17.7%。



從基準(zhǔn)測(cè)試 Benchmark 到實(shí)際應(yīng)用:真實(shí)用戶體驗(yàn)評(píng)價(jià)

除了標(biāo)準(zhǔn)的智能體 Benchmark,論文還手工設(shè)計(jì)了五類簡(jiǎn)單的應(yīng)用開發(fā)任務(wù),包括 to-do list、貪吃蛇小游戲、天氣應(yīng)用、Hacker News 查詢應(yīng)用和個(gè)性化主頁(yè),并邀請(qǐng) 5 名有至少一年開發(fā)經(jīng)驗(yàn)的志愿者從功能完整性、代碼質(zhì)量和美觀度三個(gè)維度進(jìn)行評(píng)分。

平均結(jié)果顯示,SEAlign-14B 相比原始 Qwen-14B 都有明顯提升:功能完整性從1.8提升到3.1,代碼質(zhì)量從2.7提升到3.5,美觀度從2.0提升到3.2,SEAlign 更接近真實(shí)用戶感知的開發(fā)體驗(yàn)改進(jìn)。



未來展望

總體來看,SEAlign 揭示了一個(gè)極具現(xiàn)實(shí)價(jià)值的核心命題:代碼模型在真實(shí)軟件工程中的關(guān)鍵能力,不僅在于寫好代碼本身,更在于如何在工程流程中持續(xù)做出正確決策。

圍繞軌跡對(duì)齊、工具使用、關(guān)鍵階段控制與過程級(jí)的模型訓(xùn)練優(yōu)化,SEAlign 對(duì)于代碼智能體和模型的協(xié)同演進(jìn),以及保證智能體模型在長(zhǎng)序列復(fù)雜任務(wù)上能夠平穩(wěn)運(yùn)行都至關(guān)重要。這也為代碼模型走向?qū)嵱没?、工程化提供了一條可行路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太牛了!伊外長(zhǎng)站在中國(guó)領(lǐng)土上,只提一個(gè)請(qǐng)求,特朗普急喊話中國(guó)

太牛了!伊外長(zhǎng)站在中國(guó)領(lǐng)土上,只提一個(gè)請(qǐng)求,特朗普急喊話中國(guó)

開著車去流浪
2026-05-07 16:37:38
2013年,金正哲聯(lián)手張成澤發(fā)動(dòng)朝鮮兵變,因一細(xì)節(jié)敗露,雙遭反殺

2013年,金正哲聯(lián)手張成澤發(fā)動(dòng)朝鮮兵變,因一細(xì)節(jié)敗露,雙遭反殺

阿胡
2025-03-11 13:28:03
北京薈聚的西貝老店關(guān)了!網(wǎng)友:昨晚還吃了!沒用完的余額怎么辦?

北京薈聚的西貝老店關(guān)了!網(wǎng)友:昨晚還吃了!沒用完的余額怎么辦?

北京商報(bào)
2026-05-06 22:01:15
官方!增補(bǔ)徐昕趙嘉義進(jìn)男籃短訓(xùn)營(yíng) 增補(bǔ)李雨汧進(jìn)女籃集訓(xùn)隊(duì)

官方!增補(bǔ)徐昕趙嘉義進(jìn)男籃短訓(xùn)營(yíng) 增補(bǔ)李雨汧進(jìn)女籃集訓(xùn)隊(duì)

醉臥浮生
2026-05-07 11:23:58
烏克蘭無人艇成為海上殺手;特朗普將在今夏試圖迫使烏克蘭投降

烏克蘭無人艇成為海上殺手;特朗普將在今夏試圖迫使烏克蘭投降

近距離
2026-05-05 14:31:06
等不及了?特朗普官宣訪華,對(duì)華核心訴求曝光,中方會(huì)接受嗎?

等不及了?特朗普官宣訪華,對(duì)華核心訴求曝光,中方會(huì)接受嗎?

夢(mèng)史
2026-05-07 00:56:09
瀏陽(yáng)花炮廠爆炸事故救援紀(jì)實(shí):村民騰出堂屋給消防員,商家為救援隊(duì)送炒粉水果

瀏陽(yáng)花炮廠爆炸事故救援紀(jì)實(shí):村民騰出堂屋給消防員,商家為救援隊(duì)送炒粉水果

瀟湘晨報(bào)
2026-05-07 09:08:12
這就是上海男籃的底氣!

這就是上海男籃的底氣!

新民晚報(bào)
2026-05-07 09:32:29
世體:卡瓦哈爾知道皇馬不會(huì)與自己續(xù)約,他今夏將自由身離隊(duì)

世體:卡瓦哈爾知道皇馬不會(huì)與自己續(xù)約,他今夏將自由身離隊(duì)

懂球帝
2026-05-07 17:17:28
現(xiàn)代醫(yī)學(xué)最殘忍的行為,讓人后怕

現(xiàn)代醫(yī)學(xué)最殘忍的行為,讓人后怕

茶余飯好
2026-05-05 14:50:57
再年輕也沒用!湖北32歲美女朱婷婷去世,死因曝光,倆女兒太可憐

再年輕也沒用!湖北32歲美女朱婷婷去世,死因曝光,倆女兒太可憐

阿纂看事
2026-05-07 14:01:41
社?;鶖?shù)嚴(yán)管來了!按最低交社保的公司,該慌了!

社?;鶖?shù)嚴(yán)管來了!按最低交社保的公司,該慌了!

職場(chǎng)資深秘書
2026-05-05 20:46:29
1936年,張學(xué)良活捉蔣介石前的合影,注意看兩人表情,已貌神合離

1936年,張學(xué)良活捉蔣介石前的合影,注意看兩人表情,已貌神合離

浩渺青史
2026-04-30 21:28:09
心理學(xué)上有個(gè)詞叫:螃蟹效應(yīng)。永遠(yuǎn)要記住,和周圍人搞好關(guān)系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

心理學(xué)上有個(gè)詞叫:螃蟹效應(yīng)。永遠(yuǎn)要記住,和周圍人搞好關(guān)系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

德魯克博雅管理
2026-04-28 17:04:30
楊樂樂就算不生孩子,事業(yè)也高不到哪去,明明是美女,但就不討喜

楊樂樂就算不生孩子,事業(yè)也高不到哪去,明明是美女,但就不討喜

小椰的奶奶
2026-05-07 17:34:20
9款SUV上市即下調(diào)售價(jià),價(jià)格戰(zhàn)才剛剛開始

9款SUV上市即下調(diào)售價(jià),價(jià)格戰(zhàn)才剛剛開始

芭比衣櫥
2026-05-07 12:37:04
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
趙祥松|一場(chǎng)足球轉(zhuǎn)播談判,差點(diǎn)被包裝成“民族尊嚴(yán)保衛(wèi)戰(zhàn)”

趙祥松|一場(chǎng)足球轉(zhuǎn)播談判,差點(diǎn)被包裝成“民族尊嚴(yán)保衛(wèi)戰(zhàn)”

祥松談
2026-05-07 11:04:11
1966年毛主席在滴水洞留下詩(shī)作,凡讀懂其中玄機(jī)之人皆驚恐萬分

1966年毛主席在滴水洞留下詩(shī)作,凡讀懂其中玄機(jī)之人皆驚恐萬分

人生錄
2026-05-07 16:15:09
久別重逢!94歲姐姐跨省探望82歲患病弟弟,弟弟淚流滿面

久別重逢!94歲姐姐跨省探望82歲患病弟弟,弟弟淚流滿面

極目新聞
2026-05-06 21:20:39
2026-05-07 18:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12939文章數(shù) 142644關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

周喜安被判死緩:在兩省共受賄過億 被指學(xué)術(shù)成就豐富

頭條要聞

周喜安被判死緩:在兩省共受賄過億 被指學(xué)術(shù)成就豐富

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財(cái)經(jīng)要聞

金融“風(fēng)暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
游戲
軍事航空

干細(xì)胞治燒燙傷面臨這些“瓶頸”

教育要聞

武漢學(xué)院:復(fù)試第一!擁有5萬粉絲的她跨專業(yè)考研新傳成功!

數(shù)碼要聞

肯辛通擴(kuò)充USB-C GaN充電頭產(chǎn)品線,新推70W三口、140W四口

索尼PS5獨(dú)占新作銷量太爛了!前十都進(jìn)不去 回本堪憂

軍事要聞

特朗普:美伊"很可能"達(dá)成協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版