国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AP2O-Coder 讓大模型擁有「錯題本」,像人類一樣按題型高效刷題

0
分享至



作者:上交博士,在騰訊codebuddy 實習(xí),發(fā)表一作頂會頂刊論文10篇(含best paper 等),開源PFLlib等明星項目,獲得社區(qū)贊譽(yù)。主要研究AI強(qiáng)化學(xué)習(xí)、AI合成數(shù)據(jù)、Agent 記憶等。

在 AI 輔助 Coding 技術(shù)快速發(fā)展的背景下,大語言模型(LLMs)雖顯著提升了軟件開發(fā)效率,但開源的 LLMs 生成的代碼依舊存在運(yùn)行時錯誤,增加了開發(fā)者調(diào)試成本。

現(xiàn)有基于偏好優(yōu)化的改進(jìn)方法,多依賴「通過 / 失敗」二元信號構(gòu)建訓(xùn)練數(shù)據(jù),難以知曉「錯在哪」,也忽視了模型能力在訓(xùn)練時的動態(tài)變化特性。

針對此缺口,在騰訊 CodeBuddy 實習(xí)期間,我們提出自適應(yīng)漸進(jìn)式偏好優(yōu)化方法(AP2O),并構(gòu)建 AP2O-Coder 框架。該方法借鑒人類的「按題型高效刷題」經(jīng)驗出發(fā),通過「考試 - 分析 - 糾錯 - 小測」的系統(tǒng)性流程提升模型代碼糾錯能力,在多款主流開源模型上實現(xiàn)最高 3% 的 pass@k 性能提升,同時降低訓(xùn)練數(shù)據(jù)需求量。



  • 論文標(biāo)題:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
  • 論文鏈接:https://arxiv.org/pdf/2510.02393
  • 開源代碼:https://github.com/TsingZ0/AP2O

一、現(xiàn)有方法的核心挑戰(zhàn)

與 AP2O-Coder 的針對性設(shè)計

當(dāng)前離線偏好優(yōu)化方法(如 DPO 等)在 LLM 代碼糾錯任務(wù)中面臨三大核心挑戰(zhàn):

  • 錯誤類型感知缺失:僅依賴單元測試的二元反饋信號,無法知曉類型錯誤(如 KeyError、ValueError 等),導(dǎo)致模型難以定位錯誤原因;
  • 訓(xùn)練聚焦性不足:訓(xùn)練數(shù)據(jù)采用隨機(jī)打亂的方式批量輸入,模型需在多種錯誤類型間頻繁切換適應(yīng),糾錯學(xué)習(xí)的針對性不強(qiáng);
  • 動態(tài)適配能力薄弱:靜態(tài)構(gòu)建的訓(xùn)練集無法匹配模型訓(xùn)練過程中不斷變化的能力短板,易引發(fā)災(zāi)難性遺忘或訓(xùn)練資源浪費(fèi)。

為應(yīng)對上述挑戰(zhàn),AP2O-Coder 借鑒人類按題型進(jìn)行的「錯題整理 - 專題突破 - 定期復(fù)盤」的學(xué)習(xí)模式,構(gòu)建了包含四大核心模塊的優(yōu)化框架,旨在實現(xiàn)錯誤信息的深度利用與模型能力的動態(tài)適配。

二、AP2O-Coder 的

核心技術(shù)框架與工作機(jī)制

AP2O-Coder 的核心設(shè)計思路是通過系統(tǒng)化流程實現(xiàn)錯誤類型的精準(zhǔn)捕捉、漸進(jìn)式優(yōu)化與動態(tài)適配,其整體框架包含四個關(guān)鍵步驟(如圖 1 所示):



圖 1:AP2O-Coder 框架流程圖

代碼生成評估(Exam)

為全面掌握目標(biāo)模型的初始能力邊界,該模塊讓 LLM 在 M 個編程任務(wù)上生成 N 個候選答案(采用溫度系數(shù) 1.0 的設(shè)置以充分探索能力范圍),通過配套的單元測試獲取每個答案的「通過 / 失敗」標(biāo)簽,形成初始訓(xùn)練數(shù)據(jù)集,為后續(xù)錯誤分析提供基礎(chǔ)。

錯誤診斷分析(Analysis)

借助編程語言專用分析工具(如 Python 解釋器)對所有失敗答案進(jìn)行結(jié)構(gòu)化解析,標(biāo)注具體錯誤類型并統(tǒng)計各類錯誤的出現(xiàn)頻率,按錯誤題型構(gòu)建結(jié)構(gòu)化的「錯題本」。該過程實現(xiàn)了從二元反饋到精細(xì)化錯誤信息的轉(zhuǎn)化,為針對性優(yōu)化提供數(shù)據(jù)支撐。

漸進(jìn)式偏好優(yōu)化(Correction)



自適應(yīng)錯誤回放(Quiz)

為適配模型訓(xùn)練過程中的能力變化,該模塊定期在一個小驗證集上評估模型性能,實時捕捉當(dāng)前階段的高頻錯誤類型,找出模型依舊犯錯的題型,將其對應(yīng)的失敗答案重新納入訓(xùn)練流程。通過動態(tài)調(diào)整訓(xùn)練數(shù)據(jù)分布,確保模型始終聚焦于當(dāng)前的能力短板,有效緩解災(zāi)難性遺忘問題。

三、實驗驗證與結(jié)果分析

研究團(tuán)隊在 6 款主流 LLM(含代碼專用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 與通用模型 Llama3、Qwen2.5、Qwen3)上開展了系統(tǒng)驗證,參數(shù)規(guī)模覆蓋 0.5B - 34B,實驗基準(zhǔn)包括 EvalPlus(HumanEval/MBPP)與 LiveCodeBench v6,主要取得以下研究發(fā)現(xiàn):

性能提升的有效性

在不同類型與參數(shù)規(guī)模的模型上,AP2O-Coder 均展現(xiàn)出穩(wěn)定的性能改進(jìn)。如下表所示,在 EvalPlus(HumanEval)基準(zhǔn)上,AP2O-Coder (H2L) 即使對于 30B+ 的大參數(shù)模型,也能實現(xiàn) 2.8% - 3.4% 的性能優(yōu)化,且未出現(xiàn)現(xiàn)有后訓(xùn)練方法中性能退化現(xiàn)象。



表 1:各種類型和規(guī)模代碼的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表現(xiàn)。

錯誤抑制效果與泛化能力



圖 2:使用 Qwen2.5-Coder-7B 在測試基準(zhǔn)上出現(xiàn)錯誤的統(tǒng)計數(shù)據(jù)。



圖 3:使用 Qwen2.5-Coder-7B 在測驗階段對驗證集上的錯誤統(tǒng)計結(jié)果。我們的 AP2O-Coder 能夠逐步減少錯誤。

如圖 2 所示,相較于 SFT、DPO 等基線方法,AP2O-Coder 能夠有效降低各類錯誤的發(fā)生頻率,且未引入新的錯誤類型。如圖 3,在 Qwen2.5-Coder-7B 的實驗中,高頻錯誤「WrongResult」的發(fā)生率顯著下降,IndexError 等小眾錯誤在訓(xùn)練后期實現(xiàn)清零。同時,該方法在 pass@5、pass@10 等指標(biāo)上的穩(wěn)定提升(如圖 4),表明其增強(qiáng)了模型代碼生成的泛化能力。



圖 4:在不同模型規(guī)模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基準(zhǔn)上的 pass@5 和 pass@10 表現(xiàn)。

樣本效率的優(yōu)化



圖 5:用于在 MBPP 訓(xùn)練集上對不同規(guī)模的 Qwen2.5-Coder 進(jìn)行訓(xùn)練并達(dá)到最優(yōu)性能的偏好數(shù)據(jù)對需求。

AP2O-Coder 通過錯誤類型的精準(zhǔn)聚焦,顯著提升了訓(xùn)練數(shù)據(jù)的利用效率。實驗結(jié)果顯示,該方法僅需 4% - 60% 的偏好數(shù)據(jù)即可達(dá)到傳統(tǒng) DPO 方法的最優(yōu)性能,在 32B 參數(shù)規(guī)模的模型上,數(shù)據(jù)需求量減少更為明顯(如圖 5),這就和班上刷題時,優(yōu)等生所需刷題量更少類似,為低資源場景下的 LLM 代碼優(yōu)化提供了可行路徑。

通用 LLM 適配性



圖 6:在將通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)適配到代碼領(lǐng)域時,其在 EvalPlus (MBPP) 上的 pass@1 表現(xiàn)。

AP2O-Coder 不僅適用于代碼專用 LLM,也能有效支持通用 LLM 向代碼領(lǐng)域的適配。在 Qwen3、Llama3 等通用模型的實驗中,經(jīng)過該方法優(yōu)化后,模型在 MBPP 基準(zhǔn)上的 pass@1 分?jǐn)?shù)顯著提升,驗證了其跨模型類型的適配能力(如圖 6)。

四、研究發(fā)現(xiàn)與方法特性

實驗過程中,團(tuán)隊發(fā)現(xiàn)了優(yōu)化策略與模型規(guī)模的適配規(guī)律:

對于Qwen2.5-Coder,小參數(shù)模型(≤ 3B)采用「低頻錯誤 -> 高頻錯誤」的優(yōu)化順序更具優(yōu)勢,這一策略可避免模型因能力有限而陷入高頻常見錯誤的學(xué)習(xí)困境,而讓小模型一開始能看到不同種類的錯誤,跳出局部最優(yōu);

大參數(shù)模型(≥ 7B)采用「高頻錯誤 -> 低頻錯誤」的順序效果更優(yōu),能夠充分發(fā)揮其強(qiáng)學(xué)習(xí)能力,快速實現(xiàn)整體錯誤率的下降。這一發(fā)現(xiàn)為不同規(guī)模 LLM 的代碼優(yōu)化提供了針對性參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
隨著一場奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國一哥

隨著一場奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國一哥

削桐作琴
2026-03-02 17:17:08
男子愛吃蒸蘋果3個月后去體檢,體檢結(jié)果出來后,納悶:吃的啥?

男子愛吃蒸蘋果3個月后去體檢,體檢結(jié)果出來后,納悶:吃的啥?

路醫(yī)生健康科普
2026-03-02 17:31:11
中方呼吁美以立即停止對伊軍事行動

中方呼吁美以立即停止對伊軍事行動

看看新聞Knews
2026-03-01 12:31:25
“整個寒假都不弄,開學(xué)了帶孩子整牙!”二百萬媽媽又火了!

“整個寒假都不弄,開學(xué)了帶孩子整牙!”二百萬媽媽又火了!

知曉科普
2026-02-28 20:17:30
430分生死戰(zhàn)!鄭欽文亮出隱藏殺招,新教練能否救贖23位危機(jī)?

430分生死戰(zhàn)!鄭欽文亮出隱藏殺招,新教練能否救贖23位危機(jī)?

卿子書
2026-03-02 09:48:37
美國對中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

美國對中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

歷史求知所
2025-12-01 11:30:06
原來他已去世9年,45歲離世留下年幼孩子,王寶強(qiáng)張譯葬禮上痛哭

原來他已去世9年,45歲離世留下年幼孩子,王寶強(qiáng)張譯葬禮上痛哭

白面書誏
2026-03-02 17:21:56
突發(fā)要聞!中國通告全球:王毅同伊朗外長阿拉格齊通電話

突發(fā)要聞!中國通告全球:王毅同伊朗外長阿拉格齊通電話

科技處長
2026-03-02 22:17:02
美國中央司令部稱正持續(xù)空襲伊朗

美國中央司令部稱正持續(xù)空襲伊朗

每日經(jīng)濟(jì)新聞
2026-03-02 11:39:51
48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
清華大學(xué)副校長:要求大一至大三學(xué)生每學(xué)期至少完成24次課外鍛煉 不會游泳不能畢業(yè)

清華大學(xué)副校長:要求大一至大三學(xué)生每學(xué)期至少完成24次課外鍛煉 不會游泳不能畢業(yè)

紅星新聞
2026-02-27 16:40:25
伊朗越打越猛,14座美軍基地遇襲,數(shù)百名美軍死傷?特朗普急了

伊朗越打越猛,14座美軍基地遇襲,數(shù)百名美軍死傷?特朗普急了

墨羽怪談
2026-03-02 21:30:37
知名主持人暴瘦到認(rèn)不出,五年進(jìn)4次ICU,病重時前妻分走大半財產(chǎn)

知名主持人暴瘦到認(rèn)不出,五年進(jìn)4次ICU,病重時前妻分走大半財產(chǎn)

夢錄的西方史話
2026-03-02 16:28:20
又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

東極妙嚴(yán)
2026-03-02 15:50:51
一只蒼蠅困死整個大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

一只蒼蠅困死整個大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

你是我心中最美星空
2026-02-27 07:53:59
“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
“以為是六個博士,結(jié)果是六個送外賣的!”六個兒子征婚視頻火了

“以為是六個博士,結(jié)果是六個送外賣的!”六個兒子征婚視頻火了

阿凱銷售場
2026-03-01 01:46:42
MVP沒跑了!他又拿一個歷史第一!

MVP沒跑了!他又拿一個歷史第一!

柚子說球
2026-03-02 17:23:11
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

不似少年游
2026-02-24 19:24:23
2026-03-02 23:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

本地
健康
手機(jī)
時尚
公開課

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

首款機(jī)器人手機(jī)!榮耀Robot Phone上手:攝像頭竟會跳舞

女人“會穿衣”才更美,看看這些穿搭就知道,穿對了真顯氣質(zhì)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版