国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AP2O-Coder 讓大模型擁有「錯題本」,像人類一樣按題型高效刷題

0
分享至



作者:上交博士,在騰訊codebuddy 實習(xí),發(fā)表一作頂會頂刊論文10篇(含best paper 等),開源PFLlib等明星項目,獲得社區(qū)贊譽。主要研究AI強化學(xué)習(xí)、AI合成數(shù)據(jù)、Agent 記憶等。

在 AI 輔助 Coding 技術(shù)快速發(fā)展的背景下,大語言模型(LLMs)雖顯著提升了軟件開發(fā)效率,但開源的 LLMs 生成的代碼依舊存在運行時錯誤,增加了開發(fā)者調(diào)試成本。

現(xiàn)有基于偏好優(yōu)化的改進(jìn)方法,多依賴「通過 / 失敗」二元信號構(gòu)建訓(xùn)練數(shù)據(jù),難以知曉「錯在哪」,也忽視了模型能力在訓(xùn)練時的動態(tài)變化特性。

針對此缺口,在騰訊 CodeBuddy 實習(xí)期間,我們提出自適應(yīng)漸進(jìn)式偏好優(yōu)化方法(AP2O),并構(gòu)建 AP2O-Coder 框架。該方法借鑒人類的「按題型高效刷題」經(jīng)驗出發(fā),通過「考試 - 分析 - 糾錯 - 小測」的系統(tǒng)性流程提升模型代碼糾錯能力,在多款主流開源模型上實現(xiàn)最高 3% 的 pass@k 性能提升,同時降低訓(xùn)練數(shù)據(jù)需求量。



  • 論文標(biāo)題:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
  • 論文鏈接:https://arxiv.org/pdf/2510.02393
  • 開源代碼:https://github.com/TsingZ0/AP2O

一、現(xiàn)有方法的核心挑戰(zhàn)

與 AP2O-Coder 的針對性設(shè)計

當(dāng)前離線偏好優(yōu)化方法(如 DPO 等)在 LLM 代碼糾錯任務(wù)中面臨三大核心挑戰(zhàn):

  • 錯誤類型感知缺失:僅依賴單元測試的二元反饋信號,無法知曉類型錯誤(如 KeyError、ValueError 等),導(dǎo)致模型難以定位錯誤原因;
  • 訓(xùn)練聚焦性不足:訓(xùn)練數(shù)據(jù)采用隨機打亂的方式批量輸入,模型需在多種錯誤類型間頻繁切換適應(yīng),糾錯學(xué)習(xí)的針對性不強;
  • 動態(tài)適配能力薄弱:靜態(tài)構(gòu)建的訓(xùn)練集無法匹配模型訓(xùn)練過程中不斷變化的能力短板,易引發(fā)災(zāi)難性遺忘或訓(xùn)練資源浪費。

為應(yīng)對上述挑戰(zhàn),AP2O-Coder 借鑒人類按題型進(jìn)行的「錯題整理 - 專題突破 - 定期復(fù)盤」的學(xué)習(xí)模式,構(gòu)建了包含四大核心模塊的優(yōu)化框架,旨在實現(xiàn)錯誤信息的深度利用與模型能力的動態(tài)適配。

二、AP2O-Coder 的

核心技術(shù)框架與工作機制

AP2O-Coder 的核心設(shè)計思路是通過系統(tǒng)化流程實現(xiàn)錯誤類型的精準(zhǔn)捕捉、漸進(jìn)式優(yōu)化與動態(tài)適配,其整體框架包含四個關(guān)鍵步驟(如圖 1 所示):



圖 1:AP2O-Coder 框架流程圖

代碼生成評估(Exam)

為全面掌握目標(biāo)模型的初始能力邊界,該模塊讓 LLM 在 M 個編程任務(wù)上生成 N 個候選答案(采用溫度系數(shù) 1.0 的設(shè)置以充分探索能力范圍),通過配套的單元測試獲取每個答案的「通過 / 失敗」標(biāo)簽,形成初始訓(xùn)練數(shù)據(jù)集,為后續(xù)錯誤分析提供基礎(chǔ)。

錯誤診斷分析(Analysis)

借助編程語言專用分析工具(如 Python 解釋器)對所有失敗答案進(jìn)行結(jié)構(gòu)化解析,標(biāo)注具體錯誤類型并統(tǒng)計各類錯誤的出現(xiàn)頻率,按錯誤題型構(gòu)建結(jié)構(gòu)化的「錯題本」。該過程實現(xiàn)了從二元反饋到精細(xì)化錯誤信息的轉(zhuǎn)化,為針對性優(yōu)化提供數(shù)據(jù)支撐。

漸進(jìn)式偏好優(yōu)化(Correction)



自適應(yīng)錯誤回放(Quiz)

為適配模型訓(xùn)練過程中的能力變化,該模塊定期在一個小驗證集上評估模型性能,實時捕捉當(dāng)前階段的高頻錯誤類型,找出模型依舊犯錯的題型,將其對應(yīng)的失敗答案重新納入訓(xùn)練流程。通過動態(tài)調(diào)整訓(xùn)練數(shù)據(jù)分布,確保模型始終聚焦于當(dāng)前的能力短板,有效緩解災(zāi)難性遺忘問題。

三、實驗驗證與結(jié)果分析

研究團隊在 6 款主流 LLM(含代碼專用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 與通用模型 Llama3、Qwen2.5、Qwen3)上開展了系統(tǒng)驗證,參數(shù)規(guī)模覆蓋 0.5B - 34B,實驗基準(zhǔn)包括 EvalPlus(HumanEval/MBPP)與 LiveCodeBench v6,主要取得以下研究發(fā)現(xiàn):

性能提升的有效性

在不同類型與參數(shù)規(guī)模的模型上,AP2O-Coder 均展現(xiàn)出穩(wěn)定的性能改進(jìn)。如下表所示,在 EvalPlus(HumanEval)基準(zhǔn)上,AP2O-Coder (H2L) 即使對于 30B+ 的大參數(shù)模型,也能實現(xiàn) 2.8% - 3.4% 的性能優(yōu)化,且未出現(xiàn)現(xiàn)有后訓(xùn)練方法中性能退化現(xiàn)象。



表 1:各種類型和規(guī)模代碼的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表現(xiàn)。

錯誤抑制效果與泛化能力



圖 2:使用 Qwen2.5-Coder-7B 在測試基準(zhǔn)上出現(xiàn)錯誤的統(tǒng)計數(shù)據(jù)。



圖 3:使用 Qwen2.5-Coder-7B 在測驗階段對驗證集上的錯誤統(tǒng)計結(jié)果。我們的 AP2O-Coder 能夠逐步減少錯誤。

如圖 2 所示,相較于 SFT、DPO 等基線方法,AP2O-Coder 能夠有效降低各類錯誤的發(fā)生頻率,且未引入新的錯誤類型。如圖 3,在 Qwen2.5-Coder-7B 的實驗中,高頻錯誤「WrongResult」的發(fā)生率顯著下降,IndexError 等小眾錯誤在訓(xùn)練后期實現(xiàn)清零。同時,該方法在 pass@5、pass@10 等指標(biāo)上的穩(wěn)定提升(如圖 4),表明其增強了模型代碼生成的泛化能力。



圖 4:在不同模型規(guī)模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基準(zhǔn)上的 pass@5 和 pass@10 表現(xiàn)。

樣本效率的優(yōu)化



圖 5:用于在 MBPP 訓(xùn)練集上對不同規(guī)模的 Qwen2.5-Coder 進(jìn)行訓(xùn)練并達(dá)到最優(yōu)性能的偏好數(shù)據(jù)對需求。

AP2O-Coder 通過錯誤類型的精準(zhǔn)聚焦,顯著提升了訓(xùn)練數(shù)據(jù)的利用效率。實驗結(jié)果顯示,該方法僅需 4% - 60% 的偏好數(shù)據(jù)即可達(dá)到傳統(tǒng) DPO 方法的最優(yōu)性能,在 32B 參數(shù)規(guī)模的模型上,數(shù)據(jù)需求量減少更為明顯(如圖 5),這就和班上刷題時,優(yōu)等生所需刷題量更少類似,為低資源場景下的 LLM 代碼優(yōu)化提供了可行路徑。

通用 LLM 適配性



圖 6:在將通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)適配到代碼領(lǐng)域時,其在 EvalPlus (MBPP) 上的 pass@1 表現(xiàn)。

AP2O-Coder 不僅適用于代碼專用 LLM,也能有效支持通用 LLM 向代碼領(lǐng)域的適配。在 Qwen3、Llama3 等通用模型的實驗中,經(jīng)過該方法優(yōu)化后,模型在 MBPP 基準(zhǔn)上的 pass@1 分?jǐn)?shù)顯著提升,驗證了其跨模型類型的適配能力(如圖 6)。

四、研究發(fā)現(xiàn)與方法特性

實驗過程中,團隊發(fā)現(xiàn)了優(yōu)化策略與模型規(guī)模的適配規(guī)律:

對于Qwen2.5-Coder,小參數(shù)模型(≤ 3B)采用「低頻錯誤 -> 高頻錯誤」的優(yōu)化順序更具優(yōu)勢,這一策略可避免模型因能力有限而陷入高頻常見錯誤的學(xué)習(xí)困境,而讓小模型一開始能看到不同種類的錯誤,跳出局部最優(yōu);

大參數(shù)模型(≥ 7B)采用「高頻錯誤 -> 低頻錯誤」的順序效果更優(yōu),能夠充分發(fā)揮其強學(xué)習(xí)能力,快速實現(xiàn)整體錯誤率的下降。這一發(fā)現(xiàn)為不同規(guī)模 LLM 的代碼優(yōu)化提供了針對性參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
臺灣費盡心思安排到解放軍內(nèi)部的間諜,全都被李志豪給揪了出來

臺灣費盡心思安排到解放軍內(nèi)部的間諜,全都被李志豪給揪了出來

雪中風(fēng)車
2026-02-06 08:12:58
央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個難以原諒

央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個難以原諒

青橘罐頭
2026-02-18 07:08:27
陳慧琳稱金城武不會看社交軟件:他好像絕跡了

陳慧琳稱金城武不會看社交軟件:他好像絕跡了

紅星新聞
2026-03-01 15:33:08
斬首哈梅內(nèi)伊,活捉馬杜羅!你可以說美國壞,但真不能說美國菜

斬首哈梅內(nèi)伊,活捉馬杜羅!你可以說美國壞,但真不能說美國菜

垛垛糖
2026-03-02 12:18:19
請注意:伊朗的事情已經(jīng)再無懸念,川普應(yīng)已開始著手加拿大

請注意:伊朗的事情已經(jīng)再無懸念,川普應(yīng)已開始著手加拿大

邵旭峰域
2026-03-02 11:52:58
官方通報:上海市崇明區(qū)長興鎮(zhèn)一村干部被查

官方通報:上海市崇明區(qū)長興鎮(zhèn)一村干部被查

上觀新聞
2026-03-02 16:37:21
五角大樓擔(dān)心沖突不斷升級 官員稱導(dǎo)彈防御系統(tǒng)已“告急”

五角大樓擔(dān)心沖突不斷升級 官員稱導(dǎo)彈防御系統(tǒng)已“告急”

財聞
2026-03-02 17:48:31
從1200萬到100萬,日本圍棋實際被精致利己主義毀掉了

從1200萬到100萬,日本圍棋實際被精致利己主義毀掉了

月滿大江流
2026-03-01 14:52:46
抗美援朝被彭總火線撤職的5位師級將領(lǐng),后來都授了什么軍銜

抗美援朝被彭總火線撤職的5位師級將領(lǐng),后來都授了什么軍銜

鶴羽說個事
2026-03-01 18:26:08
哈梅尸體被找到,伊朗發(fā)起五波反制,美軍損失慘重,中國開始行動

哈梅尸體被找到,伊朗發(fā)起五波反制,美軍損失慘重,中國開始行動

影孖看世界
2026-03-01 18:08:56
大陸為什么總是演習(xí),遲遲不進(jìn)攻臺灣?看看金門島戰(zhàn)役就知道了!

大陸為什么總是演習(xí),遲遲不進(jìn)攻臺灣?看看金門島戰(zhàn)役就知道了!

煙斂的寒林
2026-02-11 22:31:12
哈梅內(nèi)伊遇難,革命衛(wèi)隊對海灣多國無差別攻擊,十萬援兵已經(jīng)參戰(zhàn)

哈梅內(nèi)伊遇難,革命衛(wèi)隊對海灣多國無差別攻擊,十萬援兵已經(jīng)參戰(zhàn)

古史青云啊
2026-03-02 17:23:05
網(wǎng)友詢問:哈梅內(nèi)伊為何不給民主發(fā)槍抵抗,評論區(qū)炸鍋,輿論撕裂

網(wǎng)友詢問:哈梅內(nèi)伊為何不給民主發(fā)槍抵抗,評論區(qū)炸鍋,輿論撕裂

眼光很亮
2026-03-01 16:12:51
讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

陌上桃花開的
2026-02-28 16:16:42
哈梅內(nèi)伊死了,美伊戰(zhàn)爭烈度比想象的要大很多

哈梅內(nèi)伊死了,美伊戰(zhàn)爭烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
伊朗真要干掉美軍航母!4枚彈道導(dǎo)彈突擊林肯航母:別急這才開始

伊朗真要干掉美軍航母!4枚彈道導(dǎo)彈突擊林肯航母:別急這才開始

時負(fù)相知
2026-03-02 16:39:59
導(dǎo)彈飛向航母,特朗普緊急剎車,伊朗的內(nèi)鬼,終于藏不住了

導(dǎo)彈飛向航母,特朗普緊急剎車,伊朗的內(nèi)鬼,終于藏不住了

書紀(jì)文譚
2026-03-02 17:25:17
苑舉正預(yù)言:一旦美以伊開戰(zhàn),中國將獲得長達(dá)20年的戰(zhàn)略緩沖時間

苑舉正預(yù)言:一旦美以伊開戰(zhàn),中國將獲得長達(dá)20年的戰(zhàn)略緩沖時間

林子說事
2026-03-02 17:05:05
佩林卡神操作?加盟湖人的肯納德,什么水平?

佩林卡神操作?加盟湖人的肯納德,什么水平?

籃球?qū)嶄?/span>
2026-03-02 14:57:08
油市“末日時鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國將被迫停產(chǎn)?

油市“末日時鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國將被迫停產(chǎn)?

財聯(lián)社
2026-03-02 14:08:05
2026-03-02 18:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12393文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當(dāng)天不幸離世 家中有3個孩子

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當(dāng)天不幸離世 家中有3個孩子

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

本地
旅游
數(shù)碼
教育
房產(chǎn)

本地新聞

津南好·四時總相宜

旅游要聞

河南上元節(jié)去哪兒觀燈逛廟會?超全攻略在此,跟著逛就對了!

數(shù)碼要聞

AMD發(fā)布Ryzen AI PRO 400系列桌面處理器 針對AI計算優(yōu)化

教育要聞

2月28日雅思大作文示范寫作 | 違規(guī)駕駛成因與最優(yōu)對策分析

房產(chǎn)要聞

配套大升級!三亞灣,終于迎來一批頂豪酒店!

無障礙瀏覽 進(jìn)入關(guān)懷版