網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

華人一作！Meta等復(fù)刻AlphaZero神話，AI甩開人類自修成神

2025-12-27 21:04:09　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇好困

【新智元導(dǎo)讀】當(dāng)模型學(xué)會「左右互搏」的那一刻，平庸的模仿時代結(jié)束了，真正的硅基編程奇跡剛剛開始。

編程界的AlphaZero時刻，終于來了？

當(dāng)年，AlphaZero拋棄人類棋譜，僅憑「左右互搏」便參透了超越千年的棋道。

而今天，AI程序員的致命傷，恰恰就在于它們太像「人」了——

靠學(xué)習(xí)人類代碼長大的AI，注定無法突破人類的平庸。

就在最近，來自Meta、UIUC和CMU的研究團隊，憑借最新成果Self-play SWE-RL（SSR），正在試圖復(fù)刻AlphaZero的神話——

拋棄人類教師，拒絕模仿。

論文地址：https://arxiv.org/pdf/2512.18552

只要給AI一個代碼庫，讓它分飾「破壞者」與「修復(fù)者」進行死斗。

在這場無需人類插手的自我博弈中，一種真正的、超越人類經(jīng)驗的編程奇跡，正在誕生。

被「喂養(yǎng)」的AI與人類數(shù)據(jù)的天花板

從Devin到OpenDevin，再到各大廠內(nèi)部的代碼助手，它們確實能幫程序員干不少臟活累活。

但這里有一個隱形的瓶頸。

目前主流的訓(xùn)練方法，無論是SWE-RL還是DeepSWE，本質(zhì)上都是在教AI「模仿」。

這種依賴人類知識的模式有三個致命傷：

數(shù)據(jù)不夠用：高質(zhì)量的、帶測試用例、帶詳細(xì)描述的Bug修復(fù)數(shù)據(jù)，其實非常稀缺。
質(zhì)量不可靠：人類寫的issue經(jīng)常含糊不清，測試用例也不一定完美，這導(dǎo)致訓(xùn)練信號充滿了噪聲。
天花板太低：如果AI只是模仿人類，它頂多變成一個平庸的初級程序員。

這也是為什么論文把它稱作通向超級智能的一道根本性障礙：

一旦訓(xùn)練信號必須由人類提供，你就很難想象它能無限擴展到「開放式、自我進化」的層級。

核心玩法

代碼沙盒里的「搏擊俱樂部」

SSR的核心理念非常簡單，卻又極其精妙：自博弈（Self-Play）。

在這個系統(tǒng)中，同一個LLM被賦予了兩個截然不同、相互對抗的角色。

角色一

破壞者（Bug注入智能體）

它的任務(wù)不是寫代碼，而是搞破壞。

給它一個正常的開源項目（比如一個Python庫），它需要潛入進去，研究代碼邏輯，然后制造一個Bug。

但這個破壞者不能隨便亂來（比如刪掉所有文件），它需要生成一套完整的「作案工具包」（Artifacts）：

bug_inject.diff ：這是真正的破壞補丁，把代碼改壞。

test_script.sh ：一個能運行測試的腳本，證明Bug確實存在。

test_files.txt ：指定哪些測試文件是用來驗證這個Bug的。

test_parser.py ：一個解析器，用來把測試結(jié)果翻譯成機器能讀懂的JSON格式。

test_weaken.diff ：它會修改或刪除現(xiàn)有的測試用例，讓Bug在當(dāng)前的測試套件下不報錯。

在SSR中，缺陷生成是一項由破壞者智能體執(zhí)行的任務(wù)，該智能體利用工具與執(zhí)行環(huán)境交互以生成缺陷工件，并進一步驗證其一致性后提供給修復(fù)者智能體。

一個優(yōu)秀的破壞者智能體的關(guān)鍵特性在于其能夠生成多樣化的缺陷，以捕捉真實軟件開發(fā)中的復(fù)雜性，從而在廣泛的軟件調(diào)試與工程場景中訓(xùn)練修復(fù)者智能體。

角色二

修復(fù)者（Bug解決智能體）

當(dāng)破壞者完成工作后，輪到修復(fù)者登場了。

修復(fù)者面對的是一個被注入了Bug，且測試被「弱化」了的代碼庫。

修復(fù)者拿到的任務(wù)非常具有挑戰(zhàn)性，它看不到那個原始的Bug是怎么注入的，它必須像一個偵探一樣，通過閱讀代碼、運行測試、分析報錯，最終寫出一個修復(fù)補?。‵ix Patch）。

通過破壞者和修復(fù)者兩種模型角色的對抗，可以讓模型實現(xiàn)閉環(huán)進化。

讓魔法打敗魔法

如何保證AI不「瞎編」？

如果你讓AI隨便生成Bug，它大概率會產(chǎn)生幻覺，為此SSR設(shè)計了一套如同安檢般嚴(yán)格的一致性驗證（Consistency Verification）流程。

一個合格的Bug工件，必須通過以下所有關(guān)卡：

存在性檢查：引用的測試文件，原倉庫要有；
解析器檢查：Python解析器要能讀懂測試輸出；
腳本有效性：在沒改壞代碼之前，測試腳本要跑得通；
Bug范圍控制：改動的文件數(shù)量要適當(dāng)，符合設(shè)定的難度。
Bug有效性（關(guān)鍵）：注入Bug后，原本通過的測試必須變失敗。如果注入了Bug測試還通過，說明Bug根本沒生效。
掩蓋有效性：應(yīng)用了「掩蓋補丁」后，原本失敗的測試必須變通過，證明成功欺騙了測試套件。

最精彩的一招

逆向變異測試

逆向變異測試（Inverse Mutation Testing），是一個為了驗證Bug質(zhì)量而發(fā)明的新概念。

傳統(tǒng)的變異測試是改亂代碼看測試能不能發(fā)現(xiàn)。

而逆向變異測試剛好反過來，把Bug涉及的文件逐個恢復(fù)成原樣。

如果恢復(fù)某個文件后，失敗的測試變通過了，說明這個文件確實是Bug的起因。
如果恢復(fù)了文件測試還是有問題，說明這個文件跟Bug沒關(guān)系。

這一步確保了AI生成的每一個改動都是必要的。

如何制造一個「完美」的Bug？

如果「破壞者」只是簡單地把x=1改成x=0，那「修復(fù)者」學(xué)不到任何東西。

為了讓AI變得更聰明，研究團隊探索了幾種極具創(chuàng)意的Bug注入策略。

策略A

直接注入（Direct Injection）

告訴AI：「去，搞個Bug出來」，這是最笨的方法。

結(jié)果不出所料，AI經(jīng)常就在代碼里隨便改個數(shù)字或符號。

這種Bug太膚淺，修復(fù)者一眼就能看穿，訓(xùn)練效果最差。

策略B

暴力刪除（Removal-only）

告訴AI：「把這塊核心功能的代碼刪了！」

這逼迫修復(fù)者必須根據(jù)上下文和剩余的測試代碼，重新實現(xiàn)這部分功能。

如此一來，能極大地鍛煉AI的代碼重構(gòu)和理解能力。

策略C

歷史回滾（History Rollback）

告訴AI：「去翻翻以前的提交記錄，把代碼回滾到某個舊版本?！?/p>

因為代碼庫的歷史往往充滿了真實的Bug和功能的演進。

讓AI面對過去的代碼狀態(tài)，相當(dāng)于讓它重新經(jīng)歷一次項目演化的過程。這種生成的Bug最自然，最具實戰(zhàn)意義。

實驗證明，「刪除策略」和「歷史回滾」混合使用，效果最好。這既保證了難度，又保證了真實性。

終極殺招

高階Bug

如果修復(fù)者嘗試修復(fù)Bug但失敗了，SSR認(rèn)為這也可以「廢物再回收利用」。

修復(fù)者失敗的代碼，往往是一個半成品——它可能修好了一部分，但引入了新問題。這不就是一個更復(fù)雜、更隱蔽的Bug嗎？

系統(tǒng)會將這個「失敗的修復(fù)」作為新的Bug狀態(tài)，再次扔給修復(fù)者。

這種多輪次、分層級的故障模式，極大地豐富了訓(xùn)練數(shù)據(jù)的維度。

殘酷的獎勵機制與對抗博弈

在強化學(xué)習(xí)中，獎勵函數(shù)是指揮棒。

SSR的獎勵設(shè)計充滿了一種「微妙的平衡感」。

對于修復(fù)者，獎勵很簡單：全對得+1分，否則-1分。成王敗寇。

但對于破壞者，這就很有趣了。

如果破壞者生成的Bug太簡單，修復(fù)者每次都能修好（解決率s=1），破壞者得不到高分。
如果Bug太難，根本修不好（解決率s=0），破壞者會被懲罰（因為它可能生成了邏輯矛盾的死局）。

SSR采用了一個基于解決率s的公式：

其中，s∈[0,1]是解決率（solver成功修復(fù)bug的比例），α∈(0,1)是一個超參數(shù)，用于控制對退化解決率的懲罰強度，在實驗中設(shè)置為0.8。

它的意思是：最好的Bug，是那些讓修復(fù)者感到棘手、通過率不高不低、處于「能力邊界」上的Bug。

這迫使破壞者不斷提升難度，正好卡在修復(fù)者「跳一跳夠得著」的地方，從而推動雙方共同進化。

戰(zhàn)果揭曉

AI真的變強了嗎？

研究團隊使用了Code World Model（CWM）的32B模型作為底座，在512個H100 GPU上進行了訓(xùn)練。

他們在兩個權(quán)威榜單上進行了測試：

SWE-bench Verified：經(jīng)過人工驗證的真實GitHub issue集合。
SWE-Bench Pro：更復(fù)雜、更企業(yè)級的問題集合。

競爭對手是基于同樣模型架構(gòu)、同樣環(huán)境鏡像，但使用「人類數(shù)據(jù)」（Human Data）訓(xùn)練出來的基準(zhǔn)模型。

所謂人類數(shù)據(jù)基準(zhǔn)，就是用傳統(tǒng)的「Issue描述+測試用例」方式訓(xùn)練的。

結(jié)果令人振奮：

SSR完勝：在整個訓(xùn)練軌跡中，SSR的表現(xiàn)始終高于「人類數(shù)據(jù)」基準(zhǔn)。
分?jǐn)?shù)提升：在SWE-bench Verified上提升了10.4%，在SWE-Bench Pro上提升了7.8%。
零樣本泛化：SSR在訓(xùn)練時從未見過任何自然語言描述的Issue，它只看過代碼和測試。但在測試時，它卻能完美處理帶有Issue描述的任務(wù)。這說明它學(xué)到的不是「做題技巧」，而是真正的「編程內(nèi)功」。

測試結(jié)果顯示，隨著訓(xùn)練步數(shù)的增加，SSR的能力穩(wěn)步上升，而沒有出現(xiàn)過擬合或崩潰，證明了自博弈產(chǎn)生的「課程」是持續(xù)有效的。

通向超級智能的最后一塊拼圖

SSR的出現(xiàn)，意味著我們終于找到了一條擺脫「數(shù)據(jù)饑渴」的路徑。

以前我們認(rèn)為，要想AI寫好代碼，必須有無數(shù)的人類程序員貢獻代碼和修Bug的記錄。

現(xiàn)在SSR告訴我們：只要有代碼庫（Raw Code）就夠了。

當(dāng)然，SSR還只是第一步。

它目前的驗證還主要依賴單元測試，還沒法處理那種跨越數(shù)月的大型重構(gòu)任務(wù)。

但它指明了方向：

超智能軟件系統(tǒng)的誕生，可能不需要人類作為老師，只需要人類的代碼作為戰(zhàn)場。

作者簡介

Yuxiang Wei

Yuxiang Wei

Yuxiang Wei是伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）計算機科學(xué)系的博士生，由Lingming Zhang教授指導(dǎo)。

他同時在Meta FAIR擔(dān)任兼職研究員，與Sida Wang、Daniel Fried等人合作，致力于推進大型語言模型（LLM）在代碼智能方面的應(yīng)用。

Zhiqing Sun

Zhiqing Sun

Zhiqing Sun是Meta超級智能實驗室（MSL）TBD Lab的AI研究科學(xué)家，專注于訓(xùn)練大型語言模型（LLM）用于深度研究、代理開發(fā)和復(fù)雜任務(wù)。

此前，他在OpenAI的后訓(xùn)練團隊擔(dān)任研究科學(xué)家，并曾在AllenNLP和MIT-IBM Watson AI Lab實習(xí)。

Zhiqing Sun于2025年2月在卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所獲得計算機科學(xué)博士學(xué)位，并在北京大學(xué)獲得計算機科學(xué)專業(yè)榮譽學(xué)士學(xué)位。

David Zhang

David Zhang

David Zhang是Meta基礎(chǔ)AI研究（FAIR）巴黎實驗室的研究科學(xué)家，專攻使用LLM的代碼生成機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。

David Zhang擁有阿姆斯特丹大學(xué)機器學(xué)習(xí)博士學(xué)位、慕尼黑工業(yè)大學(xué)計算機科學(xué)碩士和學(xué)士學(xué)位。

Lingming Zhang

Lingming Zhang

Lingming Zhang是伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）計算機科學(xué)系的副教授，隸屬于Grainger工程學(xué)院。

他的研究融合軟件工程、編程語言、形式方法和機器學(xué)習(xí)，重點關(guān)注基于LLM的軟件測試、分析、修復(fù)和合成。

Sida Wang

Sida Wang

Sida Wang是Meta基礎(chǔ)AI研究（FAIR）西雅圖實驗室的研究科學(xué)家，專注于自然語言處理、機器學(xué)習(xí)和代碼大型語言模型（LLM）。

此前，他在普林斯頓大學(xué)和高等研究院（IAS）擔(dān)任研究講師，并于2017年在斯坦福大學(xué)獲得計算機科學(xué)博士學(xué)位（由Chris Manning和Percy Liang聯(lián)合指導(dǎo)）。

他持有多倫多大學(xué)應(yīng)用科學(xué)學(xué)士學(xué)位，曾在Geoffrey Hinton指導(dǎo)下研究膠囊網(wǎng)絡(luò)。

參考資料：

https://x.com/YuxiangWei9/status/2003541373853524347%20

https://arxiv.org/abs/2512.18552

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo)，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.