国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華人一作!Meta等復(fù)刻AlphaZero神話,AI甩開人類自修成神

0
分享至


新智元報道

編輯:元宇 好困

【新智元導(dǎo)讀】當(dāng)模型學(xué)會「左右互搏」的那一刻,平庸的模仿時代結(jié)束了,真正的硅基編程奇跡剛剛開始。

編程界的AlphaZero時刻,終于來了?

當(dāng)年,AlphaZero拋棄人類棋譜,僅憑「左右互搏」便參透了超越千年的棋道。

而今天,AI程序員的致命傷,恰恰就在于它們太像「人」了——

靠學(xué)習(xí)人類代碼長大的AI,注定無法突破人類的平庸。

就在最近,來自Meta、UIUC和CMU的研究團隊,憑借最新成果Self-play SWE-RL(SSR,正在試圖復(fù)刻AlphaZero的神話——

拋棄人類教師,拒絕模仿。


論文地址:https://arxiv.org/pdf/2512.18552

只要給AI一個代碼庫,讓它分飾「破壞者」與「修復(fù)者」進行死斗。

在這場無需人類插手的自我博弈中,一種真正的、超越人類經(jīng)驗的編程奇跡,正在誕生。


被「喂養(yǎng)」的AI與人類數(shù)據(jù)的天花板

從Devin到OpenDevin,再到各大廠內(nèi)部的代碼助手,它們確實能幫程序員干不少臟活累活。

但這里有一個隱形的瓶頸

目前主流的訓(xùn)練方法,無論是SWE-RL還是DeepSWE,本質(zhì)上都是在教AI「模仿」。

這種依賴人類知識的模式有三個致命傷:

  • 數(shù)據(jù)不夠用:高質(zhì)量的、帶測試用例、帶詳細(xì)描述的Bug修復(fù)數(shù)據(jù),其實非常稀缺。

  • 質(zhì)量不可靠:人類寫的issue經(jīng)常含糊不清,測試用例也不一定完美,這導(dǎo)致訓(xùn)練信號充滿了噪聲。

  • 天花板太低:如果AI只是模仿人類,它頂多變成一個平庸的初級程序員。

這也是為什么論文把它稱作通向超級智能的一道根本性障礙:

一旦訓(xùn)練信號必須由人類提供,你就很難想象它能無限擴展到「開放式、自我進化」的層級。

核心玩法

代碼沙盒里的「搏擊俱樂部」

SSR的核心理念非常簡單,卻又極其精妙:自博弈(Self-Play)。


在這個系統(tǒng)中,同一個LLM被賦予了兩個截然不同、相互對抗的角色。

角色一

破壞者(Bug注入智能體)

它的任務(wù)不是寫代碼,而是搞破壞。

給它一個正常的開源項目(比如一個Python庫),它需要潛入進去,研究代碼邏輯,然后制造一個Bug。

但這個破壞者不能隨便亂來(比如刪掉所有文件),它需要生成一套完整的「作案工具包」(Artifacts):

bug_inject.diff :這是真正的破壞補丁,把代碼改壞。

test_script.sh :一個能運行測試的腳本,證明Bug確實存在。

test_files.txt :指定哪些測試文件是用來驗證這個Bug的。

test_parser.py :一個解析器,用來把測試結(jié)果翻譯成機器能讀懂的JSON格式。

test_weaken.diff :它會修改或刪除現(xiàn)有的測試用例,讓Bug在當(dāng)前的測試套件下不報錯。


在SSR中,缺陷生成是一項由破壞者智能體執(zhí)行的任務(wù),該智能體利用工具與執(zhí)行環(huán)境交互以生成缺陷工件,并進一步驗證其一致性后提供給修復(fù)者智能體。


一個優(yōu)秀的破壞者智能體的關(guān)鍵特性在于其能夠生成多樣化的缺陷,以捕捉真實軟件開發(fā)中的復(fù)雜性,從而在廣泛的軟件調(diào)試與工程場景中訓(xùn)練修復(fù)者智能體。


角色二

修復(fù)者(Bug解決智能體)

當(dāng)破壞者完成工作后,輪到修復(fù)者登場了。

修復(fù)者面對的是一個被注入了Bug,且測試被「弱化」了的代碼庫。


修復(fù)者拿到的任務(wù)非常具有挑戰(zhàn)性,它看不到那個原始的Bug是怎么注入的,它必須像一個偵探一樣,通過閱讀代碼、運行測試、分析報錯,最終寫出一個修復(fù)補?。‵ix Patch)。


通過破壞者和修復(fù)者兩種模型角色的對抗,可以讓模型實現(xiàn)閉環(huán)進化。

讓魔法打敗魔法

如何保證AI不「瞎編」?

如果你讓AI隨便生成Bug,它大概率會產(chǎn)生幻覺,為此SSR設(shè)計了一套如同安檢般嚴(yán)格的一致性驗證(Consistency Verification)流程。

一個合格的Bug工件,必須通過以下所有關(guān)卡:

  • 存在性檢查:引用的測試文件,原倉庫要有;

  • 解析器檢查:Python解析器要能讀懂測試輸出;

  • 腳本有效性:在沒改壞代碼之前,測試腳本要跑得通;

  • Bug范圍控制:改動的文件數(shù)量要適當(dāng),符合設(shè)定的難度。

  • Bug有效性(關(guān)鍵):注入Bug后,原本通過的測試必須變失敗。如果注入了Bug測試還通過,說明Bug根本沒生效。

  • 掩蓋有效性:應(yīng)用了「掩蓋補丁」后,原本失敗的測試必須變通過,證明成功欺騙了測試套件。


最精彩的一招

逆向變異測試

逆向變異測試(Inverse Mutation Testing),是一個為了驗證Bug質(zhì)量而發(fā)明的新概念。

傳統(tǒng)的變異測試是改亂代碼看測試能不能發(fā)現(xiàn)。

而逆向變異測試剛好反過來,把Bug涉及的文件逐個恢復(fù)成原樣。

  • 如果恢復(fù)某個文件后,失敗的測試變通過了,說明這個文件確實是Bug的起因。

  • 如果恢復(fù)了文件測試還是有問題,說明這個文件跟Bug沒關(guān)系。

這一步確保了AI生成的每一個改動都是必要的。

如何制造一個「完美」的Bug?

如果「破壞者」只是簡單地把x=1改成x=0,那「修復(fù)者」學(xué)不到任何東西。

為了讓AI變得更聰明,研究團隊探索了幾種極具創(chuàng)意的Bug注入策略。

策略A

直接注入(Direct Injection)

告訴AI:「去,搞個Bug出來」,這是最笨的方法。

結(jié)果不出所料,AI經(jīng)常就在代碼里隨便改個數(shù)字或符號。

這種Bug太膚淺,修復(fù)者一眼就能看穿,訓(xùn)練效果最差。

策略B

暴力刪除(Removal-only)

告訴AI:「把這塊核心功能的代碼刪了!」

這逼迫修復(fù)者必須根據(jù)上下文和剩余的測試代碼,重新實現(xiàn)這部分功能。

如此一來,能極大地鍛煉AI的代碼重構(gòu)和理解能力。

策略C

歷史回滾(History Rollback)

告訴AI:「去翻翻以前的提交記錄,把代碼回滾到某個舊版本?!?/p>

因為代碼庫的歷史往往充滿了真實的Bug和功能的演進。

讓AI面對過去的代碼狀態(tài),相當(dāng)于讓它重新經(jīng)歷一次項目演化的過程。這種生成的Bug最自然,最具實戰(zhàn)意義。

實驗證明,「刪除策略」和「歷史回滾」混合使用,效果最好。這既保證了難度,又保證了真實性。

終極殺招

高階Bug

如果修復(fù)者嘗試修復(fù)Bug但失敗了,SSR認(rèn)為這也可以「廢物再回收利用」。

修復(fù)者失敗的代碼,往往是一個半成品——它可能修好了一部分,但引入了新問題。這不就是一個更復(fù)雜、更隱蔽的Bug嗎?

系統(tǒng)會將這個「失敗的修復(fù)」作為新的Bug狀態(tài),再次扔給修復(fù)者。

這種多輪次、分層級的故障模式,極大地豐富了訓(xùn)練數(shù)據(jù)的維度。

殘酷的獎勵機制與對抗博弈

在強化學(xué)習(xí)中,獎勵函數(shù)是指揮棒。

SSR的獎勵設(shè)計充滿了一種「微妙的平衡感」。


對于修復(fù)者,獎勵很簡單:全對得+1分,否則-1分。成王敗寇。

但對于破壞者,這就很有趣了。

  • 如果破壞者生成的Bug太簡單,修復(fù)者每次都能修好(解決率s=1),破壞者得不到高分。

  • 如果Bug太難,根本修不好(解決率s=0),破壞者會被懲罰(因為它可能生成了邏輯矛盾的死局)。

SSR采用了一個基于解決率s的公式:


其中,s∈[0,1]是解決率(solver成功修復(fù)bug的比例),α∈(0,1)是一個超參數(shù),用于控制對退化解決率的懲罰強度,在實驗中設(shè)置為0.8。

它的意思是:最好的Bug,是那些讓修復(fù)者感到棘手、通過率不高不低、處于「能力邊界」上的Bug。

這迫使破壞者不斷提升難度,正好卡在修復(fù)者「跳一跳夠得著」的地方,從而推動雙方共同進化。

戰(zhàn)果揭曉

AI真的變強了嗎?

研究團隊使用了Code World Model(CWM)的32B模型作為底座,在512個H100 GPU上進行了訓(xùn)練。

他們在兩個權(quán)威榜單上進行了測試:

  • SWE-bench Verified:經(jīng)過人工驗證的真實GitHub issue集合。

  • SWE-Bench Pro:更復(fù)雜、更企業(yè)級的問題集合。

競爭對手是基于同樣模型架構(gòu)、同樣環(huán)境鏡像,但使用「人類數(shù)據(jù)」(Human Data)訓(xùn)練出來的基準(zhǔn)模型。

所謂人類數(shù)據(jù)基準(zhǔn),就是用傳統(tǒng)的「Issue描述+測試用例」方式訓(xùn)練的。


結(jié)果令人振奮:

  • SSR完勝:在整個訓(xùn)練軌跡中,SSR的表現(xiàn)始終高于「人類數(shù)據(jù)」基準(zhǔn)。

  • 分?jǐn)?shù)提升:在SWE-bench Verified上提升了10.4%,在SWE-Bench Pro上提升了7.8%。

  • 零樣本泛化:SSR在訓(xùn)練時從未見過任何自然語言描述的Issue,它只看過代碼和測試。但在測試時,它卻能完美處理帶有Issue描述的任務(wù)。這說明它學(xué)到的不是「做題技巧」,而是真正的「編程內(nèi)功」。

測試結(jié)果顯示,隨著訓(xùn)練步數(shù)的增加,SSR的能力穩(wěn)步上升,而沒有出現(xiàn)過擬合或崩潰,證明了自博弈產(chǎn)生的「課程」是持續(xù)有效的。

通向超級智能的最后一塊拼圖

SSR的出現(xiàn),意味著我們終于找到了一條擺脫「數(shù)據(jù)饑渴」的路徑。

以前我們認(rèn)為,要想AI寫好代碼,必須有無數(shù)的人類程序員貢獻代碼和修Bug的記錄。

現(xiàn)在SSR告訴我們:只要有代碼庫(Raw Code)就夠了。

當(dāng)然,SSR還只是第一步。

它目前的驗證還主要依賴單元測試,還沒法處理那種跨越數(shù)月的大型重構(gòu)任務(wù)。

但它指明了方向:

超智能軟件系統(tǒng)的誕生,可能不需要人類作為老師,只需要人類的代碼作為戰(zhàn)場。

作者簡介

Yuxiang Wei


Yuxiang Wei

Yuxiang Wei是伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)計算機科學(xué)系的博士生,由Lingming Zhang教授指導(dǎo)。

他同時在Meta FAIR擔(dān)任兼職研究員,與Sida Wang、Daniel Fried等人合作,致力于推進大型語言模型(LLM)在代碼智能方面的應(yīng)用。

Zhiqing Sun


Zhiqing Sun

Zhiqing Sun是Meta超級智能實驗室(MSL)TBD Lab的AI研究科學(xué)家,專注于訓(xùn)練大型語言模型(LLM)用于深度研究、代理開發(fā)和復(fù)雜任務(wù)。

此前,他在OpenAI的后訓(xùn)練團隊擔(dān)任研究科學(xué)家,并曾在AllenNLP和MIT-IBM Watson AI Lab實習(xí)。

Zhiqing Sun于2025年2月在卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所獲得計算機科學(xué)博士學(xué)位,并在北京大學(xué)獲得計算機科學(xué)專業(yè)榮譽學(xué)士學(xué)位。

David Zhang


David Zhang

David Zhang是Meta基礎(chǔ)AI研究(FAIR)巴黎實驗室的研究科學(xué)家,專攻使用LLM的代碼生成機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。

David Zhang擁有阿姆斯特丹大學(xué)機器學(xué)習(xí)博士學(xué)位、慕尼黑工業(yè)大學(xué)計算機科學(xué)碩士和學(xué)士學(xué)位。

Lingming Zhang


Lingming Zhang

Lingming Zhang是伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)計算機科學(xué)系的副教授,隸屬于Grainger工程學(xué)院。

他的研究融合軟件工程、編程語言、形式方法和機器學(xué)習(xí),重點關(guān)注基于LLM的軟件測試、分析、修復(fù)和合成。

Sida Wang


Sida Wang

Sida Wang是Meta基礎(chǔ)AI研究(FAIR)西雅圖實驗室的研究科學(xué)家,專注于自然語言處理、機器學(xué)習(xí)和代碼大型語言模型(LLM)。

此前,他在普林斯頓大學(xué)和高等研究院(IAS)擔(dān)任研究講師,并于2017年在斯坦福大學(xué)獲得計算機科學(xué)博士學(xué)位(由Chris Manning和Percy Liang聯(lián)合指導(dǎo))。

他持有多倫多大學(xué)應(yīng)用科學(xué)學(xué)士學(xué)位,曾在Geoffrey Hinton指導(dǎo)下研究膠囊網(wǎng)絡(luò)。

參考資料:

https://x.com/YuxiangWei9/status/2003541373853524347%20

https://arxiv.org/abs/2512.18552

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為何印度總想霸占西藏?一旦西藏丟了,中國人連喝水都要看人臉色

為何印度總想霸占西藏?一旦西藏丟了,中國人連喝水都要看人臉色

鵬飛展翅
2024-07-10 15:35:01
世界第2第3爆冷失利!驚現(xiàn)第2桿147!趙心童2勝2負(fù)肖國棟2勝1負(fù)

世界第2第3爆冷失利!驚現(xiàn)第2桿147!趙心童2勝2負(fù)肖國棟2勝1負(fù)

求球不落諦
2026-01-09 04:49:02
下課 3 天就上崗?阿莫林被曝接班穆帥 曼聯(lián) 14 個月鬧劇終收場

下課 3 天就上崗?阿莫林被曝接班穆帥 曼聯(lián) 14 個月鬧劇終收場

瀾歸序
2026-01-09 02:55:40
色字頭上一把刀!沈陽一男子追求00后女生“霸王硬上弓”,被判刑

色字頭上一把刀!沈陽一男子追求00后女生“霸王硬上弓”,被判刑

火山詩話
2026-01-09 08:45:32
不愧是HBO,這部9.5分美劇太頂

不愧是HBO,這部9.5分美劇太頂

小老頭奇聞
2026-01-09 09:02:11
以為是假新聞其實是真新聞,從袁立到王星,件件離譜又驚人

以為是假新聞其實是真新聞,從袁立到王星,件件離譜又驚人

上官晚安
2026-01-06 08:08:35
解密加勒萬河谷沖突全過程,我軍是如何以80人擊潰印軍600人的?

解密加勒萬河谷沖突全過程,我軍是如何以80人擊潰印軍600人的?

阿胡
2024-12-02 14:33:09
女網(wǎng)紅流落柬埔寨后續(xù),醫(yī)生檢查結(jié)果曝光:小便困難,毒品呈陽性

女網(wǎng)紅流落柬埔寨后續(xù),醫(yī)生檢查結(jié)果曝光:小便困難,毒品呈陽性

凡知
2026-01-08 07:46:45
慈禧太后一天的生活開銷,放在今天,大概需要多少人民幣維持?

慈禧太后一天的生活開銷,放在今天,大概需要多少人民幣維持?

銘記歷史呀
2026-01-08 08:42:11
段永平苦心相勸,王石終究沒聽進去

段永平苦心相勸,王石終究沒聽進去

五味財經(jīng)
2026-01-05 14:00:49
閆學(xué)晶哭窮遭質(zhì)疑?導(dǎo)演力挺:北京一年花100萬真不多,她沒說謊

閆學(xué)晶哭窮遭質(zhì)疑?導(dǎo)演力挺:北京一年花100萬真不多,她沒說謊

代軍哥哥談娛樂
2026-01-08 10:44:33
“第一次知道微信支付還有這功能”沖上熱搜!網(wǎng)友:希望用不上

“第一次知道微信支付還有這功能”沖上熱搜!網(wǎng)友:希望用不上

環(huán)球網(wǎng)資訊
2026-01-09 10:05:56
韓國人給的太多了!辛納阿卡空降澳網(wǎng),一場表演賽各賺200萬歐

韓國人給的太多了!辛納阿卡空降澳網(wǎng),一場表演賽各賺200萬歐

全景體育V
2026-01-09 06:31:56
央企重組大動作!中國石油化工集團與中國航空油料集團實施重組

央企重組大動作!中國石油化工集團與中國航空油料集團實施重組

新京報
2026-01-08 18:20:05
心臟裝了6個支架的王石日本看病實錄,值得深思

心臟裝了6個支架的王石日本看病實錄,值得深思

深度報
2026-01-01 23:17:29
醫(yī)生降薪這么嚴(yán)重的嗎?

醫(yī)生降薪這么嚴(yán)重的嗎?

挪威Talk
2026-01-07 12:41:38
爭議!U23亞洲杯賽后:抱摔拜合拉木漏判點球?對方主教練夸李昊

爭議!U23亞洲杯賽后:抱摔拜合拉木漏判點球?對方主教練夸李昊

大秦壁虎白話體育
2026-01-09 05:55:02
有錢人都往美國跑,為什么大家都在說美國的斬殺線?

有錢人都往美國跑,為什么大家都在說美國的斬殺線?

楓冷慕詩
2026-01-08 11:43:40
隨著中國男足0-0西亞勁旅,澳大利亞2-0,亞洲杯最新積分榜出爐

隨著中國男足0-0西亞勁旅,澳大利亞2-0,亞洲杯最新積分榜出爐

側(cè)身凌空斬
2026-01-09 00:01:22
安帥2大失誤:鮑世蒙開場5分鐘弄傷自己,蒯紀(jì)聞最后2分鐘才上場

安帥2大失誤:鮑世蒙開場5分鐘弄傷自己,蒯紀(jì)聞最后2分鐘才上場

茜子足球
2026-01-09 01:20:07
2026-01-09 12:15:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14291文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

17.68萬起售!何小鵬一口氣發(fā)了4款車

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

上汽大眾首款“9系旗艦” ID. ERA 9X實車曝光

態(tài)度原創(chuàng)

藝術(shù)
教育
游戲
家居
本地

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

教育要聞

同一App差評好評吵翻!學(xué)生喊下架,家長卻瘋狂囤攻略

國產(chǎn)《仙劍世界》新角色引爭議!抄襲鳴潮?這也太像了

家居要聞

木色留白 演繹現(xiàn)代自由

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

無障礙瀏覽 進入關(guān)懷版