国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta重磅:讓智能體擺脫人類知識(shí)的瓶頸,通往自主AI的SSR級(jí)研究

0
分享至



編輯|冷貓

眾所周知,「超級(jí)智能」是 Meta 持續(xù)不變的宏大愿景。

為了盡早達(dá)到構(gòu)建超級(jí)智能的目標(biāo),扎克伯格在這一年里可謂是大刀闊斧,搞得 Meta 研究部門雞飛狗跳。

前 Meta FAIR 領(lǐng)軍人物 Yann LeCun 銳評(píng):「通往超級(jí)智能… 在我看來完全是胡扯,這條路根本行不通?!?/p>

不過,Meta 決定構(gòu)建「超級(jí)智能」,一個(gè)真正能夠超越人類專家水平的自主 AI 智能體,是人工智能研究中最具雄心的前沿目標(biāo)。

AI 智能體執(zhí)行任務(wù)最具代表性的落地領(lǐng)域就是編程了。目前,基于 LLM 的編程智能體已經(jīng)展現(xiàn)出令人矚目的自動(dòng)化能力,但它們?cè)诒举|(zhì)上仍然受到一個(gè)根本性限制:高度依賴人類的訓(xùn)練數(shù)據(jù)

  • 學(xué)習(xí)自 GitHub 等真實(shí)編程數(shù)據(jù);
  • 需要手工撰寫的 Bug 報(bào)告、Issue 描述;
  • 用已有的測(cè)試用例來反饋。

這種依賴關(guān)系形成了一道關(guān)鍵瓶頸,使得這些系統(tǒng)只能不斷打磨和復(fù)現(xiàn)既有人類知識(shí),而難以真正走向自主發(fā)現(xiàn)新問題、探索新解法的道路。

為此,來自Meta FAIR 和 Meta TBD 實(shí)驗(yàn)室的的一項(xiàng)全新研究工作,打破了這一關(guān)鍵瓶頸,提出了SSR(自對(duì)弈 SWE-RL),旨在通過使軟件代理能夠自主生成學(xué)習(xí)經(jīng)驗(yàn),從而擺脫人類數(shù)據(jù)的限制

SSR 借鑒了 AlphaGo 等自對(duì)弈系統(tǒng)的成功經(jīng)驗(yàn),提出了一條通往「超智能軟件智能體」的途徑,這些智能體可以在無需現(xiàn)有問題描述、測(cè)試或人工監(jiān)督的情況下,通過與真實(shí)代碼庫(kù)的交互來學(xué)習(xí)和改進(jìn)。



  • 論文標(biāo)題:Toward Training Superintelligent Software Agents through Self-Play SWE-RL
  • 論文鏈接:https://arxiv.org/pdf/2512.18552

在本文中,研究團(tuán)隊(duì)提出了 Self-play SWE-RL(SSR),作為邁向超級(jí)智能軟件智能體訓(xùn)練范式的第一步。該方法幾乎不依賴人工數(shù)據(jù),僅假設(shè)能夠訪問帶有源代碼與依賴環(huán)境的沙盒化代碼倉(cāng)庫(kù),而不需要任何人工標(biāo)注的 issue 或測(cè)試用例。

基于這些真實(shí)世界代碼庫(kù),通過一種自博弈(self-play)的強(qiáng)化學(xué)習(xí)框架訓(xùn)練單一 LLM 智能體,使其能夠不斷自主注入并修復(fù)復(fù)雜度逐步提升的軟件缺陷。在該過程中,每個(gè)缺陷均通過測(cè)試補(bǔ)?。╰est patch)進(jìn)行形式化描述,而非使用自然語(yǔ)言的 issue 描述。

SSR 的博弈方法

SSR 的核心思想,是讓大模型智能體通過一個(gè)持續(xù)循環(huán)的過程來自我進(jìn)化。



自對(duì)弈 SWE-RL(SSR)框架概覽。

如圖所示,同一個(gè) LLM 策略被拆分成兩個(gè)角色:Bug 注入智能體(bug-injection agent) 和 Bug 修復(fù)智能體(bug-solving agent)。這兩個(gè)角色共享同一個(gè)容器化運(yùn)行環(huán)境和同一套工具,但它們接收到的任務(wù)說明和目標(biāo)約束不同。

具體來說:

Bug 注入智能體首先獲得一個(gè)隔離的原始代碼庫(kù)環(huán)境,它的任務(wù)是通過生成一個(gè)包含必要文件的 “工件(artifact)” 來人為引入一個(gè) Bug。隨后系統(tǒng)會(huì)通過實(shí)際執(zhí)行來驗(yàn)證該工件的一致性 —— 確保該 Bug 真實(shí)存在、可被復(fù)現(xiàn)。通過一致性驗(yàn)證的 Bug 工件會(huì)被視為有效樣本,并提交給 Bug 修復(fù)智能體。



SSR 采用的兩種主要 bug 注入策略:面向移除的方法(左)移除大量代碼塊,而歷史感知方法(右)有選擇地恢復(fù) git 日志中的歷史更改以引入真實(shí)的 bug 模式。

Bug 修復(fù)智能體則針對(duì)該 Bug 生成最終補(bǔ)丁,補(bǔ)丁是否成功由該 Bug 所定義的測(cè)試結(jié)果來驗(yàn)證。若修復(fù)失敗,該失敗過程會(huì)被視為一種 “高階 Bug(higher-order bug)”,促使智能體在新的上下文中再次嘗試。



智能體 bug 修復(fù)過程

最終,Bug 注入階段的獎(jiǎng)勵(lì)信號(hào) 由一致性驗(yàn)證結(jié)果與修復(fù)結(jié)果共同構(gòu)成,用于激勵(lì)更高質(zhì)量的 Bug 提案;Bug 修復(fù)階段的獎(jiǎng)勵(lì)信號(hào) 則主要依賴測(cè)試結(jié)果。底層的同一個(gè) LLM 策略模型會(huì)在這兩種獎(jiǎng)勵(lì)信號(hào)的共同作用下進(jìn)行聯(lián)合更新。

評(píng)估與測(cè)試

研究團(tuán)隊(duì)在 SWE-bench Verified 與 SWE-Bench Pro 兩個(gè)基準(zhǔn)測(cè)試上,對(duì)基礎(chǔ)模型(Base Model)、傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(Baseline RL),以及 SSR 方法進(jìn)行了系統(tǒng)對(duì)比。

Baseline RL 與 CWM 中的標(biāo)準(zhǔn)智能體強(qiáng)化學(xué)習(xí)類似,可以訪問自然語(yǔ)言問題描述、通過測(cè)試與失敗測(cè)試信息,以及評(píng)測(cè)腳本,強(qiáng)化學(xué)習(xí)過程本質(zhì)上只是檢查生成的解決方案是否通過這些給定測(cè)試。

相比之下,SSR 僅接觸最原始的環(huán)境鏡像,模型必須在完全沒有任何問題描述和測(cè)試用例的情況下,通過自我對(duì)弈來自主發(fā)現(xiàn)問題、構(gòu)造解決方案并進(jìn)行驗(yàn)證。



如圖所示,實(shí)驗(yàn)結(jié)果呈現(xiàn)出兩個(gè)關(guān)鍵現(xiàn)象:

首先,即便在完全沒有任務(wù)相關(guān)訓(xùn)練數(shù)據(jù)的情況下,SSR 在整個(gè)訓(xùn)練過程中仍然表現(xiàn)出穩(wěn)定而持續(xù)的自我提升能力。這表明,大型語(yǔ)言模型可以僅憑與原始代碼庫(kù)的交互,就逐步增強(qiáng)自身的軟件工程能力(例如問題定位與修復(fù)能力)。

其次,在整個(gè)訓(xùn)練軌跡中,SSR 在兩個(gè)基準(zhǔn)測(cè)試上始終優(yōu)于傳統(tǒng) Baseline RL。這意味著,由模型自主生成的學(xué)習(xí)任務(wù),比人工構(gòu)造的數(shù)據(jù)提供了更豐富、更有效的學(xué)習(xí)信號(hào)。

SWE-bench Verified 與 SWE-Bench Pro基準(zhǔn)測(cè)試上,SSR 展現(xiàn)出顯著的自我提升能力(分別提升 +10.4 與 +7.8 個(gè)百分點(diǎn)),并在整個(gè)訓(xùn)練過程中持續(xù)超越依賴人工數(shù)據(jù)的基線方法 —— 盡管模型的評(píng)測(cè)對(duì)象仍然是自然語(yǔ)言描述的問題,而這些描述在自博弈訓(xùn)練階段完全未出現(xiàn)過。



Self-play SWE-RL 的消融實(shí)驗(yàn)結(jié)果。

消融實(shí)驗(yàn)結(jié)果表明,僅注入訓(xùn)練會(huì)降低整體性能,因?yàn)槟P蜔o法從任何 Bug 修復(fù)嘗試中學(xué)習(xí);僅修復(fù)訓(xùn)練同樣表現(xiàn)較差,因?yàn)樗狈τ勺晕覍?duì)弈持續(xù)生成的動(dòng)態(tài)任務(wù)分布。

相比之下,自我對(duì)弈要求智能體不僅要修復(fù) Bug,還要不斷提出具有挑戰(zhàn)性的 Bug,而這個(gè)過程本身就蘊(yùn)含著豐富的學(xué)習(xí)內(nèi)容:

  • 識(shí)別哪些測(cè)試可以通過;
  • 以有意義的方式破壞系統(tǒng)功能;
  • 甚至刻意削弱測(cè)試以隱藏 Bug。

這些行為不斷擴(kuò)展訓(xùn)練信號(hào),并讓模型持續(xù)暴露在新的失敗模式之下。結(jié)果表明:一個(gè)持續(xù)進(jìn)化、在線生成 Bug 并解決 Bug 的訓(xùn)練過程,是模型實(shí)現(xiàn)長(zhǎng)期自我提升的關(guān)鍵。

結(jié)語(yǔ)

SSR 代表著在開發(fā)能夠無需直接人工監(jiān)督進(jìn)行學(xué)習(xí)和改進(jìn)的真正自主人工智能系統(tǒng)方面邁出了重要一步。

通過證明大型語(yǔ)言模型可以從真實(shí)世界的軟件倉(cāng)庫(kù)中生成有意義的學(xué)習(xí)經(jīng)驗(yàn),這項(xiàng)工作為將人工智能訓(xùn)練擴(kuò)展到人類策劃數(shù)據(jù)集之外開辟了新的可能性。

該方法解決了當(dāng)前人工智能開發(fā)中根本性的可擴(kuò)展性限制。人工標(biāo)注的訓(xùn)練數(shù)據(jù)昂貴、有限且可能存在偏差,為開發(fā)更強(qiáng)大的系統(tǒng)制造了瓶頸。SSR 的自生成課程有可能使訓(xùn)練在比目前通過傳統(tǒng)數(shù)據(jù)收集方法更可行的問題上,數(shù)量級(jí)地更多樣化和更具挑戰(zhàn)性。



隨著 AI 系統(tǒng)能力日益增強(qiáng),從真實(shí)世界環(huán)境中自主學(xué)習(xí)的能力對(duì)于開發(fā)能夠在復(fù)雜問題解決場(chǎng)景中真正提供幫助甚至主導(dǎo)的智能體變得至關(guān)重要。SSR 的演示表明這種自主學(xué)習(xí)在軟件領(lǐng)域是可行的,這為在其他技術(shù)領(lǐng)域?qū)崿F(xiàn)類似能力指明了有前景的方向,尤其是在那些正式驗(yàn)證和迭代改進(jìn)可行的領(lǐng)域。

盡管仍屬早期成果,這些結(jié)果表明:未來的軟件智能體或?qū)⒛軌蛟谡鎸?shí)代碼倉(cāng)庫(kù)中自主獲取海量學(xué)習(xí)經(jīng)驗(yàn),最終發(fā)展為在系統(tǒng)理解、復(fù)雜問題求解乃至從零構(gòu)建全新軟件方面超越人類能力的超級(jí)智能系統(tǒng)。

更多信息,請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
五礦地產(chǎn)裁員324人

五礦地產(chǎn)裁員324人

地產(chǎn)微資訊
2026-01-08 11:21:54
項(xiàng)立剛再次鼓吹戰(zhàn)爭(zhēng)之思:最可怕的是,邪惡靈魂裹上愛國(guó)外衣

項(xiàng)立剛再次鼓吹戰(zhàn)爭(zhēng)之思:最可怕的是,邪惡靈魂裹上愛國(guó)外衣

讀鬼筆記
2026-01-06 19:42:20
調(diào)整!1月8日央視直播WTT冠軍賽有變,王曼昱首秀,向鵬大戰(zhàn)張本

調(diào)整!1月8日央視直播WTT冠軍賽有變,王曼昱首秀,向鵬大戰(zhàn)張本

皮皮觀天下
2026-01-08 05:39:19
你見過的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬人的奇跡

你見過的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬人的奇跡

夜深愛雜談
2026-01-04 23:05:06
回到村都自卑了!女子失業(yè)提前回家過年,媽媽:鄰居今年掙了50萬

回到村都自卑了!女子失業(yè)提前回家過年,媽媽:鄰居今年掙了50萬

單手搓核彈
2026-01-08 10:53:30
中國(guó)高校40強(qiáng)出爐!西安交大位列第10,南開僅排24,蘇州大學(xué)上榜

中國(guó)高校40強(qiáng)出爐!西安交大位列第10,南開僅排24,蘇州大學(xué)上榜

教育導(dǎo)向分享
2026-01-04 20:49:40
江青想停止對(duì)劉思齊的接濟(jì),毛主席為此發(fā)火明確表示:只要我有一口氣,就絕不會(huì)停止照顧她

江青想停止對(duì)劉思齊的接濟(jì),毛主席為此發(fā)火明確表示:只要我有一口氣,就絕不會(huì)停止照顧她

老杉說歷史
2026-01-07 22:18:15
2026款現(xiàn)代勝達(dá)上市,車款精簡(jiǎn),配置升級(jí),2.0T動(dòng)力+8AT變速箱

2026款現(xiàn)代勝達(dá)上市,車款精簡(jiǎn),配置升級(jí),2.0T動(dòng)力+8AT變速箱

紅濤說車
2026-01-07 17:34:05
1955年賀晉年授銜,賀龍與彭德懷皆有不滿,毛主席驚問:怎么會(huì)是這般結(jié)果?

1955年賀晉年授銜,賀龍與彭德懷皆有不滿,毛主席驚問:怎么會(huì)是這般結(jié)果?

源溯歷史
2026-01-03 14:34:14
座山雕的真面目:連日本關(guān)東軍都感到棘手,其殘忍超乎你的認(rèn)知

座山雕的真面目:連日本關(guān)東軍都感到棘手,其殘忍超乎你的認(rèn)知

蕭竹輕語(yǔ)
2026-01-07 11:49:28
紀(jì)實(shí) 溪邊釣魚釣到個(gè)頭顱,牽出分尸大案,母女3人被兇手沖進(jìn)馬桶

紀(jì)實(shí) 溪邊釣魚釣到個(gè)頭顱,牽出分尸大案,母女3人被兇手沖進(jìn)馬桶

談史論天地
2026-01-07 17:05:00
中使館提醒:中國(guó)公民盡快撤離!

中使館提醒:中國(guó)公民盡快撤離!

每日經(jīng)濟(jì)新聞
2026-01-07 14:51:18
上海銀行行長(zhǎng)選妃:腿要長(zhǎng),腰要細(xì),皮膚要白,各個(gè)對(duì)其死心塌地

上海銀行行長(zhǎng)選妃:腿要長(zhǎng),腰要細(xì),皮膚要白,各個(gè)對(duì)其死心塌地

凱裕說故事
2025-01-10 10:48:42
今天會(huì)更冷!廣東多地結(jié)冰,最低-4℃

今天會(huì)更冷!廣東多地結(jié)冰,最低-4℃

魯中晨報(bào)
2026-01-08 09:17:03
太子集團(tuán)創(chuàng)始人陳志被捕并遣送中國(guó),關(guān)聯(lián)網(wǎng)賭公司涉案金額超50億元

太子集團(tuán)創(chuàng)始人陳志被捕并遣送中國(guó),關(guān)聯(lián)網(wǎng)賭公司涉案金額超50億元

界面新聞
2026-01-07 20:28:37
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

傲傲講歷史
2025-09-27 16:59:25
司曉迪再曝猛料!曬開房記錄實(shí)錘男方,同學(xué)反曝她人品:太反面了

司曉迪再曝猛料!曬開房記錄實(shí)錘男方,同學(xué)反曝她人品:太反面了

青梅侃史啊
2026-01-06 09:03:42
烏克蘭摧毀俄軍第100號(hào)大型彈藥庫(kù)!距莫斯科僅三百公里

烏克蘭摧毀俄軍第100號(hào)大型彈藥庫(kù)!距莫斯科僅三百公里

項(xiàng)鵬飛
2026-01-07 18:29:33
超越哈蘭德姆巴佩,18歲的亞馬爾重新定義了身價(jià)天花板

超越哈蘭德姆巴佩,18歲的亞馬爾重新定義了身價(jià)天花板

籃球看比賽
2026-01-08 11:43:12
凌晨3點(diǎn)德比大戰(zhàn)!皇馬復(fù)仇機(jī)會(huì):勝者進(jìn)決賽 與巴薩爭(zhēng)冠

凌晨3點(diǎn)德比大戰(zhàn)!皇馬復(fù)仇機(jī)會(huì):勝者進(jìn)決賽 與巴薩爭(zhēng)冠

葉青足球世界
2026-01-08 09:23:06
2026-01-08 18:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12080文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

家居
教育
旅游
數(shù)碼
時(shí)尚

家居要聞

理性主義 冷調(diào)自由居所

教育要聞

學(xué)校的“廁所加餐”,讓很多媽媽破防!

旅游要聞

平遙古城“低價(jià)票”調(diào)查:網(wǎng)售假證件何以順利闖關(guān)8個(gè)景點(diǎn)?丨封面深鏡

數(shù)碼要聞

CES 2026 鈦鉭大秀肌肉!曲面屏水冷與全景機(jī)箱驚艷全場(chǎng)

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

無障礙瀏覽 進(jìn)入關(guān)懷版