国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌DeepMind GrandCode:實時編程競賽實現(xiàn)全人類擊敗AI系統(tǒng)突破

0
分享至


在2026年3月的三場Codeforces編程競賽中,一個名為GrandCode的人工智能系統(tǒng)創(chuàng)造了歷史。這個由DeepReinforce團隊開發(fā)的AI程序不僅在所有比賽中奪得第一名,還成為第一個在真實競賽環(huán)境中持續(xù)擊敗包括傳奇大師在內(nèi)的所有人類選手的人工智能系統(tǒng)。這項研究發(fā)表于2026年4月3日的arXiv預印本平臺,論文編號為arXiv:2604.02721v1。

要理解這項成就的意義,我們首先要認識編程競賽的特殊性質(zhì)。編程競賽就像是一場智力馬拉松,參賽者需要在極短時間內(nèi)解決復雜的算法問題,不僅要求代碼正確無誤,還必須高效運行。這種競賽一直被認為是人類智慧的最后堡壘之一,因為它需要創(chuàng)造性思維、邏輯推理和快速決策的完美結(jié)合。

在GrandCode之前,最強的AI系統(tǒng)也只能勉強進入前列。谷歌的AlphaCode在Codeforces平臺上的評分大約為1300,只能排在所有參賽者的前54%;改進版AlphaCode2提升到第85百分位;OpenAI的o3系統(tǒng)全球排名第175位;而最新的Gemini 3 Deep Think雖然達到第8名,但這個成績是在歷史問題上取得的,并非在真實競賽環(huán)境中。

GrandCode的突破在于它采用了一種全新的多智能體強化學習架構??梢园堰@個系統(tǒng)想象成一個高度協(xié)作的專家團隊,每個成員都有自己的專長。這個團隊包括四個關鍵角色:主解題專家負責核心推理和代碼生成,就像團隊的首席工程師;假設生成專家負責提出中間猜想和結(jié)構性洞察,像是團隊的理論分析師;總結(jié)專家負責壓縮冗長的推理過程,確保復雜問題仍然可以處理,類似團隊的信息整理員;測試用例生成模塊則構建各種刁鉆的測試案例來驗證代碼,就像團隊的質(zhì)量檢查員。

這四個角色通過一種巧妙的機制相互配合。當遇到一個編程問題時,假設生成專家首先會分析問題的本質(zhì),提出一些可能的解決思路。比如,它可能會判斷"這是一個動態(tài)規(guī)劃問題"或者"輸入圖滿足某種特殊結(jié)構"。這些假設會在小規(guī)模實例上得到驗證,只有經(jīng)過驗證的假設才會傳遞給主解題專家。

主解題專家接收到這些經(jīng)過驗證的線索后,開始進行詳細的推理和代碼編寫。當推理過程過于冗長時,總結(jié)專家會介入,將長篇分析壓縮成緊湊的要點,確保系統(tǒng)不會被信息過載拖累。最后,測試用例生成模塊會創(chuàng)建各種邊界條件和特殊情況的測試,對生成的代碼進行嚴格檢驗。

整個系統(tǒng)的訓練過程分為兩個主要階段。在離線訓練階段,研究團隊首先讓系統(tǒng)在大量編程問題上進行持續(xù)學習,就像讓一個學生刷題提高基礎能力。接著進行監(jiān)督微調(diào),使用高質(zhì)量的問題-思路-解答三元組來教會系統(tǒng)正確的解題模式。最后通過多組件強化學習,讓各個專家角色學會更好地協(xié)作,優(yōu)化整個系統(tǒng)的表現(xiàn)。

在線測試階段,也就是實際競賽時,GrandCode會根據(jù)問題難度采用不同策略。對于簡單問題,它直接生成解答;對于困難問題,它會啟動完整的多智能體協(xié)作流程,甚至在解題過程中持續(xù)優(yōu)化自己的策略。

為了解決多階段智能體訓練中的技術挑戰(zhàn),研究團隊開發(fā)了一種名為"Agentic GRPO"的新算法。傳統(tǒng)的強化學習算法在面對多輪交互和延遲獎勵時會遇到困難,就像一個老師試圖給一個團隊項目的每個步驟打分,但只有在項目完成后才能看到最終效果。Agentic GRPO通過即時獎勵和延遲修正的組合機制解決了這個問題。當某個中間步驟完成時,系統(tǒng)會立即獲得反饋進行學習;當整個任務完成后,系統(tǒng)還會回過頭來修正之前的評估,確保學習效果最優(yōu)。

測試用例生成是GrandCode的另一個創(chuàng)新點。在編程競賽中,真正的測試用例是隱藏的,選手只能看到幾個簡單示例。GrandCode開發(fā)了兩種生成對抗性測試用例的方法。第一種是差異驅(qū)動生成法:如果一個測試用例能夠暴露兩個不同解法之間的差異,那它很可能是一個有價值的邊界案例。系統(tǒng)會不斷生成這樣的測試,逐步建立起強大的測試用例庫。第二種是解法攻擊法:系統(tǒng)會直接分析候選解法和標準答案的區(qū)別,專門設計能夠暴露漏洞的測試用例。

在實際應用中,GrandCode在三場Codeforces實時競賽中的表現(xiàn)令人印象深刻。2026年3月21日的Round 1087比賽中,GrandCode以用戶名averyjones1參賽,在51分鐘內(nèi)完成所有任務,得分8334分;3月28日的Round 1088比賽中,它以yokeko身份參賽,用時1小時40分鐘,得分15008分;3月29日的Round 1089比賽中,使用Vortex1身份,用時56分鐘,得分9506分。值得注意的是,在所有三場比賽中,GrandCode都是第一個完成全部任務的參賽者。

這些成績的取得并非偶然。研究團隊對100個編程問題進行了詳細的基準測試,發(fā)現(xiàn)GrandCode在持續(xù)訓練、監(jiān)督微調(diào)和完整強化學習訓練后,整體接受率從基礎模型的64%提升到81%,在最困難的Level 5問題上的解決率從20%中的4題提升到20題中的13題。經(jīng)過測試時強化學習后,這些數(shù)字進一步提升到85%的整體接受率和20題中的15題。

GrandCode的成功還得益于一些精心設計的技術細節(jié)。系統(tǒng)使用了基于問題難度的動態(tài)路由機制,對簡單問題采用直接生成,對復雜問題啟用完整的多智能體協(xié)作。在處理超長推理序列時,系統(tǒng)采用了創(chuàng)新的上下文并行化技術,特別針對混合架構進行了優(yōu)化。這種架構結(jié)合了線性注意力機制的效率和標準注意力機制的建模能力。

更重要的是,GrandCode在訓練過程中特別注重多模態(tài)問題的處理能力。許多編程競賽問題包含圖表或幾何圖形,純文本描述往往難以準確傳達這些信息。GrandCode直接處理這些視覺內(nèi)容,而不是依賴文本轉(zhuǎn)換,這大大提高了它對復雜問題的理解能力。

從技術實現(xiàn)角度來看,GrandCode的架構設計充分考慮了實際部署的需求。主要的混合專家模型部署在專用的分布式GPU集群上,而較小的輔助模型則在獨立的GPU池中異步運行。這種設計既保證了主要計算流程的高效率,又避免了資源碎片化問題。代碼執(zhí)行、暴力求解檢查和測試生成則由獨立的CPU沙箱池處理,確保系統(tǒng)的穩(wěn)定性和安全性。

測試時強化學習是GrandCode的另一個重要特色。與傳統(tǒng)的離線訓練不同,測試時強化學習專門針對當前正在解決的特定問題進行優(yōu)化。系統(tǒng)不再追求所有問題的平均表現(xiàn),而是專注于在當前問題上找到最佳解法。這種方法通過排名基礎的松弛目標函數(shù)實現(xiàn),逐步將優(yōu)化重點從平均獎勵轉(zhuǎn)向最大獎勵,更符合編程競賽"一次通過"的特點。

在實際競賽中,GrandCode采用了平衡直接生成和測試時強化學習的策略。對于競賽初期的簡單問題,系統(tǒng)使用大批量并行直接生成快速獲得答案,因為早期提交能夠獲得更高分數(shù)。只有當直接生成無法解決問題時,系統(tǒng)才會啟動計算密集的測試時強化學習流程。

GrandCode的成功也體現(xiàn)在對編程競賽特殊規(guī)則的深度理解上。Codeforces平臺對AI生成內(nèi)容有嚴格政策,高排名賬戶面臨更嚴格審查。為了獲得最終分數(shù),研究團隊采用了謹慎的提交策略:等待人類參賽者接近完成任務后才提交完整版本。同時,系統(tǒng)還需要處理多次提交的罰分機制,這要求它在準確性和速度之間找到最佳平衡點。

在假設生成方面,GrandCode展現(xiàn)出了類似人類專家的直覺。當面對一個新問題時,系統(tǒng)會首先嘗試識別問題的本質(zhì)特征,比如判斷這是否是一個動態(tài)規(guī)劃問題,或者輸入圖是否具有特殊結(jié)構。這些假設會在小規(guī)模實例上進行驗證,通過暴力算法檢查假設的正確性。只有通過驗證的假設才會被注入到主要解題流程中,為后續(xù)的代碼生成提供關鍵指導。

系統(tǒng)還集成了在線整數(shù)序列百科全書(OEIS)的查詢功能。對于某些數(shù)學性質(zhì)較強的問題,GrandCode會計算小規(guī)模輸入的輸出值,然后在OEIS中搜索匹配的數(shù)列模式。如果找到匹配項,相關的公式、模式或結(jié)構提示會被納入后續(xù)的解題過程中。

總結(jié)專家模塊的設計特別值得關注。在處理復雜問題時,推理過程可能長達數(shù)萬個標記,這不僅增加計算成本,也使后續(xù)的強化學習訓練變得困難。總結(jié)專家采用漸進式訓練方法,首先學會對單個推理塊進行總結(jié),然后學會處理完整的推理鏈條。這種分階段訓練提供了比端到端訓練更密集的中間監(jiān)督信號,顯著提高了總結(jié)質(zhì)量。

在代碼獎勵設計上,GrandCode使用了三層評估體系。首先檢查代碼的可執(zhí)行性,無法編譯或運行的代碼直接得零分。其次檢查正確性,通過與參考輸出或暴力解法的比較來驗證。最后評估效率,通過與暴力算法的運行時間比較來衡量代碼的性能。這種多層次評估確保生成的代碼既正確又高效。

值得一提的是,GrandCode的訓練數(shù)據(jù)來源非常廣泛。除了傳統(tǒng)的編程競賽數(shù)據(jù)庫如TACO、LeetCode、USACO等,研究團隊還使用了IOI國際信息學奧林匹克的問題,并通過大語言模型生成了大量擴展訓練數(shù)據(jù)。為了讓系統(tǒng)適應假設條件下的解題,20%的訓練樣例被轉(zhuǎn)換為假設驅(qū)動格式,其中假設內(nèi)容由假設生成專家提供。

在系統(tǒng)架構的實現(xiàn)細節(jié)上,GrandCode采用了基于難度的動態(tài)批處理策略。由于推理長度與問題難度高度相關,將不同難度的問題混合在同一批次中會導致嚴重的計算不平衡。系統(tǒng)不僅在單個批次內(nèi)按難度分組,還確保不同數(shù)據(jù)并行工作節(jié)點之間的批次具有相似的難度分布,從而實現(xiàn)更好的負載平衡。

專家路由的穩(wěn)定性也是一個重要考慮因素。為了避免強化學習訓練期間的路由不穩(wěn)定,GrandCode完全凍結(jié)路由器參數(shù),只更新專家的前饋參數(shù)。這保證了專家分配在整個強化學習過程中保持一致,避免了路由變化可能帶來的額外不穩(wěn)定性。

在多模態(tài)處理方面,GrandCode直接處理問題中包含的圖像和圖表,而不是將它們轉(zhuǎn)換為文本描述。研究團隊發(fā)現(xiàn),許多競賽問題中的圖像在視覺上非常復雜,難以用文字準確描述,而轉(zhuǎn)換過程往往會丟失推理所需的關鍵空間或結(jié)構信息。直接的多模態(tài)處理顯著優(yōu)于純文本轉(zhuǎn)換方法。

從更廣闊的視角來看,GrandCode的成功標志著人工智能在代碼生成領域的一個重要里程碑。編程競賽長期被視為需要創(chuàng)造性思維、快速學習和復雜推理的智力挑戰(zhàn)。GrandCode證明了當智能體強化學習與強驗證和在線適應相結(jié)合時,人工智能系統(tǒng)可以在實時環(huán)境中超越頂級人類程序員的表現(xiàn)。

這項成就的意義遠超編程競賽本身。GrandCode展示的多智能體協(xié)作、實時學習適應和復雜問題分解能力,為未來的AI系統(tǒng)設計提供了寶貴的啟示。隨著這些技術的進一步發(fā)展和完善,我們可能會在更多需要高級認知能力的領域看到類似的突破。

當然,GrandCode的成功也帶來了一些思考。它的出現(xiàn)是否意味著編程教育需要重新定義目標?未來的程序員需要具備什么樣的技能才能與AI協(xié)作?這些問題值得整個技術社區(qū)深入探討。不過可以確定的是,GrandCode為我們展示了AI與人類智慧結(jié)合的新可能性,也為未來的技術發(fā)展指明了方向。

對于有興趣深入了解技術細節(jié)的讀者,可以通過論文編號arXiv:2604.02721v1在arXiv平臺查詢這項研究的完整論文,其中包含了更詳細的算法描述、實驗數(shù)據(jù)和技術實現(xiàn)細節(jié)。

Q&A

Q1:GrandCode是如何在編程競賽中擊敗人類選手的?

A:GrandCode采用了多智能體協(xié)作架構,包含四個專門角色:主解題專家負責核心推理和代碼生成,假設生成專家提出解題思路,總結(jié)專家壓縮復雜推理,測試用例生成模塊驗證代碼質(zhì)量。這些角色通過創(chuàng)新的Agentic GRPO算法協(xié)同工作,能夠在實時競賽中快速準確地解決復雜編程問題。

Q2:GrandCode相比之前的AI編程系統(tǒng)有什么突破性改進?

A:相比AlphaCode只能排在前54%、o3排名第175位的成績,GrandCode實現(xiàn)了質(zhì)的飛躍。它首創(chuàng)了多智能體強化學習架構,引入了測試時強化學習技術,開發(fā)了對抗性測試用例生成方法,并且能夠直接處理多模態(tài)問題內(nèi)容,這些創(chuàng)新使它成為首個在實時競賽中持續(xù)擊敗所有人類選手的AI系統(tǒng)。

Q3:普通程序員需要擔心被GrandCode這樣的AI取代嗎?

A:目前不需要過度擔心。GrandCode雖然在特定的編程競賽環(huán)境中表現(xiàn)出色,但現(xiàn)實世界的軟件開發(fā)涉及需求理解、團隊協(xié)作、系統(tǒng)設計、用戶體驗等多個復雜層面。GrandCode更可能成為程序員的強大助手,幫助處理算法實現(xiàn)和代碼優(yōu)化等任務,而程序員則可以專注于更高層次的創(chuàng)造性和戰(zhàn)略性工作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
NBA官方:弗拉格當選年度最佳新秀 成獨行俠隊史第三位獲獎者

NBA官方:弗拉格當選年度最佳新秀 成獨行俠隊史第三位獲獎者

羅說NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強大優(yōu)勢

遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強大優(yōu)勢

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場1:1驗出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國足鋒線又添猛人

一場1:1驗出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來了個大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來了個大震蕩!

利刃號
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險晉級唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險晉級唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動過氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動過氣

悠悠說世界
2026-04-25 14:03:58
賴清德做夢都沒想到,鄭麗文的丈夫早被策反,臺獨情侶變統(tǒng)一夫妻

賴清德做夢都沒想到,鄭麗文的丈夫早被策反,臺獨情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰能領漲?

中央政治局會議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰能領漲?

丁丁鯉史紀
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺灣政壇徹底炸鍋!

臺灣政壇徹底炸鍋!

安安說
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應商買回家了

聯(lián)想把用了20年的BIOS供應商買回家了

薛定諤的BUG
2026-04-27 22:37:44
賴清德向大陸喊話,林佳龍返臺:機場大言不慚!解放軍打獨大動作

賴清德向大陸喊話,林佳龍返臺:機場大言不慚!解放軍打獨大動作

共工之錨
2026-04-28 15:40:37
遼寧省委書記、省長等共同巡看夜經(jīng)濟市集

遼寧省委書記、省長等共同巡看夜經(jīng)濟市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開房,女人每次偷情都在車里呢?

為什么男人每次偷情要開房,女人每次偷情都在車里呢?

思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實原生臉曝光,整容前后差距一目了然

小娛樂悠悠
2026-04-27 09:21:13
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

本地
房產(chǎn)
游戲
親子
軍事航空

本地新聞

用青花瓷的方式,打開西溪濕地

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4?。?/h3>

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運行60幀+光追的游戲畫面

親子要聞

拍這期視頻時眼淚止不住地流

軍事要聞

德國總理默茨:美國正遭受伊朗領導層的羞辱

無障礙瀏覽 進入關懷版