国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AlphaEvolve再進(jìn)化!DeepMind用AI「養(yǎng)殖」算法,碾壓所有人類設(shè)計(jì)

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】DeepMind最新論文:用AlphaEvolve把算法源代碼當(dāng)基因組,讓Gemini充當(dāng)遺傳算子,對(duì)博弈論算法進(jìn)行「自然選擇」。進(jìn)化出的全新算法,采用了人類研究者從未想過(guò)的反直覺機(jī)制,在幾乎所有測(cè)試博弈中碾壓人類花了幾十年設(shè)計(jì)的最優(yōu)方案。AI不再只是執(zhí)行算法——它開始自己發(fā)明算法了。

谷歌DeepMind剛剛放了一個(gè)大衛(wèi)星。

他們用AlphaEvolve硬生生「繁殖」出了一批全新的博弈論算法。

這些算法不僅在性能上全面碾壓人類花了幾十年精心設(shè)計(jì)的經(jīng)典方案,更令人頭皮發(fā)麻的是:

它們使用的底層機(jī)制,反直覺到?jīng)]有任何一個(gè)人類研究者會(huì)想到去嘗試。


論文地址:https://arxiv.org/pdf/2602.16928

代碼即基因組。LLM即造物主。

這一次,AI不是在幫人類寫代碼——它在自己發(fā)明數(shù)學(xué)。


這不是「讓ChatGPT寫個(gè)算法

首先,框架設(shè)定至關(guān)重要。

你可能以為這就是對(duì)著大模型說(shuō)「幫我優(yōu)化一下這個(gè)函數(shù)」,然后它吐出一段差不多的代碼。

不是的。


把Gemini當(dāng)基因工程師使的進(jìn)化式編碼智能體

這是AlphaEvolve,谷歌DeepMind構(gòu)建的進(jìn)化式編碼智能體。

它的工作方式,更接近于達(dá)爾文而不是程序員。

它把算法的源代碼當(dāng)作基因組(genome)。

LLM充當(dāng)遺傳算子(genetic operator),對(duì)代碼進(jìn)行變異——重寫邏輯、注入新的控制流、對(duì)符號(hào)操作進(jìn)行變異。

然后,它在一組博弈論基準(zhǔn)游戲上評(píng)估每個(gè)「后代算法」的適應(yīng)度——誰(shuí)的可利用度(exploitability)降得最低,誰(shuí)就活下來(lái)。

活下來(lái)的算法進(jìn)入下一代,繼續(xù)被變異、評(píng)估、篩選。

這不是提示工程。這是代碼的自然選擇。

目標(biāo):博弈論的兩大基石算法家族

AlphaEvolve瞄準(zhǔn)的目標(biāo),是多智能體強(qiáng)化學(xué)習(xí)(MARL)中兩個(gè)最核心的算法家族:

反事實(shí)遺憾最小化(Counterfactual Regret Minimization, CFR)策略空間響應(yīng)預(yù)言(Policy Space Response Oracles, PSRO)


如果你玩過(guò)德?lián)銩I、或者聽說(shuō)過(guò)Libratus和Pluribus那些碾壓人類撲克高手的AI——沒錯(cuò),它們的核心就是這兩樣?xùn)|西。

它們的任務(wù)是在不完全信息博弈中找到納什均衡——也就是讓每個(gè)玩家都無(wú)法通過(guò)單方面改變策略來(lái)獲得更好結(jié)果的那個(gè)「完美平衡點(diǎn)」。


過(guò)去幾十年,研究者們一直在手動(dòng)調(diào)參、憑直覺設(shè)計(jì)這些算法的變體:CFR+、DCFR、PCFR+、LCFR……每一個(gè)變體都是某個(gè)聰明絕頂?shù)牟┺恼撗芯空哽`光一閃的產(chǎn)物。

但AlphaEvolve說(shuō):讓我來(lái)。


為什么博弈論算法的設(shè)計(jì)這么難?

要理解這篇論文的分量,先得明白一個(gè)背景:不完全信息博弈是AI領(lǐng)域最硬的骨頭之一。

什么叫不完全信息博弈?簡(jiǎn)單說(shuō)——你不知道對(duì)手手里有什么牌。

德州撲克、騙子骰、甚至國(guó)際談判,本質(zhì)上都是這類問(wèn)題。在這些場(chǎng)景中,你看到的只是「信息集」(information set)——一組你無(wú)法區(qū)分的博弈狀態(tài)。你的策略必須對(duì)同一信息集下的所有可能情況都做出合理回應(yīng)。

衡量一個(gè)算法好不好,博弈論有個(gè)硬核指標(biāo)叫可利用度(Exploitability)。

直覺上說(shuō),它度量的是:如果對(duì)手知道你的策略并針對(duì)性地反擊,你會(huì)虧多少。可利用度為零,意味著你的策略是納什均衡——任何對(duì)手都無(wú)法通過(guò)單方面改變策略來(lái)占你便宜,這是博弈論中的「終極境界」。

幾十年來(lái),研究者們?yōu)榱俗屗惴ǜ斓乇平{什均衡,一直在手動(dòng)迭代設(shè)計(jì)。這個(gè)過(guò)程是這樣的:

某位頂級(jí)研究者憑數(shù)學(xué)直覺觀察到一種規(guī)律 → 將其形式化為一個(gè)新的折現(xiàn)方案/權(quán)重函數(shù)/遺憾處理規(guī)則 → 在數(shù)學(xué)上證明收斂性 → 在幾個(gè)標(biāo)準(zhǔn)博弈上做實(shí)驗(yàn) → 發(fā)表論文

每一步都需要人類直覺

問(wèn)題是,這些算法的設(shè)計(jì)空間是組合爆炸級(jí)別的——你怎么折現(xiàn)歷史遺憾?

正遺憾和負(fù)遺憾要不要區(qū)別對(duì)待?策略平均什么時(shí)候開始?用什么權(quán)重?這些選擇的排列組合,遠(yuǎn)超任何研究者能逐一驗(yàn)證的范圍。

論文的核心洞察在于:算法設(shè)計(jì)本質(zhì)上是一個(gè)搜索問(wèn)題。


人類研究者受限于數(shù)學(xué)可推導(dǎo)性,大多只能在「優(yōu)雅但有限」的設(shè)計(jì)空間里搜索——比如線性平均、固定折現(xiàn)、對(duì)稱處理。但如果把搜索空間擴(kuò)展到任意可執(zhí)行代碼呢?

AlphaEvolve做的正是這件事。

它不是在調(diào)超參數(shù),而是在進(jìn)化符號(hào)代碼(symbolic code)。

LLM理解代碼的語(yǔ)義,能做出「有意義的變異」——不是隨機(jī)翻轉(zhuǎn)一個(gè)比特,而是「把這個(gè)線性調(diào)度改成指數(shù)調(diào)度」「給正遺憾加一個(gè)增強(qiáng)系數(shù)」「在前500次迭代跳過(guò)策略累積」。

這讓搜索空間從人類直覺所及的幾百種可能,暴漲到LLM能觸及的幾乎無(wú)限種合理變體。

傳統(tǒng)方法:人類設(shè)計(jì)算法,機(jī)器執(zhí)行算法。

AlphaEvolve:機(jī)器設(shè)計(jì)算法,機(jī)器執(zhí)行算法,人類在旁邊看著驚掉下巴。


一句話說(shuō)清楚這篇論文到底干了啥

這篇論文的故事其實(shí)特別簡(jiǎn)單:

想象你是一個(gè)撲克高手教練。你手下有一套打牌的策略手冊(cè),幾十年來(lái),全靠你和其他聰明人一條條手寫規(guī)則、反復(fù)試錯(cuò),才慢慢改進(jìn)到今天的水平。

現(xiàn)在,DeepMind做了一件事——他們把這本策略手冊(cè)的每一頁(yè)、每一條規(guī)則,都變成了一段可以被改寫的代碼。

然后他們放出了一個(gè)AI(AlphaEvolve),讓它像大自然培育物種一樣,不停地改寫這些規(guī)則、測(cè)試效果、淘汰差的、留下好的。

跑了無(wú)數(shù)代之后,這個(gè)AI進(jìn)化出了兩套全新的策略手冊(cè)。

第一套叫VAD-CFR,它學(xué)會(huì)了三件人類教練從來(lái)沒想過(guò)的事:局勢(shì)混亂時(shí)果斷忘掉舊經(jīng)驗(yàn),發(fā)現(xiàn)好招時(shí)立刻加倍下注,前500輪純學(xué)習(xí)不做總結(jié)。聽起來(lái)很奇怪對(duì)吧?但它就是比所有人類設(shè)計(jì)的方法都好用。


第二套叫SHOR-PSRO,它學(xué)會(huì)了前期大膽試探,后期精準(zhǔn)收網(wǎng)——而且訓(xùn)練和考試用不同的策略,訓(xùn)練時(shí)求穩(wěn),考試時(shí)求準(zhǔn)。


最關(guān)鍵的一點(diǎn)是:這些新規(guī)則不是AI從某本教科書里抄來(lái)的,而是它自己「進(jìn)化」出來(lái)的。

人類博弈論專家看到這些規(guī)則后的第一反應(yīng)是——「這也行?」

但數(shù)據(jù)不會(huì)騙人。在幾乎所有測(cè)試的博弈場(chǎng)景中,AI進(jìn)化出來(lái)的算法都打敗了人類花了幾十年心血設(shè)計(jì)的最好方案。

所以這篇論文真正在說(shuō)的是:AI已經(jīng)不只是在執(zhí)行人類寫的算法了,它開始自己發(fā)明算法——而且發(fā)明得比人類還好。

這意味著什么?

讓我們退一步,看看這件事的全貌。

過(guò)去,博弈論算法的進(jìn)步長(zhǎng)這樣:

某個(gè)頂級(jí)研究者花幾個(gè)月甚至幾年時(shí)間,憑直覺和數(shù)學(xué)推導(dǎo),提出一個(gè)新的折現(xiàn)方案或權(quán)重函數(shù) → 在幾個(gè)博弈上驗(yàn)證 → 發(fā)論文 → 社區(qū)驚呼「天才」

現(xiàn)在呢?

AlphaEvolve啟動(dòng) → Gemini對(duì)代碼進(jìn)行變異 → 自動(dòng)評(píng)估適應(yīng)度 → 進(jìn)化選擇 → 輸出一個(gè)人類研究者根本不會(huì)想到的算法 → 在11個(gè)博弈中碾壓所有前輩

這不只是效率的提升。

這是范式的轉(zhuǎn)換。


論文的結(jié)論部分這樣說(shuō):

「我們的結(jié)果表明,自動(dòng)發(fā)現(xiàn)的算法不對(duì)稱性——特別是那些管理遺憾縮放和動(dòng)態(tài)混合調(diào)度的機(jī)制——能夠產(chǎn)生對(duì)人類直覺而言難以捉摸、但在實(shí)踐中極其有效的求解器?!?/p>

翻譯成人話就是:AI發(fā)現(xiàn)了人類想不到的數(shù)學(xué)。

而且這些「想不到的數(shù)學(xué)」不是什么花哨的噱頭,而是實(shí)打?qū)嵉卦谛阅苌辖y(tǒng)治了整個(gè)基線方陣。

DeepMind在論文最后也給了未來(lái)方向的暗示——

他們計(jì)劃將這個(gè)進(jìn)化框架應(yīng)用到深度強(qiáng)化學(xué)習(xí)智能體的完整設(shè)計(jì)中去,以及探索合作博弈中的機(jī)制發(fā)現(xiàn)。

想象一下:不只是博弈論算法,而是讓AI進(jìn)化出整個(gè)學(xué)習(xí)范式。

代碼的「自然選擇」,這才剛剛開始。

參考資料:

https://x.com/rryssf_/status/2027062703144284521

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
還是做好準(zhǔn)備吧,一美元只能兌換5.5元人民幣時(shí)代,或許終會(huì)到來(lái)

還是做好準(zhǔn)備吧,一美元只能兌換5.5元人民幣時(shí)代,或許終會(huì)到來(lái)

閱識(shí)
2026-01-31 15:32:50
俄多個(gè)地區(qū)發(fā)布“火烈鳥”導(dǎo)彈預(yù)警,特朗普稱對(duì)美伊談判不滿意

俄多個(gè)地區(qū)發(fā)布“火烈鳥”導(dǎo)彈預(yù)警,特朗普稱對(duì)美伊談判不滿意

山河路口
2026-02-28 13:10:22
美國(guó)警方承認(rèn)谷愛凌曾遭毆打,手臂抓傷嚴(yán)重,未來(lái)人身安全存隱患

美國(guó)警方承認(rèn)谷愛凌曾遭毆打,手臂抓傷嚴(yán)重,未來(lái)人身安全存隱患

楊華評(píng)論
2026-02-27 23:36:24
澳門的賭臺(tái),正在批量消失!不是沒人賭了而是算法讓賭客徹底破防

澳門的賭臺(tái),正在批量消失!不是沒人賭了而是算法讓賭客徹底破防

芭比衣櫥
2026-02-28 00:22:21
妻子打麻將連贏十幾年,真能通靈?丈夫進(jìn)入地窖,發(fā)現(xiàn)驚天秘密

妻子打麻將連贏十幾年,真能通靈?丈夫進(jìn)入地窖,發(fā)現(xiàn)驚天秘密

農(nóng)村情感故事
2025-09-07 07:51:19
伊朗外長(zhǎng):伊朗已將導(dǎo)彈射程限制在2000公里以內(nèi)

伊朗外長(zhǎng):伊朗已將導(dǎo)彈射程限制在2000公里以內(nèi)

新華社
2026-02-27 10:33:20
新加坡大滿貫:王曼昱4-2勝?gòu)埍久篮?,?1次晉級(jí)4強(qiáng)

新加坡大滿貫:王曼昱4-2勝?gòu)埍久篮?,?1次晉級(jí)4強(qiáng)

吳猖旅行ing
2026-02-28 13:24:14
2026年,各國(guó)領(lǐng)導(dǎo)人都多少歲了,馬克龍48,普京73,特朗普近80

2026年,各國(guó)領(lǐng)導(dǎo)人都多少歲了,馬克龍48,普京73,特朗普近80

芊芊子吟
2026-02-27 07:35:05
江蘇省公安廳一下屬單位門牌有錯(cuò)字?回應(yīng):在建項(xiàng)目還未交付,錯(cuò)誤門牌已溝通施工方修復(fù)

江蘇省公安廳一下屬單位門牌有錯(cuò)字?回應(yīng):在建項(xiàng)目還未交付,錯(cuò)誤門牌已溝通施工方修復(fù)

大風(fēng)新聞
2026-02-28 11:54:04
比亞迪DM-i 6.0一旦普及,中國(guó)燃油車市場(chǎng)會(huì)被“清場(chǎng)”

比亞迪DM-i 6.0一旦普及,中國(guó)燃油車市場(chǎng)會(huì)被“清場(chǎng)”

藍(lán)色海邊
2026-02-20 21:47:26
91年張學(xué)良談中央紅軍長(zhǎng)征:除了毛澤東,換誰(shuí)指揮都會(huì)全軍覆沒

91年張學(xué)良談中央紅軍長(zhǎng)征:除了毛澤東,換誰(shuí)指揮都會(huì)全軍覆沒

小港哎歷史
2026-02-28 07:00:03
2.28日早評(píng)|盡快撤離!黃金大消息!下周要炸了!

2.28日早評(píng)|盡快撤離!黃金大消息!下周要炸了!

龍行天下虎
2026-02-28 09:10:39
春節(jié)假期結(jié)束一天,鹿哈官宣得女,感謝了鹿晗,曾7個(gè)月賺3500萬(wàn)

春節(jié)假期結(jié)束一天,鹿哈官宣得女,感謝了鹿晗,曾7個(gè)月賺3500萬(wàn)

叨嘮
2026-02-25 16:37:17
比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
小米展示新一代SU7汽車機(jī)械門把手,二排座椅下方配有備份電源

小米展示新一代SU7汽車機(jī)械門把手,二排座椅下方配有備份電源

IT之家
2026-02-27 20:32:36
謝賢前女友CoCo,終為自己的口無(wú)遮攔買了單,張柏芝早有前車之鑒

謝賢前女友CoCo,終為自己的口無(wú)遮攔買了單,張柏芝早有前車之鑒

攬星河的筆記
2026-02-28 13:35:33
47歲保姆坦言:可以做有償陪伴保姆,但必須要遵守3個(gè)約定

47歲保姆坦言:可以做有償陪伴保姆,但必須要遵守3個(gè)約定

孢木情感
2026-02-22 11:24:44
北大天才至死評(píng)不上職稱,在癌癥晚期,卻為中國(guó)拿下五個(gè)世界第一

北大天才至死評(píng)不上職稱,在癌癥晚期,卻為中國(guó)拿下五個(gè)世界第一

談史論天地
2026-02-27 07:04:54
外交部:中方正在密切關(guān)注巴阿沖突局勢(shì)發(fā)展

外交部:中方正在密切關(guān)注巴阿沖突局勢(shì)發(fā)展

界面新聞
2026-02-27 15:36:44
開除泄密者!就在今天,國(guó)際排聯(lián)公布新規(guī),天津女排要注意

開除泄密者!就在今天,國(guó)際排聯(lián)公布新規(guī),天津女排要注意

跑者排球視角
2026-02-28 11:29:43
2026-02-28 14:31:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14611文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時(shí)刻 信號(hào)已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時(shí)刻 信號(hào)已經(jīng)很明顯了

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
教育
數(shù)碼
公開課
軍事航空

藝術(shù)要聞

2025第十四屆中國(guó)藝術(shù)節(jié)全國(guó)優(yōu)秀美術(shù)作品展 | 入選油畫選刊

教育要聞

“我兒子又會(huì)打游戲又能得獎(jiǎng)狀”,家長(zhǎng)無(wú)知炫耀,一看房子全暴露

數(shù)碼要聞

Gartner:本輪存儲(chǔ)器“超級(jí)周期”將毀滅<500美元入門PC市場(chǎng)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

新華社:美國(guó)伊朗要打了嗎

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版