国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首次!AI智能體破解「納什均衡」,大模型學(xué)會(huì)博弈論|Cell子刊

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】在經(jīng)濟(jì)學(xué)和博弈論的世界里,找到「納什均衡」往往意味著找到了復(fù)雜局勢(shì)下的最優(yōu)解。多所頂尖高校的研究人員開(kāi)發(fā)出了一位名為PrimeNash的「AI數(shù)學(xué)家」,不僅能像人類(lèi)專家一樣推導(dǎo)公式,還能解決許多連傳統(tǒng)算法都束手無(wú)策的復(fù)雜博弈難題,成果已發(fā)表在Cell Press旗下的交叉學(xué)科期刊Nexus上。

納什均衡作為博弈論中最核心的解概念,廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)及工程領(lǐng)域,用于預(yù)測(cè)多方策略互動(dòng)下的穩(wěn)定結(jié)果。然而,在現(xiàn)實(shí)世界中,許多博弈場(chǎng)景具有高維度策略空間、跨期依賴關(guān)系以及不連續(xù)、非凸的收益函數(shù)。在這種復(fù)雜的現(xiàn)實(shí)博弈中推導(dǎo)解析形式的納什均衡,面臨著巨大的計(jì)算挑戰(zhàn)。

現(xiàn)有的求解方法各有局限性:解析法依賴于不動(dòng)點(diǎn)定理,雖然精確但難以擴(kuò)展至高維或復(fù)雜動(dòng)態(tài)場(chǎng)景;數(shù)值方法(如蒙特卡洛模擬)雖然靈活,但往往缺乏嚴(yán)謹(jǐn)?shù)氖諗勘WC,且其結(jié)果如同「黑盒」般難以解釋;而基于機(jī)器學(xué)習(xí)的方法(如強(qiáng)化學(xué)習(xí))雖擅長(zhǎng)處理高維問(wèn)題,卻常受困于參數(shù)敏感性與泛化能力的不足。因此,學(xué)術(shù)界與工業(yè)界亟需一種兼具可擴(kuò)展性、透明度與數(shù)學(xué)嚴(yán)謹(jǐn)性的全新計(jì)算范式。隨著大語(yǔ)言模型的崛起,其強(qiáng)大的邏輯推理與代碼生成能力為自動(dòng)化博弈分析開(kāi)啟了新紀(jì)元。

近日,香港中文大學(xué)(深圳)趙俊華教授、黃建偉教授與葉立新教授團(tuán)隊(duì),聯(lián)合南洋理工大學(xué)、耶魯大學(xué)、美國(guó)西北大學(xué)等多所頂尖高校的研究人員,在Cell Press旗下的交叉學(xué)科期刊《Nexus》上發(fā)表了一項(xiàng)重要研究成果。


論文鏈接:doi:10.1016/j.ynexs.2025.100107

該團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為PrimeNash的大語(yǔ)言模型智能體框架,這是首個(gè)能夠自動(dòng)推導(dǎo)納什均衡閉式解析解并生成機(jī)器可驗(yàn)證證明的系統(tǒng)。

該研究展示了AI智能體不僅能夠模擬人類(lèi)專家的邏輯推理,還能有效解決傳統(tǒng)算法難以處理的高維、非凸及動(dòng)態(tài)博弈難題。

三階段閉環(huán)框架

整體架構(gòu)與模塊交互

如圖1所示,PrimeNash框架模擬了人類(lèi)數(shù)學(xué)家的科研路徑,將求解過(guò)程解構(gòu)為三個(gè)由LLM驅(qū)動(dòng)的核心模塊:策略生成模塊(SGM)、策略評(píng)估模塊(SEM)和均衡證明模塊(EPM)。


圖1 PrimeNash模塊交互概述框圖

工作流始于結(jié)構(gòu)化的提示詞,用于定義博弈的玩家、策略空間與規(guī)則。

SGM負(fù)責(zé)生成多樣化的候選策略,SEM基于博弈論原理對(duì)策略進(jìn)行多維度打分與篩選,EPM則執(zhí)行嚴(yán)格的符號(hào)推導(dǎo)與驗(yàn)證。若驗(yàn)證未通過(guò),系統(tǒng)會(huì)觸發(fā)反饋機(jī)制,指導(dǎo)前序模塊進(jìn)行自我修正,直至找到通過(guò)嚴(yán)格數(shù)學(xué)檢驗(yàn)的閉式解。

策略生成:多智能體并行與提示增強(qiáng)推理

為了克服單一視角的局限,SGM采用了多智能體并行的策略。如圖2所示,多個(gè)策略生成智能體同時(shí)工作,以探索廣闊的策略空間。

為了提升生成質(zhì)量,PrimeNash引入了提示增強(qiáng)推理技術(shù)。系統(tǒng)會(huì)自動(dòng)從預(yù)設(shè)數(shù)據(jù)庫(kù)中檢索相似博弈的解題模版(如博弈論中的相關(guān)定理、最佳響應(yīng)函數(shù)等),輔助智能體更好地理解博弈結(jié)構(gòu)。

此外,智能體并非僅依靠?jī)?nèi)部推演,它們被授權(quán)調(diào)用Python等外部工具執(zhí)行復(fù)雜計(jì)算,并結(jié)合反思機(jī)制對(duì)生成結(jié)果進(jìn)行自我審查與修正。這一過(guò)程確保了輸出的策略在邏輯與數(shù)值上具備初步的合理性,為后續(xù)評(píng)估奠定了基礎(chǔ)。


圖2 策略生成模塊(SGM)智能體設(shè)計(jì)、工作流以及提示增強(qiáng)架構(gòu)

策略評(píng)估與均衡證明:從候選到嚴(yán)謹(jǐn)驗(yàn)證

如圖3所示,SEM模塊充當(dāng)了嚴(yán)格篩選器的角色。該模塊包含評(píng)分智能體和評(píng)估智能體。評(píng)分智能體基于預(yù)定義的博弈論指標(biāo)(如策略一致性、穩(wěn)定性等)對(duì)候選策略進(jìn)行打分,評(píng)估智能體則綜合得分最高的策略,將其精煉為均衡候選者。

隨后,EPM模塊接手進(jìn)行最終的數(shù)學(xué)驗(yàn)證。EPM不依賴模糊估算,而是執(zhí)行嚴(yán)格的符號(hào)推導(dǎo),應(yīng)用最佳響應(yīng)定理或卡羅什-庫(kù)恩-塔克(KKT)條件來(lái)驗(yàn)證納什均衡條件。對(duì)于動(dòng)態(tài)博弈,EPM還會(huì)驗(yàn)證子博弈完美均衡等更高級(jí)的概念。一旦證明失敗,具體的失敗原因(如未滿足一階條件)將被精準(zhǔn)反饋給上游模塊,驅(qū)動(dòng)系統(tǒng)在下一輪迭代中逼近最終結(jié)果。這種設(shè)計(jì)保證了結(jié)果的可解釋性與可審計(jì)性。


圖3 策略評(píng)估(SEM)和均衡證明(EPM)模塊架構(gòu)

詳細(xì)結(jié)果

經(jīng)典博弈驗(yàn)證

為了驗(yàn)證系統(tǒng)的魯棒性,研究團(tuán)隊(duì)選取了7個(gè)涵蓋不同動(dòng)態(tài)特征、信息結(jié)構(gòu)與均衡類(lèi)型的經(jīng)典博弈問(wèn)題作為「試金石」。

如表1所示,實(shí)驗(yàn)結(jié)果令人振奮:PrimeNash 成功求解了所有的靜態(tài)博弈;在動(dòng)態(tài)博弈方面,在設(shè)定極高標(biāo)準(zhǔn)(即必須獲得符號(hào)閉式解且通過(guò)自動(dòng)均衡校驗(yàn))的前提下,成功率依然達(dá)到了70%。這證明了 PrimeNash 并非只能處理特定問(wèn)題,而是具備了通用的博弈求解能力。


表1 典型博弈問(wèn)題求解匯總

此外,如圖4所示,論文以雙寡頭Stackelberg博弈為例,展示框架如何通過(guò)標(biāo)準(zhǔn)化提示詞把玩家、行動(dòng)、收益與規(guī)則轉(zhuǎn)化為機(jī)器可處理的格式,并生成均衡表達(dá)式、求解步驟與對(duì)應(yīng)Python代碼。


圖4 雙寡頭Stackelberg博弈求解架構(gòu)

碳市場(chǎng)動(dòng)態(tài)博弈

PrimeNash的真正威力在于解決現(xiàn)實(shí)世界的復(fù)雜難題。論文以碳排放權(quán)交易市場(chǎng)為例,展示了其在復(fù)雜動(dòng)態(tài)博弈中的應(yīng)用潛力。研究構(gòu)建了一個(gè)包含四個(gè)季度交易期的動(dòng)態(tài)博弈模型,利用逆向歸納法(Backward Induction) 求解。在此案例中,PrimeNash產(chǎn)出了該領(lǐng)域首個(gè)被嚴(yán)格證明的碳市場(chǎng)閉式解析解。如圖5所示,模型不僅推導(dǎo)出了公式,更復(fù)現(xiàn)了真實(shí)的某些市場(chǎng)現(xiàn)象:

  • 期末價(jià)格波動(dòng): 模擬顯示,碳價(jià)在第1-3期維持低位(約18.65 CNY/t),卻在第4期履約截止前急劇飆升至74.71 CNY/t。這種「翹尾效應(yīng)」與現(xiàn)實(shí)市場(chǎng)中企業(yè)的履約焦慮高度一致。

  • 大型國(guó)企的市場(chǎng)影響力: 分析揭示了大型國(guó)有企業(yè)如何利用其市場(chǎng)地位調(diào)節(jié)供需,從而影響價(jià)格走勢(shì)。

  • 政策杠桿R-value: 論文深入探討了政策參數(shù) R-value(跨期持有激勵(lì))的作用。當(dāng) R-value 較高時(shí),企業(yè)傾向于囤積配額以期未來(lái)升值,導(dǎo)致當(dāng)期供給收縮、價(jià)格上漲;反之則會(huì)釋放流動(dòng)性。

以上量化洞見(jiàn)為政策制定者提供了有力的工具,通過(guò)調(diào)整參數(shù)或監(jiān)管臨近截止期的交易,可以有效平抑市場(chǎng)投機(jī),維持價(jià)格穩(wěn)定。


圖5 碳市場(chǎng)博弈問(wèn)題的動(dòng)態(tài)均衡特征

論文總結(jié)

PrimeNash作為首個(gè)基于LLM智能體的納什均衡解析求解框架,成功建立了「策略生成—收益評(píng)估—均衡證明」的模塊化閉環(huán),將閉式Nash均衡推導(dǎo)從依賴專家的手工工作轉(zhuǎn)化為可復(fù)現(xiàn)、可審計(jì)的計(jì)算流程。

該框架通過(guò)多智能體推理、符號(hào)代碼執(zhí)行與形式化驗(yàn)證,能夠有效處理高維策略、跨期遞歸以及不連續(xù)、非凸收益等難題。在七類(lèi)經(jīng)典模型的測(cè)試中,PrimeNash實(shí)現(xiàn)了對(duì)靜態(tài)博弈的全面求解與對(duì)動(dòng)態(tài)博弈的高比例成功求解。

特別是在碳市場(chǎng)競(jìng)價(jià)博弈案例中,PrimeNash不僅給出了可證明的閉式均衡解,還能復(fù)現(xiàn)履約期末波動(dòng)等關(guān)鍵現(xiàn)象,并將R value等機(jī)制參數(shù)與市場(chǎng)穩(wěn)定性建立了可解釋的聯(lián)系,為市場(chǎng)設(shè)計(jì)與氣候政策分析提供了一種透明、可檢驗(yàn)的量化工具,標(biāo)志著AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)在博弈論與經(jīng)濟(jì)學(xué)領(lǐng)域邁出了重要一步。

研究團(tuán)隊(duì)介紹

論文第一作者為南洋理工大學(xué)柳文軒博士,香港中文大學(xué)(深圳)趙俊華教授為本文的通訊作者,南洋理工大學(xué)周茜緣、悉尼大學(xué)王馨蕾和香港中文大學(xué)(深圳)程裕恒是本文共同第一作者,香港中文大學(xué)(深圳)黃建偉教授是本文共同通訊作者。本文其它合作者包括香港中文大學(xué)(深圳)葉立新教授、美國(guó)西北大學(xué)Randall Berry教授及耶魯大學(xué)Leandros Tassiulas教授。

趙俊華教授領(lǐng)銜的人工智能-能源-經(jīng)濟(jì)交叉學(xué)科創(chuàng)新團(tuán)隊(duì)致力于解決大模型智能體算法、能源系統(tǒng)、電力市場(chǎng)、碳市場(chǎng)領(lǐng)域的前沿基礎(chǔ)性科學(xué)問(wèn)題和關(guān)鍵技術(shù),旨在通過(guò)學(xué)科交叉實(shí)現(xiàn)從主體到系統(tǒng)層面的整體解決方案,推動(dòng)相關(guān)領(lǐng)域取得突破性進(jìn)展。近年來(lái)在Joule、Nature Communications、Scientific Data、Nexus等國(guó)際期刊上發(fā)表系列多學(xué)科交叉論文。

參考資料:

doi:10.1016/j.ynexs.2025.100107


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
庫(kù)克官宣,新 iPhone 下周見(jiàn)!

庫(kù)克官宣,新 iPhone 下周見(jiàn)!

果粉俱樂(lè)部
2026-02-27 13:10:03
醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,小心異常

醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,小心異常

荷蘭豆愛(ài)健康
2026-02-27 19:52:46
中國(guó)50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

中國(guó)50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

芭比衣櫥
2026-02-19 21:00:42
這次荷蘭沒(méi)話說(shuō)了!中方正式攤牌:斷供你的芯片,我們自己制造!

這次荷蘭沒(méi)話說(shuō)了!中方正式攤牌:斷供你的芯片,我們自己制造!

史襉的生活科普
2026-02-27 14:54:04
汪小菲講述生產(chǎn)過(guò)程:娃來(lái)得跟電影似的,一路飆車(chē)到醫(yī)院

汪小菲講述生產(chǎn)過(guò)程:娃來(lái)得跟電影似的,一路飆車(chē)到醫(yī)院

素素娛樂(lè)
2026-02-27 18:29:51
依法從嚴(yán)治軍:多名軍隊(duì)人大代表被罷免,原因清晰明確

依法從嚴(yán)治軍:多名軍隊(duì)人大代表被罷免,原因清晰明確

雪中風(fēng)車(chē)
2026-02-26 23:14:11
你干過(guò)哪些陰暗齷齪的事?網(wǎng)友:最后一個(gè)真的好炸裂好真實(shí)

你干過(guò)哪些陰暗齷齪的事?網(wǎng)友:最后一個(gè)真的好炸裂好真實(shí)

帶你感受人間冷暖
2026-02-17 01:00:24
50歲男子酷愛(ài)喝濃茶,茶葉能占半個(gè)杯子!連續(xù)5年確診腎結(jié)石,痛到打滾如生孩子!醫(yī)生提醒→

50歲男子酷愛(ài)喝濃茶,茶葉能占半個(gè)杯子!連續(xù)5年確診腎結(jié)石,痛到打滾如生孩子!醫(yī)生提醒→

大象新聞
2026-02-26 13:45:08
朝鮮閱兵現(xiàn)場(chǎng),武裝力量方陣齊聲高喊“誓死擁護(hù)金正恩”,三聲"萬(wàn)歲"震天響,金正恩豎大拇指點(diǎn)贊

朝鮮閱兵現(xiàn)場(chǎng),武裝力量方陣齊聲高喊“誓死擁護(hù)金正恩”,三聲"萬(wàn)歲"震天響,金正恩豎大拇指點(diǎn)贊

新浪財(cái)經(jīng)
2026-02-27 08:53:06
安踏給谷愛(ài)凌做的這身龍袍,直接把耐克、阿迪的團(tuán)隊(duì)看傻了!

安踏給谷愛(ài)凌做的這身龍袍,直接把耐克、阿迪的團(tuán)隊(duì)看傻了!

達(dá)文西看世界
2026-02-26 19:41:39
簽了簽了!正式加盟!NBA現(xiàn)役第二老球員...

簽了簽了!正式加盟!NBA現(xiàn)役第二老球員...

技巧君侃球
2026-02-27 17:25:54
朱芳雨不隨波逐流,廣東隊(duì)啟用2米03防守怪獸引發(fā)速度革命

朱芳雨不隨波逐流,廣東隊(duì)啟用2米03防守怪獸引發(fā)速度革命

劉哥談體育
2026-02-27 20:20:42
醫(yī)保全國(guó)統(tǒng)一落地!70—80歲老人看病,這3件事一定要記牢!

醫(yī)保全國(guó)統(tǒng)一落地!70—80歲老人看病,這3件事一定要記牢!

阿兵科普
2026-02-27 08:46:49
亞洲飛人劉翔現(xiàn)狀:43歲環(huán)游世界,不工作不缺錢(qián)花,二婚堅(jiān)持丁克

亞洲飛人劉翔現(xiàn)狀:43歲環(huán)游世界,不工作不缺錢(qián)花,二婚堅(jiān)持丁克

不寫(xiě)散文詩(shī)
2026-02-19 23:59:12
行納粹禮被皇馬制裁球迷:我有兩個(gè)黑人小孩,我不知道納粹是什么

行納粹禮被皇馬制裁球迷:我有兩個(gè)黑人小孩,我不知道納粹是什么

懂球帝
2026-02-27 09:25:21
這次荷蘭沒(méi)話說(shuō)了!中方正式宣布:更換國(guó)內(nèi)供應(yīng)商,從此不再合作

這次荷蘭沒(méi)話說(shuō)了!中方正式宣布:更換國(guó)內(nèi)供應(yīng)商,從此不再合作

青梅侃史啊
2026-02-27 17:25:39
我在西藏旅游,一個(gè)喇嘛見(jiàn)我后突然跪下:活佛,我們等了您百年

我在西藏旅游,一個(gè)喇嘛見(jiàn)我后突然跪下:活佛,我們等了您百年

千秋文化
2026-01-29 21:35:02
“高鐵小少爺”事件,讓普通家長(zhǎng)看清真相,學(xué)歷和認(rèn)知都有壁的

“高鐵小少爺”事件,讓普通家長(zhǎng)看清真相,學(xué)歷和認(rèn)知都有壁的

澤澤先生
2026-02-24 21:02:57
湖人內(nèi)訌的元兇?米切爾:球員們厭倦和他打球,保羅:他不防守!

湖人內(nèi)訌的元兇?米切爾:球員們厭倦和他打球,保羅:他不防守!

你的籃球頻道
2026-02-27 09:49:26
上海地鐵2號(hào)線又“長(zhǎng)”長(zhǎng)了,達(dá)66千米,設(shè)站31座

上海地鐵2號(hào)線又“長(zhǎng)”長(zhǎng)了,達(dá)66千米,設(shè)站31座

王姐懶人家常菜
2026-02-27 20:49:47
2026-02-27 22:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14604文章數(shù) 66646關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

殯儀館工作人員紅衣、黃發(fā)主持老人告別儀式 館方致歉

頭條要聞

殯儀館工作人員紅衣、黃發(fā)主持老人告別儀式 館方致歉

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂(lè)要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛(ài)

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
房產(chǎn)
教育
藝術(shù)
時(shí)尚

旅游要聞

正月十五去哪里?來(lái)云中河一日游,把年味兒和儀式感拉滿!

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來(lái)五年,方向定了!

教育要聞

面對(duì)老師不合理的要求,請(qǐng)寶媽們教孩子向這個(gè)七歲女孩學(xué)習(xí)!

藝術(shù)要聞

紫氣東來(lái),好運(yùn)一整年!

冬季穿搭要避開(kāi)臃腫感!配色不老氣、穿衣不隨意,越看越高級(jí)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版