国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

組合結(jié)構(gòu)的強(qiáng)化生成:近似難度

0
分享至

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

組合結(jié)構(gòu)的強(qiáng)化生成:近似難度

https://arxiv.org/pdf/2509.18057v6



摘要

基于人工智能的方法能否幫助我們?cè)趶?fù)雜性理論中取得進(jìn)展?我們提供了肯定回答的證據(jù),利用AlphaEvolve(一種基于大語(yǔ)言模型的代碼變異智能體)在以下三個(gè)場(chǎng)景中獲得了新成果:

a) MAX-CUT與MAX-獨(dú)立集的平均情況難度:我們改進(jìn)了Kunisky與Yu近期的工作,在隨機(jī)3-正則與4-正則圖上針對(duì)MAX-CUT與MAX-獨(dú)立集的驗(yàn)證算法,獲得了接近最優(yōu)的上界與(條件性)下界。我們通過(guò)構(gòu)造頂點(diǎn)數(shù)多達(dá)163的近乎極值的Ramanujan圖來(lái)獲得改進(jìn)的下界。此外,通過(guò)解析論證,我們將上界進(jìn)一步加強(qiáng),從而將這些問(wèn)題的計(jì)算難度確定到小數(shù)點(diǎn)后第三位的誤差范圍內(nèi)。

b) MAX-k-CUT的最壞情況近似難度:我們獲得了新的不可近似性結(jié)果,證明在近似因子分別為0.987與0.9649的情況下,近似MAX-4-CUT與MAX-3-CUT是NP難的。該結(jié)果借助AlphaEvolve發(fā)現(xiàn)了新的小工具歸約(gadget reductions)。我們的MAX-4-CUT結(jié)果優(yōu)于當(dāng)前最優(yōu)的0.9883,而MAX-3-CUT結(jié)果優(yōu)于目前基于小工具的最佳不可近似性結(jié)果0.9853,但尚未超越依賴定制化PCP(而非基于“標(biāo)準(zhǔn)”H?stad式PCP的小工具歸約)所達(dá)到的最優(yōu)結(jié)果16/17。

c) 度量旅行商問(wèn)題(TSP)的最壞情況近似難度:我們證明在近似因子111/110內(nèi)近似最小代價(jià)環(huán)游是NP難的,該結(jié)果通過(guò)AlphaEvolve發(fā)現(xiàn)了一個(gè)新的小工具,從而改進(jìn)了此前117/116的最優(yōu)結(jié)果。我們?yōu)?LIN(2)(一種常用于硬度歸約的標(biāo)準(zhǔn)約束滿足問(wèn)題)到TSP的歸約提供了模塊化的正確性與完備性論證,這使得AlphaEvolve能夠?qū)τ邢藜s束圖進(jìn)行搜索。這種模塊化方法可能對(duì)今后關(guān)于TSP不可近似性的研究具有獨(dú)立價(jià)值。

我們面臨的一項(xiàng)關(guān)鍵技術(shù)挑戰(zhàn)在于:驗(yàn)證AlphaEvolve生成的候選構(gòu)造代價(jià)高昂(有時(shí)需要與構(gòu)造規(guī)模呈指數(shù)級(jí)的時(shí)間)。我們的成果得益于利用AlphaEvolve自身來(lái)演化出更快的驗(yàn)證過(guò)程(對(duì)我們的某些小工具而言,速度提升可達(dá)10,000倍)。這些結(jié)果表明,基于小工具的證明若經(jīng)由AI工具處理,有望獲得更強(qiáng)的結(jié)果。

1 引言

本文研究以下問(wèn)題:基于人工智能的方法能否幫助我們?cè)趶?fù)雜性理論中做出新穎且非平凡的發(fā)現(xiàn)?我們通過(guò)在三個(gè)問(wèn)題上取得的進(jìn)展,為此問(wèn)題提供了肯定回答的證據(jù)。

a) 稀疏隨機(jī)圖上MAX-CUT與MAX-獨(dú)立集上界的驗(yàn)證難度。在第2節(jié)中,我們改進(jìn)了[KY24]中提出的組合結(jié)構(gòu),在{3,4}-正則情形下獲得了更優(yōu)的下界。作為補(bǔ)充,我們還得到了新的上界,改進(jìn)了Hoffman的經(jīng)典譜界[Hof03, Hae21]。(這些上界通過(guò)解析方法1推導(dǎo)得出。)綜合上下界結(jié)果,我們幾乎完全解決了這些問(wèn)題2。

b) MAX-k-CUT的近似NP難性。在第3節(jié)中,我們針對(duì)k∈{3,4}的情形,給出了基于小工具的歸約(源自標(biāo)準(zhǔn)的H?stad型PCP [H?s01]),用于證明MAX-k-CUT的近似NP難性。對(duì)于MAX-4-CUT,我們將當(dāng)前最優(yōu)的不可近似性結(jié)果從0.9883 [AOTW14]改進(jìn)至0.987;對(duì)于MAX-3-CUT,我們將當(dāng)前最優(yōu)的基于小工具的不可近似性結(jié)果從0.9853 [KKLP96]改進(jìn)至0.9649。我們的MAX-3-CUT結(jié)果介于兩項(xiàng)使用定制化PCP的工作之間:[GS09]的0.9696與[AOTW14]的0.9411。

c) 度量旅行商問(wèn)題(TSP)的近似NP難性。在第4節(jié)中,我們給出了一個(gè)新的基于小工具的歸約(源自標(biāo)準(zhǔn)H?stad型PCP [H?s01]),用于證明度量TSP的近似NP難性。我們將當(dāng)前最優(yōu)結(jié)果117/116 [CC20]改進(jìn)至111/110。這一改進(jìn)推進(jìn)了該問(wèn)題硬度結(jié)果的長(zhǎng)期研究脈絡(luò):[PY93, 1+δ](未給出δ的顯式值)、[Eng99, 5381/5380]、[BHK+00, 3183/3182]、[PV06, 220/219]、[Lam14, 185/184]、[KLS15, 123/122]、[CC20, 117/116]。附帶說(shuō)明,我們基于AI的探索仍在進(jìn)行中,該界有望進(jìn)一步改進(jìn)。

值得注意的是,我們的結(jié)果均依賴于單一的(AI衍生)技術(shù)——AlphaEvolve [NVE+25, RPBN+24],用于發(fā)現(xiàn)并驗(yàn)證優(yōu)于先前構(gòu)造的有限組合結(jié)構(gòu)。在高層次上,AlphaEvolve利用大語(yǔ)言模型(LLM)迭代演化生成組合結(jié)構(gòu)的代碼片段(我們有時(shí)稱之為“構(gòu)造”),并依據(jù)某種標(biāo)準(zhǔn)對(duì)這些結(jié)構(gòu)進(jìn)行質(zhì)量評(píng)估。盡管我們通過(guò)AlphaEvolve生成的結(jié)構(gòu)均為有限構(gòu)造,但借助適當(dāng)?shù)摹疤嵘保╨ifting)[KY24, TSSW00, CC20]論證,我們的主要結(jié)果(定理2.1、3.1與4.1)均蘊(yùn)含了對(duì)問(wèn)題規(guī)模n的全稱量詞?n。至少,我們的工作表明,我們應(yīng)當(dāng)常規(guī)性地將基于小工具的證明送入“AI優(yōu)化”階段。我們按人類參與程度(為使問(wèn)題適配AlphaEvolve所需)遞增的順序呈現(xiàn)這些結(jié)果。

在操作層面,該系統(tǒng)包含三個(gè)組成部分:a) 用于構(gòu)造組合結(jié)構(gòu)的代碼片段(C);b) 用于驗(yàn)證并評(píng)分所生成結(jié)構(gòu)的評(píng)估函數(shù)(稱為驗(yàn)證器);c) 基于先前C的集合與構(gòu)造歷史,建議新代碼片段Cnew的大語(yǔ)言模型。通過(guò)對(duì)LLM進(jìn)行提示,目標(biāo)是引導(dǎo)Cnew生成更優(yōu)的結(jié)構(gòu)。(附錄A提供了AlphaEvolve的更詳細(xì)概述。)

AlphaEvolve的有效性在根本上取決于驗(yàn)證步驟,后者進(jìn)而決定了搜索空間的形態(tài)。由于我們?cè)邶嫶蟮乃阉骺臻g中尋求極值結(jié)構(gòu),對(duì)構(gòu)造進(jìn)行快速驗(yàn)證(包括評(píng)分)有助于AlphaEvolve嘗試大量組合結(jié)構(gòu),并從中學(xué)習(xí)模式以剪枝搜索空間。我們最終為各問(wèn)題找到的結(jié)構(gòu)規(guī)模,與驗(yàn)證速度直接相關(guān)。

在AlphaEvolve中加速驗(yàn)證:這些問(wèn)題所尋求的組合結(jié)構(gòu)基于無(wú)向圖。盡管對(duì)TSP下界及稀疏隨機(jī)圖上界驗(yàn)證的暴力驗(yàn)證速度尚可接受,但對(duì)MAX-k-CUT而言,驗(yàn)證則顯著更具挑戰(zhàn)性。下文將對(duì)此進(jìn)行更詳細(xì)討論。

對(duì)于TSP,所發(fā)現(xiàn)的某個(gè)小工具包含20條邊(分布在12個(gè)頂點(diǎn)上)以及大量約束條件(約11!條)以完成成功驗(yàn)證。因此,我們需要精心編寫一個(gè)高速驗(yàn)證器,使其運(yùn)行時(shí)間控制在約一秒之內(nèi)。


2 隨機(jī)圖上的認(rèn)證問(wèn)題難度









我們?cè)诟戒汢.2中證明了該結(jié)果。為便于參考,我們整理了與先前結(jié)果的對(duì)比(見(jiàn)表1)。值得注意的是,我們獲得了與匹配的上下界,其絕對(duì)誤差僅0.005,因此定理2.1和2.2在這些情形下近乎最優(yōu)。特別地,這激發(fā)了一個(gè)令人振奮的可能性:通過(guò)研究定理2.1和2.2的證明,或許能夠獲得關(guān)于的完整刻畫(huà)。

關(guān)于使用AlphaEvolve尋找近乎最優(yōu)下界的評(píng)述。本節(jié)以定理2.1的方法論及結(jié)果作為結(jié)語(yǔ)。文獻(xiàn)[KY24]中針對(duì)d∈{3,4}給出的構(gòu)造是頂點(diǎn)數(shù)不超過(guò)12的圖,這些構(gòu)造通過(guò)計(jì)算機(jī)輔助實(shí)驗(yàn)生成。我們通過(guò)隨機(jī)采樣大量正則圖成功復(fù)現(xiàn)了他們的結(jié)果,盡管在構(gòu)造中對(duì)自環(huán)數(shù)量存在事后認(rèn)知。

改進(jìn)它們的下界需要在更多頂點(diǎn)上進(jìn)行構(gòu)造,因?yàn)?MC(G) 或 IS(G) 的粒度受限于 G 的大小。在我們目標(biāo)規(guī)模下,隨機(jī)采樣構(gòu)造的方法行不通,原因有二:(1)d-正則 n 頂點(diǎn)圖的空間呈組合爆炸式增長(zhǎng),意味著隨機(jī)采樣無(wú)法找到有趣的"極值"圖;(2)計(jì)算 MC(G) 或 IS(G) 的復(fù)雜度關(guān)于 n 是指數(shù)級(jí)的,因此甚至很難為某個(gè)構(gòu)造計(jì)算這些邊界。


3 基于 Gadget 的 MAX-k-CUT 近似 NP-難性

近似算法領(lǐng)域 [WS11] 關(guān)注為計(jì)算困難的組合優(yōu)化問(wèn)題尋找近似最優(yōu)解。在近似難性 [AB09] 中,主要目標(biāo)是理解這種近似何時(shí)在計(jì)算上是困難的。我們?cè)谘芯砍浞值?strong>約束滿足問(wèn)題(CSPs)框架內(nèi)開(kāi)展工作。



在 Max-CSP 設(shè)置中,輸入是特定 CSP 實(shí)例 I 的描述,目標(biāo)是計(jì)算可以滿足的約束的最大數(shù)量。換句話說(shuō),我們?cè)噲D近似計(jì)算函數(shù) 。通過(guò)引入 (c, s)-近似的概念,將近似問(wèn)題轉(zhuǎn)化為判定問(wèn)題是很有用的,如下所示。





與先前不可近似性結(jié)果的比較。據(jù)我們所知,當(dāng)前MAX-4-CUT的最佳困難性因子是85/86 + ε [AOTW14, 定理1.2],我們通過(guò)定理3.2將其改進(jìn)到0.987。[AOTW14]中的困難性是通過(guò)從MAX-3-CUT到MAX-k-CUT(對(duì)所有k > 3)的歸約獲得的。至于MAX-3-CUT,我們將定理3.1中的結(jié)果與三項(xiàng)工作[KKLP96, GS09, AOTW14]進(jìn)行比較,這些工作為MAX-3-CUT獲得了逐步更強(qiáng)的NP困難性結(jié)果。我們?cè)诙ɡ?.1中的55/57 + ε不可近似性比率擊敗了[KKLP96]的67/68 + ε和[GS09]的32/33 + ε。我們的結(jié)果不足以擊敗Austrin、O'Donnell、Tan和Wright [AOTW14]使用從Label Cover的定制歸約獲得的16/17 + ε的最新技術(shù)。相比之下,我們的結(jié)果不需要任何新的PCP機(jī)制,僅利用H?stad的經(jīng)典PCP [H?s01]。我們不了解限制基于gadget的方法擊敗[AOTW14]不可近似比率的根本性障礙,可以想象,從不同的源問(wèn)題到3LIN(3)的基于gadget的歸約可以實(shí)現(xiàn)這一點(diǎn)。

3.1 為可靠性和完備性保證開(kāi)發(fā)搜索框架

為了將AlphaEvolve應(yīng)用于這個(gè)問(wèn)題,我們開(kāi)發(fā)了一個(gè)基于gadget歸約論證的模板,并分離了該論證中對(duì)gadget所需的性質(zhì)(詳見(jiàn)定義C.1和定理C.2)。我們通過(guò)候選gadget的最終性能來(lái)評(píng)分,即通過(guò)將定理C.2應(yīng)用于候選gadget所隱含的不可近似比率。


為MAX-3-CUT找到的所有g(shù)adget中,每條邊有0到3個(gè)副本。這是意料之中的,因?yàn)樵S多先前結(jié)果中找到的最優(yōu)gadget(例如 [TSSW00, HHM?17])都包含小的整數(shù)權(quán)重。因此,我們得到了一個(gè)簡(jiǎn)潔的不可近似比 55/57。

尋找MAX-4-CUT的gadget。 我們尋找MAX-4-CUT gadget的過(guò)程與之前的主要區(qū)別在于,我們必須在變量更多的gadget中進(jìn)行搜索(多達(dá)19個(gè)變量),因此我們需要一個(gè)性能極高的驗(yàn)證器實(shí)現(xiàn)(同樣,我們將在第3.2節(jié)詳細(xì)闡述)。即使有了這個(gè)優(yōu)化后的驗(yàn)證器,評(píng)估速度仍然相當(dāng)慢,評(píng)估一個(gè)19變量的gadget大約需要一秒鐘。因此,AlphaEvolve花了更長(zhǎng)的時(shí)間才找到一個(gè)搜索算法,該算法在給定這個(gè)優(yōu)化驗(yàn)證器的情況下,能夠找到任何非平凡的gadget。AlphaEvolve最終產(chǎn)生的搜索算法具有一個(gè)獨(dú)特的特性:它在帶權(quán)gadget中進(jìn)行搜索,權(quán)重為實(shí)數(shù)值,經(jīng)過(guò)適當(dāng)?shù)目s放和舍入后,得到的gadget權(quán)重在1到1429之間變化很大。

3.2 通過(guò)AlphaEvolve實(shí)現(xiàn)更快的驗(yàn)證以探索更大的Gadget

尋找大型gadget的主要挑戰(zhàn)在于,對(duì)gadget進(jìn)行評(píng)分的成本隨變量數(shù)量呈指數(shù)級(jí)增長(zhǎng);計(jì)算定義C.1中描述的完備性和可靠性參數(shù)本質(zhì)上相當(dāng)于求解一個(gè)MAX-k-CUT實(shí)例,這需要指數(shù)時(shí)間。即使對(duì)于,當(dāng)使用暴力MAX-3-CUT驗(yàn)證器搜索規(guī)模僅為11的gadget時(shí),AlphaEvolve的速度也會(huì)顯著下降。

這個(gè)問(wèn)題沒(méi)有現(xiàn)成的解決方案,即不存在已有的快速驗(yàn)證器;現(xiàn)有的SMT/MIP求解器 [ES03, MML14] 也不太可能被改造用于求解MAX-k-CUT。為了解決這個(gè)問(wèn)題,我們使用AlphaEvolve本身來(lái)加速一個(gè)樸素的暴力MAX-k-CUT實(shí)現(xiàn),通過(guò)運(yùn)行時(shí)間和正確性來(lái)對(duì)候選實(shí)現(xiàn)進(jìn)行評(píng)分。為了計(jì)算運(yùn)行時(shí)間,我們創(chuàng)建了一個(gè)綜合數(shù)據(jù)集,包含來(lái)自20個(gè)隨機(jī)模型的各種MAX-k-CUT實(shí)例,這些模型具有不同程度的植入結(jié)構(gòu)。然后,我們要求AlphaEvolve最大化變量數(shù) m,使得驗(yàn)證器在我們的數(shù)據(jù)集上求解規(guī)模為 m 的實(shí)例時(shí),平均所需時(shí)間不超過(guò)一秒。

最大的挑戰(zhàn)是確保AlphaEvolve不會(huì)作弊,找到一個(gè)快得多但不正確的驗(yàn)證器。如前所述,我們通過(guò)以下方式實(shí)現(xiàn)正確性:(1) 檢查驗(yàn)證器在綜合數(shù)據(jù)集上的正確性,(2) 使用一個(gè)獨(dú)立的評(píng)判LLM來(lái)認(rèn)證候選驗(yàn)證器的正確性。這些技術(shù)單獨(dú)使用時(shí)都過(guò)于寬松,無(wú)法避免不正確的驗(yàn)證器,但通過(guò)人工檢查我們發(fā)現(xiàn),將它們結(jié)合起來(lái)就足夠了。

我們注意到,一旦 m 足夠大,就無(wú)法使用暴力實(shí)現(xiàn)(保證正確)為我們的數(shù)據(jù)集標(biāo)注"ground truth"分?jǐn)?shù)。相反,我們歸納地依賴AlphaEvolve之前產(chǎn)生的驗(yàn)證器的正確性(這些驗(yàn)證器已經(jīng)通過(guò)了上述正確性檢查),它們足夠快,可以為較大的 m 提供標(biāo)簽。


3.3 與其他計(jì)算技術(shù)的比較

我們現(xiàn)在調(diào)研一些其他用于尋找gadget的計(jì)算技術(shù),并討論為什么它們?cè)谖覀兲囟▎?wèn)題的規(guī)模上似乎是不可行的,即使是對(duì)于更簡(jiǎn)單的MAX-3-CUT設(shè)置。

最直接的比較是TSSW框架 [TSSW00],它將尋找最優(yōu)gadget的任務(wù)轉(zhuǎn)化為一個(gè)線性規(guī)劃(LP)。這樣做主要困難在于計(jì)算gadget完備性時(shí)存在存在量詞。為了消除這些量詞,[TSSW00] 對(duì)gadget中的輔助變量進(jìn)行規(guī)范化。結(jié)果,編碼最優(yōu)gadget的LP規(guī)模在源謂詞的滿足賦值數(shù)量上是雙指數(shù)級(jí)的;對(duì)于從3LIN(3)到MAX-3-CUT的歸約,這個(gè)數(shù)字是,這在計(jì)算上是不可行的。有時(shí)(正如我們MAX-3-CUT的 gadget的情況),可以論證并非所有輔助變量都是必需的,從而得到一個(gè)更易處理的LP,但不清楚這在非常特殊的情況之外是否可行。

如果希望將gadget中的變量數(shù)固定為小于336的某個(gè)特定常數(shù)(如我們gadget的14個(gè)變量),可以通過(guò)使用整數(shù)變量編碼存在性約束,將線性規(guī)劃(LP)改為混合整數(shù)規(guī)劃(MIP)。例如,即使除一個(gè)存在性約束外其余全部消除,求解該MIP仍耗時(shí)10小時(shí)。(我們使用SCIP求解器 [BBB+24a, BBB+24b] 對(duì)問(wèn)題進(jìn)行直接編碼。)因此,MIP方法在使用最先進(jìn)(SOTA)求解器的情況下似乎也并不可行。

4 度量TSP近似計(jì)算的NP難性


這種MWST形式對(duì)難歸約特別有利。通過(guò)將關(guān)注點(diǎn)從尋找簡(jiǎn)單回路轉(zhuǎn)移到尋找最小成本的連通歐拉子圖,可以避免顯式構(gòu)造度量閉包的繁瑣任務(wù)。這使得歸約能夠在稀疏圖上局部定義權(quán)重——通常給邊分配小權(quán)重,給非邊分配大懲罰——同時(shí)確保原始困難實(shí)例的結(jié)構(gòu)性質(zhì)得以保持。

我們使用AlphaEvolve尋找一個(gè)gadget(稱為方程gadget)來(lái)改進(jìn)從Hybrid-3LIN(2)到MWST的歸約,同時(shí)保持其余論證不變。這立即將難近似因子從117/116改進(jìn)到了111/110。


使用AlphaEvolve,我們發(fā)現(xiàn)了一個(gè)新的方程gadget(圖4),其性能優(yōu)于[CC20]中出現(xiàn)的(圖8a)?。為了量化這一改進(jìn),我們現(xiàn)在更具體地描述方程gadget:每個(gè)3LIN(2)方程?3?(形式為x⊕y⊕z=1)被分配一個(gè)方程gadget,其中圖4中的綠色頂點(diǎn){1,2,3}(也稱為接觸頂點(diǎn))對(duì)應(yīng)變量{x,y,z}。紅色頂點(diǎn){4}被稱為中心頂點(diǎn),并在實(shí)例中所有3LIN(2)方程的方程gadget的所有出現(xiàn)中共享。方程gadget中的其余頂點(diǎn)(在圖2中以藍(lán)色顯示)用于確保由滿足的3LIN(2)方程和不滿足的方程產(chǎn)生的生成環(huán)游的權(quán)重之間存在差距。黑色邊(稱為“非強(qiáng)制邊”)在任何環(huán)游中都是可選的,而任何環(huán)游都必須至少經(jīng)過(guò)每條紅色邊(稱為“強(qiáng)制邊”)一次。我們注意到,標(biāo)準(zhǔn)技巧(例如,[KLS15])可用于實(shí)現(xiàn)強(qiáng)制某些邊在MWST中被選取的約束。綠色虛線邊稱為特殊邊,僅用于分析目的,在實(shí)際的MWST實(shí)例中不會(huì)出現(xiàn)。

如前所述,若方程gadget對(duì)生成環(huán)游的貢獻(xiàn)在子句滿足/不滿足時(shí)分別較小/較大,則該方程gadget表現(xiàn)良好。在下文中,我們將這一要求提煉為關(guān)于該gadget的自包含陳述。給定一個(gè)方程gadget,我們考慮其中覆蓋每個(gè)頂點(diǎn)的不相交環(huán)游集合。此類集合與(x,y,z)的特定賦值相關(guān)聯(lián),其中當(dāng)且僅當(dāng)變量對(duì)應(yīng)的接觸頂點(diǎn)與中心頂點(diǎn)4出現(xiàn)在同一環(huán)游中時(shí),該變量被賦值為True。此外,除包含中心頂點(diǎn)的環(huán)游外,每個(gè)環(huán)游都會(huì)受到權(quán)重懲罰1。對(duì)于3LIN(2)方程的賦值(x,y,z),我們將關(guān)注與(x,y,z)相關(guān)的任何此類集合的可能最小總權(quán)重(包括任何權(quán)重懲罰)。我們注意到上述描述是簡(jiǎn)化的,因?yàn)樗纯紤]與約簡(jiǎn)其余部分以不希望的方式交互的“不誠(chéng)實(shí)”環(huán)游集合。為了處理這些情況,我們?cè)谛问交C明中采用略微不同的形式化方法,將討論推遲到附錄D.2。

我們對(duì)方程gadget的改進(jìn):AlphaEvolve找到的改進(jìn)型方程gadget(圖4)允許與3LIN(2)方程的滿足賦值相關(guān)聯(lián)的集合總權(quán)重為10,與不滿足賦值相關(guān)聯(lián)的至少為11,而[CC20]中的gadget分別為13和14。這立即改進(jìn)了約簡(jiǎn)的性能,使MWST(以及等價(jià)的度量TSP)的不可近似比從117/116提高到111/110。我們新gadget的描述、完整約簡(jiǎn)以及作為方程gadget函數(shù)的最終不可近似比的證明在附錄D中提供。


雖然我們?cè)趫D4中展示了對(duì)應(yīng)于謂詞x⊕y⊕z=1的方程gadget,但我們可以使用對(duì)應(yīng)于x⊕y⊕z=0的gadget(與[CC20]中的設(shè)置相同)獲得相同的近似比。然而,該gadget更為復(fù)雜。我們將它的描述以及與[CC20]的并排比較推遲到附錄D.3。

核心思想及AlphaEvolve的重要性:在本文討論的問(wèn)題中,TSP需要最多的人工參與,主要因?yàn)椴淮嬖诂F(xiàn)有的gadget約簡(jiǎn)搜索框架(類似于[TSSW00]用于MAX-k-CUT)。特別是,[CC20]中的完整約簡(jiǎn)包含方程gadget之外的腳手架,且約簡(jiǎn)的所有組件作為單個(gè)對(duì)象一起分析。在先前工作[CC20,KLS15]的證明結(jié)構(gòu)中,似乎不清楚如何抽象出一組可驗(yàn)證的約束,使得AlphaEvolve可以單獨(dú)用于搜索更好的方程gadget。在本工作中,我們將可靠性和完備性證明模塊化,使其依賴于明確定義的可靠性和完備性參數(shù),這些參數(shù)被定義為方程gadget本身的優(yōu)化問(wèn)題(定義D.4)。這種模塊化對(duì)未來(lái)工作可能具有獨(dú)立的研究?jī)r(jià)值。我們使用AlphaEvolve搜索方程gadget,以最大化從這些可靠性和完備性參數(shù)獲得的最終不可近似比。

方程gadget搜索的優(yōu)化問(wèn)題可表述為混合整數(shù)規(guī)劃(MIP)。由于其簡(jiǎn)單性,可以想見(jiàn):若預(yù)先已知輔助頂點(diǎn)數(shù)量,圖4中的gadget可通過(guò)直接求解該MIP得到。然而,由于對(duì)應(yīng)x⊕y⊕z=0的方程gadget(圖8b)涉及大量約束(約11!條),使用傳統(tǒng)SMT/MIP求解器將面臨與MAX-k-CUT問(wèn)題相同(第3.3節(jié)所述)的計(jì)算瓶頸。

5 關(guān)于AI輔助數(shù)學(xué)與復(fù)雜性理論的討論

在研究AI輔助數(shù)學(xué)發(fā)現(xiàn)的作用時(shí),我們至少需要考慮以下幾種情形:

  1. 調(diào)用語(yǔ)言模型來(lái)總結(jié)某一領(lǐng)域的既有成果,規(guī)劃通往新定理的研究路徑,或直接生成(部分乃至完整)證明;
  2. 使用AlphaEvolve等由AI衍生的工具來(lái)生成更優(yōu)的證明構(gòu)件(如gadget、圖結(jié)構(gòu));
  3. 使用獨(dú)立于AI的定制代碼來(lái)發(fā)現(xiàn)更優(yōu)的證明構(gòu)件;
  4. 通過(guò)手工方式發(fā)現(xiàn)相同或更優(yōu)的證明構(gòu)件;
  5. 上述(1)–(4)情形的組合。

文獻(xiàn)綜述:大語(yǔ)言模型(LLM)能夠有效生成領(lǐng)域內(nèi)既有文獻(xiàn)的綜述,這一觀點(diǎn)已被討論了一段時(shí)間 [WLNR23, WZLJ23, HLL+24, GUK+24],我們的實(shí)際體驗(yàn)也通過(guò)多個(gè)提示驗(yàn)證了這一點(diǎn)。所得結(jié)果(除偶爾出現(xiàn)幻覺(jué)外)為更深入的探索與理解提供了良好起點(diǎn)。有趣的是,在諸多案例中,我們能夠快速生成一個(gè)陌生領(lǐng)域的研究現(xiàn)狀概覽;我們相信,這一能力將日益被跨領(lǐng)域工作的科學(xué)家所采用,例如使代數(shù)學(xué)家能夠迅速掌握拉姆齊理論。我們預(yù)計(jì),隨著時(shí)間推移,這將促進(jìn)學(xué)科間更流暢的知識(shí)交融。然而,我們尚未能通過(guò)提示使LLM生成可用于獲得新結(jié)果(如本文所報(bào)告結(jié)果)的可行研究計(jì)劃,這正是更深層努力的焦點(diǎn),例如Google的Co-Scientist計(jì)劃 [GWD+25]。

直接提示:已有若干研究嘗試通過(guò)直接提示LLM來(lái)為開(kāi)放性數(shù)學(xué)命題生成證明 [Raa25, Bub25, OD25, DdMN25, JR25, BCE+25],成效不一。在某些情況下,LLM確實(shí)能夠生成先前未被證明命題的完整且正確的證明 [Bub25, BCE+25](盡管堅(jiān)持不懈的人類研究者或許也能推導(dǎo)出相同結(jié)果);但在更多情況下 [Raa25, OD25, DdMN25, JR25],LLM僅能生成證明草圖,最終仍需人類補(bǔ)全。截至本文撰寫時(shí),該方向一項(xiàng)重要工作是 [BCE+25]。該報(bào)告記錄了GPT-5在加速數(shù)學(xué)與理論計(jì)算機(jī)科學(xué)研究方面的能力,展示了“腳手架”技術(shù)——即通過(guò)更簡(jiǎn)單、相關(guān)的熱身問(wèn)題對(duì)模型進(jìn)行預(yù)訓(xùn)練——如何使其推導(dǎo)出在線算法的改進(jìn)界,并形式化證明了圖論中先前開(kāi)放的猜想。作者強(qiáng)調(diào),該模型能夠超越單純的信息檢索,成功構(gòu)建出曾令人類專家束手無(wú)策的新穎反例與證明策略,例如為凸體追蹤問(wèn)題中的“Follow-the-Leader”算法生成復(fù)雜反例,以及提出解決Erd?s問(wèn)題[Blo]。

總體而言,當(dāng)前這些證明/草圖仍需人類驗(yàn)證其正確性。我們?cè)匀坏貒L試通過(guò)提示標(biāo)準(zhǔn)LLM直接生成本文中的組合結(jié)構(gòu),但均告失敗?。盡管隨著LLM推理能力的提升 [LL25],這一目標(biāo)未來(lái)或可實(shí)現(xiàn),但正式比較已超出本文范圍。我們強(qiáng)調(diào),我們的構(gòu)造始終附帶可通過(guò)標(biāo)準(zhǔn)計(jì)算方法形式驗(yàn)證的正確性證書(shū);一旦驗(yàn)證代碼可靠,便無(wú)需進(jìn)一步的人工審查。

展示AlphaEvolve的廣度:近期論文 [GGSTW25] 全面展示了由LLM引導(dǎo)的進(jìn)化搜索(AlphaEvolve)如何在分析、組合與幾何領(lǐng)域中自主發(fā)現(xiàn)新穎數(shù)學(xué)構(gòu)造,其成果令人驚嘆——例如通過(guò)創(chuàng)造性地對(duì)驗(yàn)證用語(yǔ)言模型實(shí)施“提示注入”,找到了“四守衛(wèi)”邏輯謎題的反例。該方法顯著改進(jìn)了諸如掛谷針問(wèn)題與環(huán)加載問(wèn)題等長(zhǎng)期難題的界,且往往僅需極少問(wèn)題定制調(diào)優(yōu),即可達(dá)到與人類設(shè)計(jì)基準(zhǔn)相當(dāng)甚至更優(yōu)的結(jié)果。

近似難度中的計(jì)算方法:在隨機(jī)圖的平均情況難度與MAX-k-CUT的NP難度近似問(wèn)題中,此前已使用過(guò)計(jì)算機(jī)輔助方法 [TSSW00, H?s01, KY24]。[KY24] 利用計(jì)算方法生成了具有較大割值(或獨(dú)立集)的d-正則拉馬努金圖(d ∈ {3, 4})。盡管他們未明確說(shuō)明計(jì)算方法,但我們可通過(guò)隨機(jī)采樣d-正則圖并暴力測(cè)試其性質(zhì)來(lái)復(fù)現(xiàn)其結(jié)果?;诘?節(jié)所述原因,[KY24] 僅能對(duì)n ≤ 12證明其下界,而我們發(fā)現(xiàn)的圖可達(dá)n = 163。

對(duì)于第3節(jié)中的NP難度gadget歸約,可靠性和完備性約束均可通過(guò)斯科倫化轉(zhuǎn)化為線性規(guī)劃 [TSSW00]。然而,此類線性規(guī)劃的規(guī)模隨約束圖頂點(diǎn)數(shù)呈雙重指數(shù)增長(zhǎng)。因此,即便是MAX-3-CUT問(wèn)題,使用標(biāo)準(zhǔn)線性規(guī)劃求解器處理 [TSSW00] 中典型變量數(shù)(≈336)的線性規(guī)劃也已不可行。也可直接使用SMT/MIP求解器處理非凸規(guī)劃,但當(dāng)變量數(shù)n ≥ 14時(shí),約束數(shù)量呈指數(shù)級(jí)增長(zhǎng),這些求解器同樣難以擴(kuò)展(詳見(jiàn)第3.3節(jié)討論)。在TSP近似難度問(wèn)題中,可靠性和完備性約束亦可表述為MIP約束;即便方程gadget的頂點(diǎn)數(shù)適中(如圖8b中的12個(gè)),約束數(shù)量也會(huì)變得極其龐大(約11! ≈ 3 × 10?),超出標(biāo)準(zhǔn)MIP求解器的處理能力。

手工設(shè)計(jì)gadget:理論上,人類專家或高度定制的計(jì)算驗(yàn)證器最終或許能發(fā)現(xiàn)這些解。然而,其發(fā)現(xiàn)很可能已超出簡(jiǎn)單“紙筆推導(dǎo)”方法的能力范圍,且標(biāo)準(zhǔn)SMT/MIP求解器亦未能生成它們。此外,人類通常憑借對(duì)構(gòu)造對(duì)象對(duì)稱性的洞察來(lái)直覺(jué)性地裁剪搜索空間;而在我們的TSP gadget中,不對(duì)稱性似乎是實(shí)現(xiàn)改進(jìn)的關(guān)鍵。

AI與大量人力結(jié)合:我們的工作與 [Tao25] 均屬于AI與顯著人力投入相結(jié)合的范例。特別是,[Tao25] 記錄了通過(guò)混合工作流快速解決Erd?s問(wèn)題 [Blo] 的過(guò)程:人類智慧引導(dǎo)多個(gè)AI系統(tǒng)——包括用于生成最優(yōu)構(gòu)造的AlphaEvolve,以及用于在Lean中進(jìn)行形式驗(yàn)證的自動(dòng)定理證明器Aristotle [ABB+25]。通過(guò)整合眾包數(shù)學(xué)洞見(jiàn)、AI驅(qū)動(dòng)的深度文獻(xiàn)檢索與計(jì)算發(fā)現(xiàn),該協(xié)作在48小時(shí)內(nèi)成功生成了解答。在我們的案例中,為使問(wèn)題適用于AlphaEvolve,我們不得不(手工)重構(gòu)度量TSP的證明邏輯。

秉承圖靈模仿游戲 [Tur50] 的精神,對(duì)AI輔助數(shù)學(xué)發(fā)現(xiàn)穩(wěn)健性的一項(xiàng)有力檢驗(yàn)是持久性(durability):即通過(guò)AI輔助獲得的新成果是否會(huì)被人類(可能借助計(jì)算機(jī)輔助)迅速超越。我們注意到,某些AI輔助數(shù)學(xué)的成果事實(shí)上已被人類在不使用AI的情況下快速?gòu)?fù)現(xiàn)或改進(jìn) [Ger25, BSZ25];在某些情況下,相關(guān)結(jié)果甚至早已存在(有時(shí)甚至在問(wèn)題被明確提出之前 [Alo24, Rec25]),但在應(yīng)用AI方法時(shí)作者并不知曉 [AM25, BCE+25]。

結(jié)語(yǔ):盡管我們?cè)诖说慕?jīng)驗(yàn)有限且遠(yuǎn)非定論,但我們認(rèn)為一些早期主題正在浮現(xiàn)。

首先,語(yǔ)言模型能夠生成研究計(jì)劃并總結(jié)領(lǐng)域現(xiàn)狀 [GWD+25]。盡管我們尚未能借此直接推導(dǎo)出新穎結(jié)果,但這一能力使非專業(yè)人士能夠快速學(xué)習(xí)新領(lǐng)域,我們預(yù)計(jì)這將促進(jìn)更廣泛的科學(xué)交叉融合。

其次,我們預(yù)計(jì)未來(lái)將出現(xiàn)越來(lái)越多“AI率先抵達(dá)”的證明,但往往缺乏“若無(wú)AI則無(wú)法完成”的明確證據(jù)。在所有這些案例中(且可論證地,在AI應(yīng)用于科學(xué)的廣泛場(chǎng)景中),驗(yàn)證環(huán)節(jié)將持續(xù)成為瓶頸。我們留待一個(gè)開(kāi)放問(wèn)題:直接提示LLM最終能否復(fù)現(xiàn)并超越我們的結(jié)果。

第三,我們的工作表明,基于gadget的歸約方法適合采用AlphaEvolve進(jìn)行超越傳統(tǒng)方法(如SMT/MIP求解器)的優(yōu)化。這反過(guò)來(lái)暗示,若要超越AlphaEvolve,通常需要采用非gadget方法,例如定制化的概率可檢驗(yàn)證明(PCP)[AOTW14]。

最后,值得反思我們方法的一些失敗案例。對(duì)于某些問(wèn)題,即便驗(yàn)證極為簡(jiǎn)單,AlphaEvolve仍無(wú)法奏效。一個(gè)例子是Hadamard-668猜想,該猜想斷言存在668×668階的Hadamard矩陣(更一般地,猜想對(duì)任意4的倍數(shù)n均存在n×n階Hadamard矩陣;668是目前尚未獲證的最小階數(shù))。我們?cè)鴩L試用AlphaEvolve構(gòu)造該矩陣。盡管搜索空間龐大(達(dá)2???2種可能),但驗(yàn)證任一候選解的正確性僅需2、23、112次按位乘法。即便驗(yàn)證速度極快,AlphaEvolve仍未能找到H???×???的構(gòu)造;事實(shí)上,我們甚至未能讓AlphaEvolve復(fù)現(xiàn)H???×???的構(gòu)造——該階數(shù)曾是此前未知構(gòu)造的最小階數(shù),直至[KTR05]給出解法;而428階的構(gòu)造方案其實(shí)早已公開(kāi)于互聯(lián)網(wǎng)。

展望未來(lái),LLM推理能力的進(jìn)步 [LL25, GWD+25, Wei25] 或可與AlphaEvolve相結(jié)合,特別是在生成初始代碼片段以及對(duì)AlphaEvolve所用LLM進(jìn)行更有效的問(wèn)題定制化提示方面。我們將這些問(wèn)題的探索留待未來(lái)研究方向。

原文鏈接:https://arxiv.org/pdf/2509.18057v6

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

輝哥說(shuō)動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說(shuō)事
2026-03-27 00:33:44
廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛(ài)雜談
2026-02-21 21:37:02
你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺(jué)攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
時(shí)尚
親子
藝術(shù)
本地

家居要聞

傍海而居 靜觀蝴蝶海

張雪峰曾經(jīng)“5次談猝死”

親子要聞

在那聲嘆息里,產(chǎn)后媽媽終于找回了弄丟的自己

藝術(shù)要聞

江青的書(shū)法秘訣!只練草書(shū)真的能提升書(shū)法水平嗎?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版