網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

規(guī)?；瘮?shù)學(xué)探索與發(fā)現(xiàn)

2026-02-14 00:07:09　來源: CreateAMind

上海舉報(bào)

分享至

MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE

規(guī)?；瘮?shù)學(xué)探索與發(fā)現(xiàn)

https://arxiv.org/pdf/2511.02864

摘要

AlphaEvolve（見[224]）是一種通用進(jìn)化式編碼智能體，它將大語言模型的生成能力與自動(dòng)化評(píng)估相結(jié)合，構(gòu)成迭代式進(jìn)化框架，可針對(duì)具有挑戰(zhàn)性的科學(xué)與實(shí)際問題提出、測(cè)試并精煉算法解。本文將 AlphaEvolve 展示為一種自主發(fā)現(xiàn)新穎數(shù)學(xué)構(gòu)造并推進(jìn)對(duì)長期開放問題理解的工具。

為展現(xiàn)其廣度，我們考察了涵蓋數(shù)學(xué)分析、組合數(shù)學(xué)、幾何學(xué)與數(shù)論的 67 個(gè)問題。該系統(tǒng)在多數(shù)情形下重新發(fā)現(xiàn)了已知最優(yōu)解，并在若干問題上找到了改進(jìn)解。某些情況下，AlphaEvolve 還能將有限輸入值的結(jié)果推廣為適用于所有輸入值的通用公式。此外，我們能夠?qū)⒃摲椒ㄅc Deep Think [149] 和 AlphaProof [148] 相結(jié)合，構(gòu)建更廣泛的框架：其中額外的證明輔助與推理系統(tǒng)可提供自動(dòng)化證明生成及更深入的數(shù)學(xué)洞見。

這些結(jié)果表明，大語言模型引導(dǎo)的進(jìn)化搜索能夠自主發(fā)現(xiàn)與人類直覺互補(bǔ)的數(shù)學(xué)構(gòu)造，有時(shí)可匹配甚至超越已知最優(yōu)結(jié)果，凸顯了數(shù)學(xué)家與人工智能系統(tǒng)之間產(chǎn)生全新交互方式的潛力。我們將 AlphaEvolve 呈現(xiàn)為一種強(qiáng)大的數(shù)學(xué)發(fā)現(xiàn)工具，能夠探索廣闊搜索空間以規(guī)?；蠼鈴?fù)雜優(yōu)化問題，且通常顯著降低了對(duì)前期準(zhǔn)備與計(jì)算時(shí)間的要求。

引言

數(shù)學(xué)發(fā)現(xiàn)的格局已被能夠自主探索數(shù)學(xué)空間并生成新穎構(gòu)造的計(jì)算工具從根本上改變 [56, 120, 242, 291]。AlphaEvolve（見 [224]）代表了這一演進(jìn)中的重要一步，它表明：當(dāng)大語言模型與進(jìn)化計(jì)算及嚴(yán)格的自動(dòng)化評(píng)估相結(jié)合時(shí)，能夠大規(guī)模地發(fā)現(xiàn)顯式數(shù)學(xué)構(gòu)造，其性能可匹配甚至超越長期存在的數(shù)學(xué)問題的已知最優(yōu)界。

AlphaEvolve 并非適用于所有類型數(shù)學(xué)問題的通用求解器；其主要設(shè)計(jì)目標(biāo)是攻克那些關(guān)鍵目標(biāo)在于構(gòu)造滿足優(yōu)良定量性質(zhì)（例如以較好數(shù)值常數(shù)滿足特定不等式）的復(fù)雜數(shù)學(xué)對(duì)象的問題。在本后續(xù)論文中，我們報(bào)告了在廣泛此類問題上測(cè)試 AlphaEvolve 性能的實(shí)驗(yàn)結(jié)果，主要集中于分析學(xué)、組合數(shù)學(xué)與幾何學(xué)領(lǐng)域。在許多情形下，AlphaEvolve 提供的構(gòu)造不僅具有數(shù)值性質(zhì)，還可由人類數(shù)學(xué)家、Deep Think 等其他工具、甚至 AlphaEvolve 自身進(jìn)行解釋與推廣。AlphaEvolve 并未能在所有情形下匹配或超越先前結(jié)果，且其部分單項(xiàng)改進(jìn)很可能亦可通過人類專家采用更傳統(tǒng)的計(jì)算或理論方法實(shí)現(xiàn)。然而，與這些方法不同，我們發(fā)現(xiàn) AlphaEvolve 可輕松擴(kuò)展以同時(shí)研究大批量問題類別，且無需針對(duì)每個(gè)新問題進(jìn)行大量專家監(jiān)督。這表明進(jìn)化計(jì)算方法能夠以互補(bǔ)于傳統(tǒng)技術(shù)的方式系統(tǒng)探索數(shù)學(xué)對(duì)象空間，從而有助于回答關(guān)于計(jì)算搜索與數(shù)學(xué)存在性證明之間關(guān)系的問題。

我們還觀察到，在許多情形下，除可擴(kuò)展性外，為使 AlphaEvolve 輸出與文獻(xiàn)相當(dāng)?shù)慕Y(jié)果，相較于傳統(tǒng)數(shù)學(xué)研究方式，所需額外開銷極小：平均而言，使用 AlphaEvolve 設(shè)置一個(gè)問題的常規(guī)準(zhǔn)備時(shí)間僅需數(shù)小時(shí)。我們預(yù)計(jì)，在缺乏先驗(yàn)知識(shí)、信息或代碼的情況下，等效的傳統(tǒng)設(shè)置通常將耗費(fèi)顯著更長時(shí)間。這促使我們提出“規(guī)?；瘶?gòu)造性數(shù)學(xué)”（constructive mathematics at scale）這一術(shù)語。

AlphaEvolve 有效性的關(guān)鍵數(shù)學(xué)洞見在于其能夠同時(shí)在多個(gè)抽象層次上運(yùn)作。該系統(tǒng)不僅能優(yōu)化數(shù)學(xué)構(gòu)造的具體參數(shù)，還能優(yōu)化發(fā)現(xiàn)此類構(gòu)造的算法策略。這種元層次進(jìn)化代表了一種新型遞歸形式，其中優(yōu)化過程本身成為優(yōu)化對(duì)象。例如，AlphaEvolve 可能演化出使用啟發(fā)式集合、SAT 求解器、無收斂保證的二階方法或其組合的程序。這種分層方法在 AlphaEvolve 處理復(fù)雜數(shù)學(xué)問題（由用戶提出）時(shí)尤為明顯：系統(tǒng)常為優(yōu)化過程的不同階段發(fā)現(xiàn)專用搜索啟發(fā)式。早期啟發(fā)式擅長從隨機(jī)或簡(jiǎn)單初始狀態(tài)實(shí)現(xiàn)大幅改進(jìn)，而后期啟發(fā)式則聚焦于近優(yōu)構(gòu)型的精細(xì)調(diào)優(yōu)。這種涌現(xiàn)的專門化映射了人類數(shù)學(xué)家所采用的直觀方法。

1.1 與 [224] 的比較。白皮書 [224] 首次介紹了 AlphaEvolve 并強(qiáng)調(diào)了其廣泛的通用適用性（包括數(shù)學(xué)領(lǐng)域）及部分結(jié)果細(xì)節(jié)。在本后續(xù)論文中，我們從廣度、難度與重要性角度擴(kuò)展了所考察數(shù)學(xué)問題的列表，并首次給出全部問題的完整細(xì)節(jié)。以下問題未按特定順序排列。出于篇幅限制，我們不試圖詳盡梳理所列各問題的歷史，而將讀者引向各問題所提供的參考文獻(xiàn)以深入探討已知結(jié)果。

隨本文一同發(fā)布的還有一個(gè)包含部分實(shí)驗(yàn)與問題擴(kuò)展細(xì)節(jié)的在線問題倉庫。盡管進(jìn)化過程中的隨機(jī)性可能使復(fù)現(xiàn)更具挑戰(zhàn)，我們預(yù)期憑借所給信息與足夠?qū)嶒?yàn)次數(shù)，結(jié)果可完全復(fù)現(xiàn)。

1.2 人工智能與數(shù)學(xué)發(fā)現(xiàn)。人工智能作為數(shù)學(xué)發(fā)現(xiàn)中的變革性力量的興起，標(biāo)志著我們應(yīng)對(duì)某些最具挑戰(zhàn)性數(shù)學(xué)問題方式的范式轉(zhuǎn)變。近期突破 [87, 165, 97, 77, 296, 6, 271, 295] 已證明人工智能輔助數(shù)學(xué)家的能力。AlphaGeometry 在標(biāo)準(zhǔn)時(shí)限內(nèi)解決了 30 道奧林匹克幾何題中的 25 道 [287]。AlphaProof 與 AlphaGeometry 2 [148] 在 2024 年國際數(shù)學(xué)奧林匹克競(jìng)賽中取得銀牌成績，隨后先進(jìn)的 Gemini Deep Think 框架在 2025 年國際數(shù)學(xué)奧林匹克競(jìng)賽中斬獲金牌 [149]。OpenAI 的模型亦取得金牌成績，參見 [297]。超越競(jìng)賽表現(xiàn)，人工智能已開始做出真正的數(shù)學(xué)發(fā)現(xiàn)，例如 FunSearch [242] 發(fā)現(xiàn)了關(guān)于帽子集（cap set）問題的新解及更高效的裝箱算法（另見 [100]）；PatternBoost [56] 推翻了一個(gè)長達(dá) 30 年的猜想（另見 [291]）；以及早期先驅(qū)如 Graffiti [119] 生成猜想。人工智能協(xié)助數(shù)學(xué)家的其他實(shí)例還包括 [70, 283, 302, 301]，涉及尋找數(shù)學(xué)命題的形式化與非形式化證明。

盡管 AlphaEvolve 更側(cè)重于探索與發(fā)現(xiàn)，我們已能將其與其他系統(tǒng)進(jìn)行流水線式集成，從而不僅實(shí)現(xiàn)探索，還能將發(fā)現(xiàn)結(jié)果與數(shù)學(xué)上嚴(yán)格的證明及其形式化相結(jié)合。

1.3 進(jìn)化算法以尋找構(gòu)造。AlphaEvolve 的核心是一種復(fù)雜的搜索算法。為理解其設(shè)計(jì)，從一個(gè)熟悉的概念入手會(huì)有所幫助：局部搜索。為求解諸如“尋找一個(gè)含 50 個(gè)頂點(diǎn)、不含三角形與四元環(huán)且邊數(shù)最多的圖”之類的問題，標(biāo)準(zhǔn)做法是從一個(gè)隨機(jī)圖出發(fā)，迭代地進(jìn)行小幅修改（例如添加或刪除一條邊），以提升其得分（本例中為邊數(shù)，但對(duì)任何三角形或四元環(huán)施加懲罰）。我們持續(xù)“爬山”直至無法進(jìn)一步改進(jìn)。

從 FunSearch [242]（見表 1 的直接對(duì)比）及其重新實(shí)現(xiàn) [100] 繼承的第一個(gè)關(guān)鍵思想是：不在圖的空間中執(zhí)行此類局部搜索，而是在生成圖的 Python 程序空間中進(jìn)行。我們從一個(gè)簡(jiǎn)單程序出發(fā)，然后利用大語言模型（LLM）生成大量相似但略有差異的程序（“變異”）。通過運(yùn)行每個(gè)程序并評(píng)估其生成的圖來對(duì)其進(jìn)行評(píng)分。人們自然會(huì)疑惑這種方法為何有益：一次 LLM 調(diào)用通常遠(yuǎn)比添加一條邊或評(píng)估一個(gè)圖昂貴得多，因此我們探索的候選解數(shù)量往往比標(biāo)準(zhǔn)局部搜索方法少數(shù)千甚至數(shù)百萬倍。

許多“優(yōu)美”的數(shù)學(xué)對(duì)象（如前述問題的最優(yōu)解 Hoffman-Singleton 圖 [142]）可用簡(jiǎn)短、優(yōu)雅的代碼進(jìn)行描述。此外，即使某個(gè)問題僅存在一個(gè)最優(yōu)構(gòu)造，也可能有多種不同而自然的程序生成它。相反，無數(shù)作為局部最優(yōu)解的“丑陋”圖可能并不對(duì)應(yīng)任何簡(jiǎn)單程序。在程序空間中搜索可作為一種強(qiáng)大的簡(jiǎn)潔性與結(jié)構(gòu)性先驗(yàn)，幫助我們避開混亂的局部極大值，導(dǎo)向優(yōu)雅且往往最優(yōu)的解。即使最優(yōu)解本身無法通過簡(jiǎn)單程序描述，而最佳發(fā)現(xiàn)途徑是啟發(fā)式方法，我們發(fā)現(xiàn) AlphaEvolve 在此類任務(wù)上同樣表現(xiàn)出色。

然而，對(duì)于評(píng)分函數(shù)計(jì)算成本低廉的問題，傳統(tǒng)方法純粹的暴力計(jì)算優(yōu)勢(shì)仍難以克服。我們對(duì)此提出的解決方案如下：AlphaEvolve 不再進(jìn)化直接生成構(gòu)造的程序，而是進(jìn)化用于搜索構(gòu)造的程序。這便是我們所稱的 AlphaEvolve“搜索模式”（search mode），也是我們?cè)谒幸詫ふ覂?yōu)良構(gòu)造為目標(biāo)、且不關(guān)注其可解釋性與可推廣性的問題上采用的標(biāo)準(zhǔn)模式。

AlphaEvolve 種群中的每個(gè)程序均為一種搜索啟發(fā)式。它被賦予固定時(shí)間預(yù)算（例如 100 秒），任務(wù)是在該時(shí)限內(nèi)找到盡可能優(yōu)良的構(gòu)造。該啟發(fā)式的評(píng)分即為其找到的最佳對(duì)象的評(píng)分。這解決了速度差異問題：一次緩慢的 LLM 調(diào)用生成新搜索啟發(fā)式后，可觸發(fā)大規(guī)模廉價(jià)計(jì)算——該啟發(fā)式可自主探索數(shù)百萬候選構(gòu)造。

我們強(qiáng)調(diào)，搜索無需每次都從零開始。新啟發(fā)式將根據(jù)其改進(jìn)迄今最佳構(gòu)造的能力進(jìn)行評(píng)估。因此，我們實(shí)際進(jìn)化的是一個(gè)“改進(jìn)器”（improver）函數(shù)種群。這形成了動(dòng)態(tài)自適應(yīng)的搜索過程：初期可能偏好執(zhí)行廣泛探索性搜索的啟發(fā)式；隨著逼近優(yōu)良解，執(zhí)行巧妙問題特定精調(diào)的啟發(fā)式可能占據(jù)主導(dǎo)。最終結(jié)果通常是一系列專用啟發(fā)式的序列，當(dāng)串聯(lián)使用時(shí)可產(chǎn)生前沿構(gòu)造。其代價(jià)可能是搜索過程可解釋性的潛在損失，但其所發(fā)現(xiàn)的最終對(duì)象仍是我們可研究的明確定義的數(shù)學(xué)實(shí)體。

這一補(bǔ)充機(jī)制對(duì)更困難的問題尤為有用——單一搜索函數(shù)可能無法獨(dú)立發(fā)現(xiàn)優(yōu)良解。

1.4 從示例泛化到公式：泛化模式。除在固定問題規(guī)模（例如 n = 11 的堆積問題）上表現(xiàn)優(yōu)異的上述搜索模式外，我們還嘗試了更具雄心的“泛化模式”（generalizer mode）。在此模式下，我們要求 AlphaEvolve 編寫一個(gè)可對(duì)任意給定 n n 求解該問題的程序，并根據(jù)其在一系列 n n 值上的表現(xiàn)進(jìn)行評(píng)估。期望是：通過觀察自身為小規(guī)模 n n生成的（往往是最優(yōu)的）解，AlphaEvolve 能夠識(shí)別模式并將其泛化為適用于所有 n n 的構(gòu)造。

該模式更具挑戰(zhàn)性，但也產(chǎn)出了我們最激動(dòng)人心的部分成果。例如，AlphaEvolve 為 Nikodym 問題（見問題 6.1）提出的構(gòu)造啟發(fā)了第三作者撰寫的新論文 [281]。另一方面，使用搜索模式時(shí)，進(jìn)化出的程序往往難以解釋；但最終構(gòu)造本身仍可被分析——在算術(shù) Kakeya 問題（問題 6.30）中，這些構(gòu)造亦啟發(fā)了第三作者的另一篇論文 [282]。

1.5 構(gòu)建多AI工具流水線。更引人注目的是，針對(duì)有限域 Kakeya 問題（參見問題 6.1），AlphaEvolve 發(fā)現(xiàn)了一個(gè)有趣的通用構(gòu)造。當(dāng)我們將該程序化解輸入名為 Deep Think [149] 的智能體時(shí)，它成功推導(dǎo)出其正確性證明及規(guī)模的閉式公式。隨后，該證明借助另一AI工具 AlphaProof [148] 在 Lean 證明輔助系統(tǒng)中完成了完全形式化。這一工作流——結(jié)合模式發(fā)現(xiàn)（AlphaEvolve）、符號(hào)化證明生成（Deep Think）與形式驗(yàn)證（AlphaProof）——為專用AI系統(tǒng)如何集成提供了具體范例。它預(yù)示了一種潛在的未來方法論：多種AI工具的組合可協(xié)助實(shí)現(xiàn)從經(jīng)驗(yàn)觀察到的模式（由模型提出）到形式化驗(yàn)證數(shù)學(xué)結(jié)果的全過程，全程自動(dòng)化或半自動(dòng)化。

1.6 局限性。我們亦需指出，盡管 AlphaEvolve 擅長處理可清晰表述為光滑評(píng)分函數(shù)優(yōu)化、且適合“爬山法”的問題，但在其他情形下有時(shí)會(huì)陷入困境。特別是，我們遇到若干實(shí)例中 AlphaEvolve 未能達(dá)到最優(yōu)或接近最優(yōu)結(jié)果，下文將一并報(bào)告這些案例?？傮w而言，我們發(fā)現(xiàn) AlphaEvolve 在大規(guī)模應(yīng)用于廣泛松散關(guān)聯(lián)的問題組合時(shí)最為有效，例如各類堆積問題，或 Sendov 猜想及其變體。

第 6 節(jié)將詳述通過該方法發(fā)現(xiàn)的新數(shù)學(xué)結(jié)果，以及所有 AlphaEvolve 未能找到先前已知最優(yōu)構(gòu)造的案例。我們希望本工作不僅能為這些具體問題提供新見解，亦能激勵(lì)其他科學(xué)家探索如何將此類工具適配于各自研究領(lǐng)域。

AlphaEvolve 概述與使用方法

如 [224] 所介紹，AlphaEvolve 建立了一個(gè)將大語言模型創(chuàng)造力與自動(dòng)化評(píng)估器相結(jié)合的框架。其中部分描述與用法已在該文獻(xiàn)中呈現(xiàn)，為保證本文自洽性，我們?cè)诖擞枰杂懻?。AlphaEvolve 的核心是一個(gè)進(jìn)化系統(tǒng)，該系統(tǒng)維護(hù)一個(gè)程序種群，每個(gè)程序編碼了給定問題的潛在解。該種群通過模擬自然選擇的迭代循環(huán)持續(xù)改進(jìn)。

進(jìn)化過程包含兩個(gè)主要組件：

(1) 生成器（LLM）：該組件負(fù)責(zé)引入變異。它選取當(dāng)前種群中表現(xiàn)較優(yōu)的部分程序并對(duì)其進(jìn)行“變異”，以生成新的候選解。該過程可在多個(gè) CPU 上并行化。借助大語言模型，這些變異并非隨機(jī)的字符翻轉(zhuǎn)，而是基于父代程序邏輯與人類用戶提供的專家建議、具有語法意識(shí)的智能代碼修改。

(2) 評(píng)估器（通常由用戶提供）：此即“適應(yīng)度函數(shù)”。它是一段確定性代碼，接收種群中的一個(gè)程序，運(yùn)行該程序，并根據(jù)其表現(xiàn)賦予數(shù)值評(píng)分。對(duì)于數(shù)學(xué)構(gòu)造問題，該評(píng)分可反映構(gòu)造滿足特定性質(zhì)的程度（例如圖的邊數(shù)，或堆積的密度）。

過程始于若干簡(jiǎn)單初始程序。每一代中，部分高分程序被選中并輸入大語言模型，以生成潛在更優(yōu)的后代。這些后代隨后被評(píng)估、打分，其中得分較高者將構(gòu)成未來程序的基礎(chǔ)。這種生成與選擇的循環(huán)使種群隨時(shí)間“進(jìn)化”，趨向于產(chǎn)生質(zhì)量日益提升的解的程序。需注意，由于每個(gè)評(píng)估器具有固定時(shí)間預(yù)算，評(píng)估器消耗的總 CPU 小時(shí)數(shù)與實(shí)驗(yàn)中大語言模型調(diào)用總次數(shù)成正比。關(guān)于更多細(xì)節(jié)及數(shù)學(xué)問題之外的應(yīng)用，讀者可參閱 [224]。Nagda 等人 [221] 應(yīng)用 AlphaEvolve 為度量旅行商問題與 MAX-k-CUT 等問題建立了新的近似難度結(jié)果。AlphaEvolve 發(fā)布后，其他利用大語言模型進(jìn)行科學(xué)發(fā)現(xiàn)的開源框架實(shí)現(xiàn)亦相繼開發(fā)，例如 OpenEvolve [257]、ShinkaEvolve [190] 與 DeepEvolve [202]。

應(yīng)用于數(shù)學(xué)領(lǐng)域時(shí)，該框架在尋找具有極值性質(zhì)的構(gòu)造方面尤為強(qiáng)大。如引言所述，我們主要采用其搜索模式：被進(jìn)化的程序并非直接構(gòu)造，其本身即是啟發(fā)式搜索算法。評(píng)估器為這些進(jìn)化出的啟發(fā)式賦予固定時(shí)間預(yù)算，并根據(jù)其在該時(shí)限內(nèi)能找到的最佳構(gòu)造質(zhì)量進(jìn)行評(píng)分。該方法將大語言模型昂貴而富有創(chuàng)造力的能力導(dǎo)向高效搜索策略的設(shè)計(jì)，這些策略隨后可被廉價(jià)且大規(guī)模地執(zhí)行。這使 AlphaEvolve 能夠有效導(dǎo)航廣闊而復(fù)雜的數(shù)學(xué)景觀，發(fā)現(xiàn)本文詳述的各類新穎構(gòu)造。

元分析與消融研究

為更深入理解 AlphaEvolve 的行為特性與敏感性，我們開展了一系列元分析與消融研究。這些實(shí)驗(yàn)旨在回答該方法的若干實(shí)踐性問題：計(jì)算資源如何影響搜索效果？底層大語言模型扮演何種角色？典型成本為何？為保持一致性，許多實(shí)驗(yàn)以自相關(guān)不等式問題（問題 6.2）作為測(cè)試平臺(tái)，因其提供了一個(gè)簡(jiǎn)潔且評(píng)估迅速的目標(biāo)函數(shù)。

3.1 發(fā)現(xiàn)速度與評(píng)估成本的權(quán)衡。任何 AlphaEvolve 運(yùn)行中的關(guān)鍵參數(shù)是所用并行計(jì)算量（例如 CPU 線程數(shù)）。直觀而言，并行度越高，發(fā)現(xiàn)速度應(yīng)越快。我們通過以不同線程數(shù)（從 2 到 20）運(yùn)行問題 6.2 對(duì)此進(jìn)行探究。

我們的發(fā)現(xiàn)（見圖 1）雖存在一定噪聲，但似乎符合這一預(yù)期權(quán)衡。增加并行線程數(shù)顯著加快了發(fā)現(xiàn)時(shí)間：使用 20 個(gè)線程的運(yùn)行始終比 2 個(gè)線程更快地超越前沿界。然而，這種速度提升伴隨著更高的總成本。由于每個(gè)線程半獨(dú)立運(yùn)行并各自調(diào)用大語言模型生成新啟發(fā)式，線程數(shù)翻倍大致使大語言模型查詢速率翻倍。盡管線程間相互通信并基于彼此的最佳構(gòu)造進(jìn)行改進(jìn)，但更快達(dá)成結(jié)果需要更大總量的大語言模型調(diào)用。最優(yōu)策略取決于研究者優(yōu)先級(jí)：若追求快速探索，高并行度效果顯著；若旨在最小化直接成本，則較少線程長時(shí)間運(yùn)行更為經(jīng)濟(jì)。

3.2 模型選擇的作用：大型模型與廉價(jià)模型。AlphaEvolve 的性能從根本上依賴于用于生成代碼變異的大語言模型。我們對(duì)比了高性能大語言模型與規(guī)模小得多、成本低廉的模型（輸入 token 價(jià)格相差約 15 倍，輸出 token 約 30 倍）的有效性。

我們觀察到，能力更強(qiáng)的大語言模型傾向于產(chǎn)生更高質(zhì)量的建議（見圖 2），常以更少進(jìn)化步數(shù)達(dá)成更優(yōu)評(píng)分。然而，最有效策略并非總是獨(dú)占使用最強(qiáng)模型。對(duì)于這一簡(jiǎn)單的自相關(guān)問題，最具成本效益的超越文獻(xiàn)界策略是在多次運(yùn)行中使用最廉價(jià)模型，其總大語言模型成本極低：僅數(shù)美元。但對(duì)于更困難的 Nikodym 集問題（見問題 6.1），廉價(jià)模型無法生成最精巧的構(gòu)造。

我們還觀察到，僅使用高端模型的實(shí)驗(yàn)有時(shí)表現(xiàn)不如偶爾混用廉價(jià)模型的運(yùn)行。一種解釋是：不同模型可能提出截然不同的方法；盡管較差模型通常建議質(zhì)量較低，但它確實(shí)增加了多樣性。這表明在進(jìn)化過程中注入一定程度的隨機(jī)性或“樸素創(chuàng)造力”可能存在潛在收益。我們推測(cè)，對(duì)于需要更深刻數(shù)學(xué)洞見的問題，更智能大語言模型的價(jià)值將更為凸顯；但對(duì)于許多優(yōu)化景觀，來自廉價(jià)模型的多樣性是一種強(qiáng)大且經(jīng)濟(jì)的工具。

結(jié)論

我們對(duì) AlphaEvolve 的探索得出了若干關(guān)鍵洞見，總結(jié)如下。我們發(fā)現(xiàn)，驗(yàn)證器（verifier）的選擇是顯著影響系統(tǒng)性能與發(fā)現(xiàn)結(jié)果質(zhì)量的關(guān)鍵組件。例如，優(yōu)化器有時(shí)會(huì)傾向于更穩(wěn)定（平凡）的解，而這正是我們希望避免的。設(shè)計(jì)巧妙的驗(yàn)證器以規(guī)避此類行為，是發(fā)現(xiàn)新結(jié)果的關(guān)鍵。

類似地，在某些情形下，采用連續(xù)型（而非離散型）損失函數(shù)被證明是引導(dǎo)進(jìn)化搜索過程更有效的策略。例如，對(duì)于問題 6.54，我們本可將評(píng)分函數(shù)設(shè)計(jì)為任意給定構(gòu)型中相接觸圓柱的數(shù)量（若構(gòu)型非法則為 ? ∞ ?∞）；但通過采用依賴于距離的連續(xù)評(píng)分函數(shù)，我們實(shí)現(xiàn)了更成功且更快速的優(yōu)化過程。

實(shí)驗(yàn)過程中，我們還觀察到一種“作弊現(xiàn)象”：系統(tǒng)會(huì)發(fā)現(xiàn)漏洞或利用問題設(shè)置中的瑕疵（例如通過離散版本近似全局約束如正性時(shí)產(chǎn)生的泄漏型驗(yàn)證器、對(duì)廉價(jià)模型的不可靠大語言模型查詢等），而非尋找真正解。這凸顯了精心設(shè)計(jì)魯棒評(píng)估環(huán)境的必要性。

另一重要組件是提示中給予的建議及提示者的經(jīng)驗(yàn)。我們發(fā)現(xiàn)，隨著使用次數(shù)增加，我們?cè)絹碓缴朴谡莆杖绾蜗?AlphaEvolve 提供有效提示。例如，采用搜索模式提示相較于直接尋找構(gòu)造，前者產(chǎn)生了更高效的程序與更優(yōu)結(jié)果。此外，當(dāng)使用者是所嘗試問題的領(lǐng)域?qū)＜視r(shí)，AlphaEvolve 的表現(xiàn)始終顯著優(yōu)于非專家使用者：我們發(fā)現(xiàn)，提示中給予 AlphaEvolve 的建議對(duì)最終構(gòu)造質(zhì)量具有顯著影響。在提示中提供富有洞見的專家建議幾乎總能帶來顯著更優(yōu)的結(jié)果——事實(shí)上，AlphaEvolve 總是試圖在保留原始建議精髓的前提下，最大限度地榨取該建議的價(jià)值。我們強(qiáng)調(diào)，總體而言，最佳結(jié)果往往源于人類專業(yè)知識(shí)與 AlphaEvolve 計(jì)算能力的結(jié)合。

一個(gè)促進(jìn)發(fā)現(xiàn)廣泛適用算法的有趣發(fā)現(xiàn)是：當(dāng)系統(tǒng)被提供更受約束的輸入集或特征集時(shí)，泛化能力反而提升?！皵?shù)據(jù)量大”并不必然意味著泛化性能更優(yōu)。當(dāng)我們尋求能跨廣泛參數(shù)范圍泛化的可解釋程序時(shí)，我們通過僅向 AlphaEvolve 展示小規(guī)模 n n 值下的先前最優(yōu)解來限制其可訪問數(shù)據(jù)量（參見問題 6.29、6.65、6.1）。這種“少即是多”的方法似乎有助于更基礎(chǔ)性思想的涌現(xiàn)。

展望未來，提升系統(tǒng)自主性的重要一步將是使 AlphaEvolve 能夠自主選擇超參數(shù)，動(dòng)態(tài)調(diào)整其搜索策略。

當(dāng)系統(tǒng)在同一實(shí)驗(yàn)中針對(duì)相關(guān)問題或問題實(shí)例族進(jìn)行訓(xùn)練時(shí)，結(jié)果亦顯著改善。例如，在探索幾何問題時(shí)，同時(shí)處理不同點(diǎn)數(shù) n n 與維度 d d 的構(gòu)型極為有效。對(duì)特定 ( n , d ) 對(duì)表現(xiàn)良好的搜索啟發(fā)式，很可能為其他情形提供堅(jiān)實(shí)基礎(chǔ)，引導(dǎo)系統(tǒng)趨向更具普適性的原理。

我們發(fā)現(xiàn)，AlphaEvolve 擅長發(fā)現(xiàn)那些本已處于當(dāng)前數(shù)學(xué)能力范圍內(nèi)、但因?qū)ふ疫m用于特定問題的標(biāo)準(zhǔn)思想恰當(dāng)組合所需時(shí)間與精力過大而尚未被發(fā)現(xiàn)的構(gòu)造。另一方面，對(duì)于需要真正新穎、深刻洞見才能取得進(jìn)展的問題，AlphaEvolve 可能并非合適工具。

未來，我們?cè)O(shè)想類似 AlphaEvolve 的工具可用于系統(tǒng)評(píng)估大批量數(shù)學(xué)界或猜想的難度。這可能導(dǎo)致一種新型分類方法，使研究者能夠半自動(dòng)地標(biāo)記某些不等式為"AlphaEvolve-難解"，表明其對(duì)基于 AlphaEvolve 方法的抵抗性；反之，其他問題則可被標(biāo)記為適合通過理論與計(jì)算機(jī)輔助技術(shù)進(jìn)一步攻關(guān)，從而更有效地引導(dǎo)未來研究方向。

未來工作

AlphaEvolve 中的數(shù)學(xué)進(jìn)展代表了邁向自動(dòng)化數(shù)學(xué)發(fā)現(xiàn)的重要一步，盡管仍有許多廣闊的研究方向有待探索。鑒于人機(jī)交互的特性，我們?cè)O(shè)想未來可進(jìn)一步將計(jì)算機(jī)輔助證明整合至 AlphaEvolve 的輸出中，從而實(shí)現(xiàn) AlphaEvolve 首先發(fā)現(xiàn)候選解，繼而自動(dòng)生成例如 Lean 代碼形式的計(jì)算機(jī)輔助證明以驗(yàn)證該解，全程自動(dòng)化。本工作中，我們已通過一個(gè)從發(fā)現(xiàn)到形式化的完整流水線示例證明，此類情形在罕見情況下已然可行；該流水線結(jié)合人類專業(yè)知識(shí)后產(chǎn)生了更深入的洞見與更強(qiáng)的結(jié)果。本文僅代表這一尚在進(jìn)行中的長期目標(biāo)的第一步，我們期望在此方向上進(jìn)一步探索。本文所劃定的邊界純粹受限于人類時(shí)間與論文篇幅，而非我們的計(jì)算能力。具體而言，對(duì)于部分問題，我們相信（正在進(jìn)行及未來的）進(jìn)一步探索可能帶來更豐富、更優(yōu)的結(jié)果。

AlphaEvolve 測(cè)試的數(shù)學(xué)問題

在我們的實(shí)驗(yàn)中，我們從數(shù)學(xué)文獻(xiàn)中選取了 67 個(gè)問題（包括已解決與未解決的），其中大多數(shù)可重新表述為對(duì)某個(gè)數(shù)值量（可能依賴于一個(gè)或多個(gè)參數(shù)，少數(shù)情況下為多維而非標(biāo)量值）獲取上界和/或下界。這些數(shù)值量中的許多可表達(dá)為某個(gè)評(píng)分函數(shù)在某集合（可能是有限集、有限維或無限維）上的上確界或下確界。

盡管上下界均具研究價(jià)值，但在許多情形下僅其中一類界適合采用 AlphaEvolve 方法處理，因其本質(zhì)是用于發(fā)現(xiàn)有趣數(shù)學(xué)構(gòu)造的工具——即嘗試優(yōu)化評(píng)分函數(shù)的實(shí)例，而非證明對(duì)所有可能實(shí)例均成立的界。當(dāng)評(píng)分函數(shù)的定義域?yàn)闊o限維（例如函數(shù)空間）時(shí)，在應(yīng)用 AlphaEvolve 前需額外施加限制或投影至有限維空間（例如通過離散化或正則化）。

在許多情形下，AlphaEvolve 能夠匹配（或近乎匹配）現(xiàn)有界（其中部分已知或被猜想為緊界），且常能提供極值構(gòu)造的可解釋性描述；在若干情形下甚至超越了前沿結(jié)果。在其他情形下，AlphaEvolve 甚至未能達(dá)到文獻(xiàn)中的已知界，但我們?nèi)灾铝τ谠诖擞涗泴?shí)驗(yàn)的正反兩方面結(jié)果，以更準(zhǔn)確地呈現(xiàn) AlphaEvolve 作為工具的優(yōu)勢(shì)與局限。我們的目標(biāo)是分享所有嘗試過的問題結(jié)果——包括僅短暫嘗試的問題——以誠實(shí)地呈現(xiàn)哪些方法有效、哪些無效。

在 AlphaEvolve 超越前沿結(jié)果的情形中，很可能通過進(jìn)一步工作——例如采用提示與設(shè)置更優(yōu)的 AlphaEvolve 版本、由理論考量或傳統(tǒng)數(shù)值方法引導(dǎo)的定制化方法，或二者的混合策略——可帶來進(jìn)一步改進(jìn)；這在 [224] 中先前公布的若干 AlphaEvolve 結(jié)果中已然發(fā)生。我們希望此處報(bào)告的結(jié)果能通過多種方法激發(fā)這些問題的進(jìn)一步進(jìn)展。

原文鏈接：https://arxiv.org/pdf/2511.02864

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.