国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

規(guī)?;瘮?shù)學(xué)探索與發(fā)現(xiàn)

0
分享至

MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE

規(guī)?;瘮?shù)學(xué)探索與發(fā)現(xiàn)

https://arxiv.org/pdf/2511.02864



摘要

AlphaEvolve(見[224])是一種通用進(jìn)化式編碼智能體,它將大語言模型的生成能力與自動(dòng)化評(píng)估相結(jié)合,構(gòu)成迭代式進(jìn)化框架,可針對(duì)具有挑戰(zhàn)性的科學(xué)與實(shí)際問題提出、測(cè)試并精煉算法解。本文將 AlphaEvolve 展示為一種自主發(fā)現(xiàn)新穎數(shù)學(xué)構(gòu)造并推進(jìn)對(duì)長期開放問題理解的工具。

為展現(xiàn)其廣度,我們考察了涵蓋數(shù)學(xué)分析、組合數(shù)學(xué)、幾何學(xué)與數(shù)論的 67 個(gè)問題。該系統(tǒng)在多數(shù)情形下重新發(fā)現(xiàn)了已知最優(yōu)解,并在若干問題上找到了改進(jìn)解。某些情況下,AlphaEvolve 還能將有限輸入值的結(jié)果推廣為適用于所有輸入值的通用公式。此外,我們能夠?qū)⒃摲椒ㄅc Deep Think [149] 和 AlphaProof [148] 相結(jié)合,構(gòu)建更廣泛的框架:其中額外的證明輔助與推理系統(tǒng)可提供自動(dòng)化證明生成及更深入的數(shù)學(xué)洞見。

這些結(jié)果表明,大語言模型引導(dǎo)的進(jìn)化搜索能夠自主發(fā)現(xiàn)與人類直覺互補(bǔ)的數(shù)學(xué)構(gòu)造,有時(shí)可匹配甚至超越已知最優(yōu)結(jié)果,凸顯了數(shù)學(xué)家與人工智能系統(tǒng)之間產(chǎn)生全新交互方式的潛力。我們將 AlphaEvolve 呈現(xiàn)為一種強(qiáng)大的數(shù)學(xué)發(fā)現(xiàn)工具,能夠探索廣闊搜索空間以規(guī)?;蠼鈴?fù)雜優(yōu)化問題,且通常顯著降低了對(duì)前期準(zhǔn)備與計(jì)算時(shí)間的要求。

  1. 引言

數(shù)學(xué)發(fā)現(xiàn)的格局已被能夠自主探索數(shù)學(xué)空間并生成新穎構(gòu)造的計(jì)算工具從根本上改變 [56, 120, 242, 291]。AlphaEvolve(見 [224])代表了這一演進(jìn)中的重要一步,它表明:當(dāng)大語言模型與進(jìn)化計(jì)算及嚴(yán)格的自動(dòng)化評(píng)估相結(jié)合時(shí),能夠大規(guī)模地發(fā)現(xiàn)顯式數(shù)學(xué)構(gòu)造,其性能可匹配甚至超越長期存在的數(shù)學(xué)問題的已知最優(yōu)界。

AlphaEvolve 并非適用于所有類型數(shù)學(xué)問題的通用求解器;其主要設(shè)計(jì)目標(biāo)是攻克那些關(guān)鍵目標(biāo)在于構(gòu)造滿足優(yōu)良定量性質(zhì)(例如以較好數(shù)值常數(shù)滿足特定不等式)的復(fù)雜數(shù)學(xué)對(duì)象的問題。在本后續(xù)論文中,我們報(bào)告了在廣泛此類問題上測(cè)試 AlphaEvolve 性能的實(shí)驗(yàn)結(jié)果,主要集中于分析學(xué)、組合數(shù)學(xué)與幾何學(xué)領(lǐng)域。在許多情形下,AlphaEvolve 提供的構(gòu)造不僅具有數(shù)值性質(zhì),還可由人類數(shù)學(xué)家、Deep Think 等其他工具、甚至 AlphaEvolve 自身進(jìn)行解釋與推廣。AlphaEvolve 并未能在所有情形下匹配或超越先前結(jié)果,且其部分單項(xiàng)改進(jìn)很可能亦可通過人類專家采用更傳統(tǒng)的計(jì)算或理論方法實(shí)現(xiàn)。然而,與這些方法不同,我們發(fā)現(xiàn) AlphaEvolve 可輕松擴(kuò)展以同時(shí)研究大批量問題類別,且無需針對(duì)每個(gè)新問題進(jìn)行大量專家監(jiān)督。這表明進(jìn)化計(jì)算方法能夠以互補(bǔ)于傳統(tǒng)技術(shù)的方式系統(tǒng)探索數(shù)學(xué)對(duì)象空間,從而有助于回答關(guān)于計(jì)算搜索與數(shù)學(xué)存在性證明之間關(guān)系的問題。

我們還觀察到,在許多情形下,除可擴(kuò)展性外,為使 AlphaEvolve 輸出與文獻(xiàn)相當(dāng)?shù)慕Y(jié)果,相較于傳統(tǒng)數(shù)學(xué)研究方式,所需額外開銷極小:平均而言,使用 AlphaEvolve 設(shè)置一個(gè)問題的常規(guī)準(zhǔn)備時(shí)間僅需數(shù)小時(shí)。我們預(yù)計(jì),在缺乏先驗(yàn)知識(shí)、信息或代碼的情況下,等效的傳統(tǒng)設(shè)置通常將耗費(fèi)顯著更長時(shí)間。這促使我們提出“規(guī)?;瘶?gòu)造性數(shù)學(xué)”(constructive mathematics at scale)這一術(shù)語。

AlphaEvolve 有效性的關(guān)鍵數(shù)學(xué)洞見在于其能夠同時(shí)在多個(gè)抽象層次上運(yùn)作。該系統(tǒng)不僅能優(yōu)化數(shù)學(xué)構(gòu)造的具體參數(shù),還能優(yōu)化發(fā)現(xiàn)此類構(gòu)造的算法策略。這種元層次進(jìn)化代表了一種新型遞歸形式,其中優(yōu)化過程本身成為優(yōu)化對(duì)象。例如,AlphaEvolve 可能演化出使用啟發(fā)式集合、SAT 求解器、無收斂保證的二階方法或其組合的程序。這種分層方法在 AlphaEvolve 處理復(fù)雜數(shù)學(xué)問題(由用戶提出)時(shí)尤為明顯:系統(tǒng)常為優(yōu)化過程的不同階段發(fā)現(xiàn)專用搜索啟發(fā)式。早期啟發(fā)式擅長從隨機(jī)或簡(jiǎn)單初始狀態(tài)實(shí)現(xiàn)大幅改進(jìn),而后期啟發(fā)式則聚焦于近優(yōu)構(gòu)型的精細(xì)調(diào)優(yōu)。這種涌現(xiàn)的專門化映射了人類數(shù)學(xué)家所采用的直觀方法。

1.1 與 [224] 的比較。白皮書 [224] 首次介紹了 AlphaEvolve 并強(qiáng)調(diào)了其廣泛的通用適用性(包括數(shù)學(xué)領(lǐng)域)及部分結(jié)果細(xì)節(jié)。在本后續(xù)論文中,我們從廣度、難度與重要性角度擴(kuò)展了所考察數(shù)學(xué)問題的列表,并首次給出全部問題的完整細(xì)節(jié)。以下問題未按特定順序排列。出于篇幅限制,我們不試圖詳盡梳理所列各問題的歷史,而將讀者引向各問題所提供的參考文獻(xiàn)以深入探討已知結(jié)果。

隨本文一同發(fā)布的還有一個(gè)包含部分實(shí)驗(yàn)與問題擴(kuò)展細(xì)節(jié)的在線問題倉庫。盡管進(jìn)化過程中的隨機(jī)性可能使復(fù)現(xiàn)更具挑戰(zhàn),我們預(yù)期憑借所給信息與足夠?qū)嶒?yàn)次數(shù),結(jié)果可完全復(fù)現(xiàn)。

1.2 人工智能與數(shù)學(xué)發(fā)現(xiàn)。人工智能作為數(shù)學(xué)發(fā)現(xiàn)中的變革性力量的興起,標(biāo)志著我們應(yīng)對(duì)某些最具挑戰(zhàn)性數(shù)學(xué)問題方式的范式轉(zhuǎn)變。近期突破 [87, 165, 97, 77, 296, 6, 271, 295] 已證明人工智能輔助數(shù)學(xué)家的能力。AlphaGeometry 在標(biāo)準(zhǔn)時(shí)限內(nèi)解決了 30 道奧林匹克幾何題中的 25 道 [287]。AlphaProof 與 AlphaGeometry 2 [148] 在 2024 年國際數(shù)學(xué)奧林匹克競(jìng)賽中取得銀牌成績,隨后先進(jìn)的 Gemini Deep Think 框架在 2025 年國際數(shù)學(xué)奧林匹克競(jìng)賽中斬獲金牌 [149]。OpenAI 的模型亦取得金牌成績,參見 [297]。超越競(jìng)賽表現(xiàn),人工智能已開始做出真正的數(shù)學(xué)發(fā)現(xiàn),例如 FunSearch [242] 發(fā)現(xiàn)了關(guān)于帽子集(cap set)問題的新解及更高效的裝箱算法(另見 [100]);PatternBoost [56] 推翻了一個(gè)長達(dá) 30 年的猜想(另見 [291]);以及早期先驅(qū)如 Graffiti [119] 生成猜想。人工智能協(xié)助數(shù)學(xué)家的其他實(shí)例還包括 [70, 283, 302, 301],涉及尋找數(shù)學(xué)命題的形式化與非形式化證明。

盡管 AlphaEvolve 更側(cè)重于探索與發(fā)現(xiàn),我們已能將其與其他系統(tǒng)進(jìn)行流水線式集成,從而不僅實(shí)現(xiàn)探索,還能將發(fā)現(xiàn)結(jié)果與數(shù)學(xué)上嚴(yán)格的證明及其形式化相結(jié)合。

1.3 進(jìn)化算法以尋找構(gòu)造。AlphaEvolve 的核心是一種復(fù)雜的搜索算法。為理解其設(shè)計(jì),從一個(gè)熟悉的概念入手會(huì)有所幫助:局部搜索。為求解諸如“尋找一個(gè)含 50 個(gè)頂點(diǎn)、不含三角形與四元環(huán)且邊數(shù)最多的圖”之類的問題,標(biāo)準(zhǔn)做法是從一個(gè)隨機(jī)圖出發(fā),迭代地進(jìn)行小幅修改(例如添加或刪除一條邊),以提升其得分(本例中為邊數(shù),但對(duì)任何三角形或四元環(huán)施加懲罰)。我們持續(xù)“爬山”直至無法進(jìn)一步改進(jìn)。

從 FunSearch [242](見表 1 的直接對(duì)比)及其重新實(shí)現(xiàn) [100] 繼承的第一個(gè)關(guān)鍵思想是:不在圖的空間中執(zhí)行此類局部搜索,而是在生成圖的 Python 程序空間中進(jìn)行。我們從一個(gè)簡(jiǎn)單程序出發(fā),然后利用大語言模型(LLM)生成大量相似但略有差異的程序(“變異”)。通過運(yùn)行每個(gè)程序并評(píng)估其生成的圖來對(duì)其進(jìn)行評(píng)分。人們自然會(huì)疑惑這種方法為何有益:一次 LLM 調(diào)用通常遠(yuǎn)比添加一條邊或評(píng)估一個(gè)圖昂貴得多,因此我們探索的候選解數(shù)量往往比標(biāo)準(zhǔn)局部搜索方法少數(shù)千甚至數(shù)百萬倍。


許多“優(yōu)美”的數(shù)學(xué)對(duì)象(如前述問題的最優(yōu)解 Hoffman-Singleton 圖 [142])可用簡(jiǎn)短、優(yōu)雅的代碼進(jìn)行描述。此外,即使某個(gè)問題僅存在一個(gè)最優(yōu)構(gòu)造,也可能有多種不同而自然的程序生成它。相反,無數(shù)作為局部最優(yōu)解的“丑陋”圖可能并不對(duì)應(yīng)任何簡(jiǎn)單程序。在程序空間中搜索可作為一種強(qiáng)大的簡(jiǎn)潔性與結(jié)構(gòu)性先驗(yàn),幫助我們避開混亂的局部極大值,導(dǎo)向優(yōu)雅且往往最優(yōu)的解。即使最優(yōu)解本身無法通過簡(jiǎn)單程序描述,而最佳發(fā)現(xiàn)途徑是啟發(fā)式方法,我們發(fā)現(xiàn) AlphaEvolve 在此類任務(wù)上同樣表現(xiàn)出色。

然而,對(duì)于評(píng)分函數(shù)計(jì)算成本低廉的問題,傳統(tǒng)方法純粹的暴力計(jì)算優(yōu)勢(shì)仍難以克服。我們對(duì)此提出的解決方案如下:AlphaEvolve 不再進(jìn)化直接生成構(gòu)造的程序,而是進(jìn)化用于搜索構(gòu)造的程序。這便是我們所稱的 AlphaEvolve“搜索模式”(search mode),也是我們?cè)谒幸詫ふ覂?yōu)良構(gòu)造為目標(biāo)、且不關(guān)注其可解釋性與可推廣性的問題上采用的標(biāo)準(zhǔn)模式。

AlphaEvolve 種群中的每個(gè)程序均為一種搜索啟發(fā)式。它被賦予固定時(shí)間預(yù)算(例如 100 秒),任務(wù)是在該時(shí)限內(nèi)找到盡可能優(yōu)良的構(gòu)造。該啟發(fā)式的評(píng)分即為其找到的最佳對(duì)象的評(píng)分。這解決了速度差異問題:一次緩慢的 LLM 調(diào)用生成新搜索啟發(fā)式后,可觸發(fā)大規(guī)模廉價(jià)計(jì)算——該啟發(fā)式可自主探索數(shù)百萬候選構(gòu)造。

我們強(qiáng)調(diào),搜索無需每次都從零開始。新啟發(fā)式將根據(jù)其改進(jìn)迄今最佳構(gòu)造的能力進(jìn)行評(píng)估。因此,我們實(shí)際進(jìn)化的是一個(gè)“改進(jìn)器”(improver)函數(shù)種群。這形成了動(dòng)態(tài)自適應(yīng)的搜索過程:初期可能偏好執(zhí)行廣泛探索性搜索的啟發(fā)式;隨著逼近優(yōu)良解,執(zhí)行巧妙問題特定精調(diào)的啟發(fā)式可能占據(jù)主導(dǎo)。最終結(jié)果通常是一系列專用啟發(fā)式的序列,當(dāng)串聯(lián)使用時(shí)可產(chǎn)生前沿構(gòu)造。其代價(jià)可能是搜索過程可解釋性的潛在損失,但其所發(fā)現(xiàn)的最終對(duì)象仍是我們可研究的明確定義的數(shù)學(xué)實(shí)體。

這一補(bǔ)充機(jī)制對(duì)更困難的問題尤為有用——單一搜索函數(shù)可能無法獨(dú)立發(fā)現(xiàn)優(yōu)良解。

1.4 從示例泛化到公式:泛化模式。除在固定問題規(guī)模(例如 n = 11 的堆積問題)上表現(xiàn)優(yōu)異的上述搜索模式外,我們還嘗試了更具雄心的“泛化模式”(generalizer mode)。在此模式下,我們要求 AlphaEvolve 編寫一個(gè)可對(duì)任意給定 n n 求解該問題的程序,并根據(jù)其在一系列 n n 值上的表現(xiàn)進(jìn)行評(píng)估。期望是:通過觀察自身為小規(guī)模 n n生成的(往往是最優(yōu)的)解,AlphaEvolve 能夠識(shí)別模式并將其泛化為適用于所有 n n 的構(gòu)造。

該模式更具挑戰(zhàn)性,但也產(chǎn)出了我們最激動(dòng)人心的部分成果。例如,AlphaEvolve 為 Nikodym 問題(見問題 6.1)提出的構(gòu)造啟發(fā)了第三作者撰寫的新論文 [281]。另一方面,使用搜索模式時(shí),進(jìn)化出的程序往往難以解釋;但最終構(gòu)造本身仍可被分析——在算術(shù) Kakeya 問題(問題 6.30)中,這些構(gòu)造亦啟發(fā)了第三作者的另一篇論文 [282]。

1.5 構(gòu)建多AI工具流水線。更引人注目的是,針對(duì)有限域 Kakeya 問題(參見問題 6.1),AlphaEvolve 發(fā)現(xiàn)了一個(gè)有趣的通用構(gòu)造。當(dāng)我們將該程序化解輸入名為 Deep Think [149] 的智能體時(shí),它成功推導(dǎo)出其正確性證明及規(guī)模的閉式公式。隨后,該證明借助另一AI工具 AlphaProof [148] 在 Lean 證明輔助系統(tǒng)中完成了完全形式化。這一工作流——結(jié)合模式發(fā)現(xiàn)(AlphaEvolve)、符號(hào)化證明生成(Deep Think)與形式驗(yàn)證(AlphaProof)——為專用AI系統(tǒng)如何集成提供了具體范例。它預(yù)示了一種潛在的未來方法論:多種AI工具的組合可協(xié)助實(shí)現(xiàn)從經(jīng)驗(yàn)觀察到的模式(由模型提出)到形式化驗(yàn)證數(shù)學(xué)結(jié)果的全過程,全程自動(dòng)化或半自動(dòng)化。

1.6 局限性。我們亦需指出,盡管 AlphaEvolve 擅長處理可清晰表述為光滑評(píng)分函數(shù)優(yōu)化、且適合“爬山法”的問題,但在其他情形下有時(shí)會(huì)陷入困境。特別是,我們遇到若干實(shí)例中 AlphaEvolve 未能達(dá)到最優(yōu)或接近最優(yōu)結(jié)果,下文將一并報(bào)告這些案例??傮w而言,我們發(fā)現(xiàn) AlphaEvolve 在大規(guī)模應(yīng)用于廣泛松散關(guān)聯(lián)的問題組合時(shí)最為有效,例如各類堆積問題,或 Sendov 猜想及其變體。

第 6 節(jié)將詳述通過該方法發(fā)現(xiàn)的新數(shù)學(xué)結(jié)果,以及所有 AlphaEvolve 未能找到先前已知最優(yōu)構(gòu)造的案例。我們希望本工作不僅能為這些具體問題提供新見解,亦能激勵(lì)其他科學(xué)家探索如何將此類工具適配于各自研究領(lǐng)域。

  1. AlphaEvolve 概述與使用方法

如 [224] 所介紹,AlphaEvolve 建立了一個(gè)將大語言模型創(chuàng)造力與自動(dòng)化評(píng)估器相結(jié)合的框架。其中部分描述與用法已在該文獻(xiàn)中呈現(xiàn),為保證本文自洽性,我們?cè)诖擞枰杂懻?。AlphaEvolve 的核心是一個(gè)進(jìn)化系統(tǒng),該系統(tǒng)維護(hù)一個(gè)程序種群,每個(gè)程序編碼了給定問題的潛在解。該種群通過模擬自然選擇的迭代循環(huán)持續(xù)改進(jìn)。

進(jìn)化過程包含兩個(gè)主要組件:

(1) 生成器(LLM):該組件負(fù)責(zé)引入變異。它選取當(dāng)前種群中表現(xiàn)較優(yōu)的部分程序并對(duì)其進(jìn)行“變異”,以生成新的候選解。該過程可在多個(gè) CPU 上并行化。借助大語言模型,這些變異并非隨機(jī)的字符翻轉(zhuǎn),而是基于父代程序邏輯與人類用戶提供的專家建議、具有語法意識(shí)的智能代碼修改。

(2) 評(píng)估器(通常由用戶提供):此即“適應(yīng)度函數(shù)”。它是一段確定性代碼,接收種群中的一個(gè)程序,運(yùn)行該程序,并根據(jù)其表現(xiàn)賦予數(shù)值評(píng)分。對(duì)于數(shù)學(xué)構(gòu)造問題,該評(píng)分可反映構(gòu)造滿足特定性質(zhì)的程度(例如圖的邊數(shù),或堆積的密度)。

過程始于若干簡(jiǎn)單初始程序。每一代中,部分高分程序被選中并輸入大語言模型,以生成潛在更優(yōu)的后代。這些后代隨后被評(píng)估、打分,其中得分較高者將構(gòu)成未來程序的基礎(chǔ)。這種生成與選擇的循環(huán)使種群隨時(shí)間“進(jìn)化”,趨向于產(chǎn)生質(zhì)量日益提升的解的程序。需注意,由于每個(gè)評(píng)估器具有固定時(shí)間預(yù)算,評(píng)估器消耗的總 CPU 小時(shí)數(shù)與實(shí)驗(yàn)中大語言模型調(diào)用總次數(shù)成正比。關(guān)于更多細(xì)節(jié)及數(shù)學(xué)問題之外的應(yīng)用,讀者可參閱 [224]。Nagda 等人 [221] 應(yīng)用 AlphaEvolve 為度量旅行商問題與 MAX-k-CUT 等問題建立了新的近似難度結(jié)果。AlphaEvolve 發(fā)布后,其他利用大語言模型進(jìn)行科學(xué)發(fā)現(xiàn)的開源框架實(shí)現(xiàn)亦相繼開發(fā),例如 OpenEvolve [257]、ShinkaEvolve [190] 與 DeepEvolve [202]。

應(yīng)用于數(shù)學(xué)領(lǐng)域時(shí),該框架在尋找具有極值性質(zhì)的構(gòu)造方面尤為強(qiáng)大。如引言所述,我們主要采用其搜索模式:被進(jìn)化的程序并非直接構(gòu)造,其本身即是啟發(fā)式搜索算法。評(píng)估器為這些進(jìn)化出的啟發(fā)式賦予固定時(shí)間預(yù)算,并根據(jù)其在該時(shí)限內(nèi)能找到的最佳構(gòu)造質(zhì)量進(jìn)行評(píng)分。該方法將大語言模型昂貴而富有創(chuàng)造力的能力導(dǎo)向高效搜索策略的設(shè)計(jì),這些策略隨后可被廉價(jià)且大規(guī)模地執(zhí)行。這使 AlphaEvolve 能夠有效導(dǎo)航廣闊而復(fù)雜的數(shù)學(xué)景觀,發(fā)現(xiàn)本文詳述的各類新穎構(gòu)造。

  1. 元分析與消融研究

為更深入理解 AlphaEvolve 的行為特性與敏感性,我們開展了一系列元分析與消融研究。這些實(shí)驗(yàn)旨在回答該方法的若干實(shí)踐性問題:計(jì)算資源如何影響搜索效果?底層大語言模型扮演何種角色?典型成本為何?為保持一致性,許多實(shí)驗(yàn)以自相關(guān)不等式問題(問題 6.2)作為測(cè)試平臺(tái),因其提供了一個(gè)簡(jiǎn)潔且評(píng)估迅速的目標(biāo)函數(shù)。

3.1 發(fā)現(xiàn)速度與評(píng)估成本的權(quán)衡。任何 AlphaEvolve 運(yùn)行中的關(guān)鍵參數(shù)是所用并行計(jì)算量(例如 CPU 線程數(shù))。直觀而言,并行度越高,發(fā)現(xiàn)速度應(yīng)越快。我們通過以不同線程數(shù)(從 2 到 20)運(yùn)行問題 6.2 對(duì)此進(jìn)行探究。

我們的發(fā)現(xiàn)(見圖 1)雖存在一定噪聲,但似乎符合這一預(yù)期權(quán)衡。增加并行線程數(shù)顯著加快了發(fā)現(xiàn)時(shí)間:使用 20 個(gè)線程的運(yùn)行始終比 2 個(gè)線程更快地超越前沿界。然而,這種速度提升伴隨著更高的總成本。由于每個(gè)線程半獨(dú)立運(yùn)行并各自調(diào)用大語言模型生成新啟發(fā)式,線程數(shù)翻倍大致使大語言模型查詢速率翻倍。盡管線程間相互通信并基于彼此的最佳構(gòu)造進(jìn)行改進(jìn),但更快達(dá)成結(jié)果需要更大總量的大語言模型調(diào)用。最優(yōu)策略取決于研究者優(yōu)先級(jí):若追求快速探索,高并行度效果顯著;若旨在最小化直接成本,則較少線程長時(shí)間運(yùn)行更為經(jīng)濟(jì)。


3.2 模型選擇的作用:大型模型與廉價(jià)模型。AlphaEvolve 的性能從根本上依賴于用于生成代碼變異的大語言模型。我們對(duì)比了高性能大語言模型與規(guī)模小得多、成本低廉的模型(輸入 token 價(jià)格相差約 15 倍,輸出 token 約 30 倍)的有效性。

我們觀察到,能力更強(qiáng)的大語言模型傾向于產(chǎn)生更高質(zhì)量的建議(見圖 2),常以更少進(jìn)化步數(shù)達(dá)成更優(yōu)評(píng)分。然而,最有效策略并非總是獨(dú)占使用最強(qiáng)模型。對(duì)于這一簡(jiǎn)單的自相關(guān)問題,最具成本效益的超越文獻(xiàn)界策略是在多次運(yùn)行中使用最廉價(jià)模型,其總大語言模型成本極低:僅數(shù)美元。但對(duì)于更困難的 Nikodym 集問題(見問題 6.1),廉價(jià)模型無法生成最精巧的構(gòu)造。


我們還觀察到,僅使用高端模型的實(shí)驗(yàn)有時(shí)表現(xiàn)不如偶爾混用廉價(jià)模型的運(yùn)行。一種解釋是:不同模型可能提出截然不同的方法;盡管較差模型通常建議質(zhì)量較低,但它確實(shí)增加了多樣性。這表明在進(jìn)化過程中注入一定程度的隨機(jī)性或“樸素創(chuàng)造力”可能存在潛在收益。我們推測(cè),對(duì)于需要更深刻數(shù)學(xué)洞見的問題,更智能大語言模型的價(jià)值將更為凸顯;但對(duì)于許多優(yōu)化景觀,來自廉價(jià)模型的多樣性是一種強(qiáng)大且經(jīng)濟(jì)的工具。

  1. 結(jié)論

我們對(duì) AlphaEvolve 的探索得出了若干關(guān)鍵洞見,總結(jié)如下。我們發(fā)現(xiàn),驗(yàn)證器(verifier)的選擇是顯著影響系統(tǒng)性能與發(fā)現(xiàn)結(jié)果質(zhì)量的關(guān)鍵組件。例如,優(yōu)化器有時(shí)會(huì)傾向于更穩(wěn)定(平凡)的解,而這正是我們希望避免的。設(shè)計(jì)巧妙的驗(yàn)證器以規(guī)避此類行為,是發(fā)現(xiàn)新結(jié)果的關(guān)鍵。

類似地,在某些情形下,采用連續(xù)型(而非離散型)損失函數(shù)被證明是引導(dǎo)進(jìn)化搜索過程更有效的策略。例如,對(duì)于問題 6.54,我們本可將評(píng)分函數(shù)設(shè)計(jì)為任意給定構(gòu)型中相接觸圓柱的數(shù)量(若構(gòu)型非法則為 ? ∞ ?∞);但通過采用依賴于距離的連續(xù)評(píng)分函數(shù),我們實(shí)現(xiàn)了更成功且更快速的優(yōu)化過程。

實(shí)驗(yàn)過程中,我們還觀察到一種“作弊現(xiàn)象”:系統(tǒng)會(huì)發(fā)現(xiàn)漏洞或利用問題設(shè)置中的瑕疵(例如通過離散版本近似全局約束如正性時(shí)產(chǎn)生的泄漏型驗(yàn)證器、對(duì)廉價(jià)模型的不可靠大語言模型查詢等),而非尋找真正解。這凸顯了精心設(shè)計(jì)魯棒評(píng)估環(huán)境的必要性。

另一重要組件是提示中給予的建議及提示者的經(jīng)驗(yàn)。我們發(fā)現(xiàn),隨著使用次數(shù)增加,我們?cè)絹碓缴朴谡莆杖绾蜗?AlphaEvolve 提供有效提示。例如,采用搜索模式提示相較于直接尋找構(gòu)造,前者產(chǎn)生了更高效的程序與更優(yōu)結(jié)果。此外,當(dāng)使用者是所嘗試問題的領(lǐng)域?qū)<視r(shí),AlphaEvolve 的表現(xiàn)始終顯著優(yōu)于非專家使用者:我們發(fā)現(xiàn),提示中給予 AlphaEvolve 的建議對(duì)最終構(gòu)造質(zhì)量具有顯著影響。在提示中提供富有洞見的專家建議幾乎總能帶來顯著更優(yōu)的結(jié)果——事實(shí)上,AlphaEvolve 總是試圖在保留原始建議精髓的前提下,最大限度地榨取該建議的價(jià)值。我們強(qiáng)調(diào),總體而言,最佳結(jié)果往往源于人類專業(yè)知識(shí)與 AlphaEvolve 計(jì)算能力的結(jié)合。

一個(gè)促進(jìn)發(fā)現(xiàn)廣泛適用算法的有趣發(fā)現(xiàn)是:當(dāng)系統(tǒng)被提供更受約束的輸入集或特征集時(shí),泛化能力反而提升?!皵?shù)據(jù)量大”并不必然意味著泛化性能更優(yōu)。當(dāng)我們尋求能跨廣泛參數(shù)范圍泛化的可解釋程序時(shí),我們通過僅向 AlphaEvolve 展示小規(guī)模 n n 值下的先前最優(yōu)解來限制其可訪問數(shù)據(jù)量(參見問題 6.29、6.65、6.1)。這種“少即是多”的方法似乎有助于更基礎(chǔ)性思想的涌現(xiàn)。

展望未來,提升系統(tǒng)自主性的重要一步將是使 AlphaEvolve 能夠自主選擇超參數(shù),動(dòng)態(tài)調(diào)整其搜索策略。

當(dāng)系統(tǒng)在同一實(shí)驗(yàn)中針對(duì)相關(guān)問題或問題實(shí)例族進(jìn)行訓(xùn)練時(shí),結(jié)果亦顯著改善。例如,在探索幾何問題時(shí),同時(shí)處理不同點(diǎn)數(shù) n n 與維度 d d 的構(gòu)型極為有效。對(duì)特定 ( n , d ) 對(duì)表現(xiàn)良好的搜索啟發(fā)式,很可能為其他情形提供堅(jiān)實(shí)基礎(chǔ),引導(dǎo)系統(tǒng)趨向更具普適性的原理。

我們發(fā)現(xiàn),AlphaEvolve 擅長發(fā)現(xiàn)那些本已處于當(dāng)前數(shù)學(xué)能力范圍內(nèi)、但因?qū)ふ疫m用于特定問題的標(biāo)準(zhǔn)思想恰當(dāng)組合所需時(shí)間與精力過大而尚未被發(fā)現(xiàn)的構(gòu)造。另一方面,對(duì)于需要真正新穎、深刻洞見才能取得進(jìn)展的問題,AlphaEvolve 可能并非合適工具。

未來,我們?cè)O(shè)想類似 AlphaEvolve 的工具可用于系統(tǒng)評(píng)估大批量數(shù)學(xué)界或猜想的難度。這可能導(dǎo)致一種新型分類方法,使研究者能夠半自動(dòng)地標(biāo)記某些不等式為"AlphaEvolve-難解",表明其對(duì)基于 AlphaEvolve 方法的抵抗性;反之,其他問題則可被標(biāo)記為適合通過理論與計(jì)算機(jī)輔助技術(shù)進(jìn)一步攻關(guān),從而更有效地引導(dǎo)未來研究方向。

  1. 未來工作

AlphaEvolve 中的數(shù)學(xué)進(jìn)展代表了邁向自動(dòng)化數(shù)學(xué)發(fā)現(xiàn)的重要一步,盡管仍有許多廣闊的研究方向有待探索。鑒于人機(jī)交互的特性,我們?cè)O(shè)想未來可進(jìn)一步將計(jì)算機(jī)輔助證明整合至 AlphaEvolve 的輸出中,從而實(shí)現(xiàn) AlphaEvolve 首先發(fā)現(xiàn)候選解,繼而自動(dòng)生成例如 Lean 代碼形式的計(jì)算機(jī)輔助證明以驗(yàn)證該解,全程自動(dòng)化。本工作中,我們已通過一個(gè)從發(fā)現(xiàn)到形式化的完整流水線示例證明,此類情形在罕見情況下已然可行;該流水線結(jié)合人類專業(yè)知識(shí)后產(chǎn)生了更深入的洞見與更強(qiáng)的結(jié)果。本文僅代表這一尚在進(jìn)行中的長期目標(biāo)的第一步,我們期望在此方向上進(jìn)一步探索。本文所劃定的邊界純粹受限于人類時(shí)間與論文篇幅,而非我們的計(jì)算能力。具體而言,對(duì)于部分問題,我們相信(正在進(jìn)行及未來的)進(jìn)一步探索可能帶來更豐富、更優(yōu)的結(jié)果。

  1. AlphaEvolve 測(cè)試的數(shù)學(xué)問題

在我們的實(shí)驗(yàn)中,我們從數(shù)學(xué)文獻(xiàn)中選取了 67 個(gè)問題(包括已解決與未解決的),其中大多數(shù)可重新表述為對(duì)某個(gè)數(shù)值量(可能依賴于一個(gè)或多個(gè)參數(shù),少數(shù)情況下為多維而非標(biāo)量值)獲取上界和/或下界。這些數(shù)值量中的許多可表達(dá)為某個(gè)評(píng)分函數(shù)在某集合(可能是有限集、有限維或無限維)上的上確界或下確界。

盡管上下界均具研究價(jià)值,但在許多情形下僅其中一類界適合采用 AlphaEvolve 方法處理,因其本質(zhì)是用于發(fā)現(xiàn)有趣數(shù)學(xué)構(gòu)造的工具——即嘗試優(yōu)化評(píng)分函數(shù)的實(shí)例,而非證明對(duì)所有可能實(shí)例均成立的界。當(dāng)評(píng)分函數(shù)的定義域?yàn)闊o限維(例如函數(shù)空間)時(shí),在應(yīng)用 AlphaEvolve 前需額外施加限制或投影至有限維空間(例如通過離散化或正則化)。

在許多情形下,AlphaEvolve 能夠匹配(或近乎匹配)現(xiàn)有界(其中部分已知或被猜想為緊界),且常能提供極值構(gòu)造的可解釋性描述;在若干情形下甚至超越了前沿結(jié)果。在其他情形下,AlphaEvolve 甚至未能達(dá)到文獻(xiàn)中的已知界,但我們?nèi)灾铝τ谠诖擞涗泴?shí)驗(yàn)的正反兩方面結(jié)果,以更準(zhǔn)確地呈現(xiàn) AlphaEvolve 作為工具的優(yōu)勢(shì)與局限。我們的目標(biāo)是分享所有嘗試過的問題結(jié)果——包括僅短暫嘗試的問題——以誠實(shí)地呈現(xiàn)哪些方法有效、哪些無效。

在 AlphaEvolve 超越前沿結(jié)果的情形中,很可能通過進(jìn)一步工作——例如采用提示與設(shè)置更優(yōu)的 AlphaEvolve 版本、由理論考量或傳統(tǒng)數(shù)值方法引導(dǎo)的定制化方法,或二者的混合策略——可帶來進(jìn)一步改進(jìn);這在 [224] 中先前公布的若干 AlphaEvolve 結(jié)果中已然發(fā)生。我們希望此處報(bào)告的結(jié)果能通過多種方法激發(fā)這些問題的進(jìn)一步進(jìn)展。






原文鏈接:https://arxiv.org/pdf/2511.02864

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
老人闖紅燈遭“三車連撞”全身多處骨折 家屬發(fā)聲

老人闖紅燈遭“三車連撞”全身多處骨折 家屬發(fā)聲

閃電新聞
2026-03-27 15:17:19
伊朗打?qū)α耍岩了固m世界最大的叛徒揪出來了!

伊朗打?qū)α?,把伊斯蘭世界最大的叛徒揪出來了!

達(dá)文西看世界
2026-03-28 10:23:28
41歲張雪峰離世,搶救細(xì)節(jié)曝光,曾有3次活命機(jī)會(huì),全被耽誤了!

41歲張雪峰離世,搶救細(xì)節(jié)曝光,曾有3次活命機(jī)會(huì),全被耽誤了!

可愛小菜
2026-03-25 22:25:55
李-夏普:阿莫林距離成功其實(shí)只差一步,他清理了一批問題球員

李-夏普:阿莫林距離成功其實(shí)只差一步,他清理了一批問題球員

懂球帝
2026-03-28 10:44:27
庫拉索怎么進(jìn)世界杯的?國足并不菜!張玉寧8.5分最高 韋世豪第二

庫拉索怎么進(jìn)世界杯的?國足并不菜!張玉寧8.5分最高 韋世豪第二

刀鋒體育
2026-03-27 16:37:11
比國足還低23位 非洲弱旅壓哨攻破世界杯冠軍球門 激動(dòng)跳舞似奪冠

比國足還低23位 非洲弱旅壓哨攻破世界杯冠軍球門 激動(dòng)跳舞似奪冠

我愛英超
2026-03-28 10:00:49
南寧的悖論:完美的宜居城市,為何成不了旅游爆點(diǎn)?

南寧的悖論:完美的宜居城市,為何成不了旅游爆點(diǎn)?

茶狐看世界本尊
2026-03-27 19:20:03
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個(gè)女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個(gè)女兒精心打扮出席

照見古今
2026-03-12 19:27:38
卡塞米羅官宣不會(huì)改變主意留在曼聯(lián)!曝最后目標(biāo),力挺卡里克轉(zhuǎn)正

卡塞米羅官宣不會(huì)改變主意留在曼聯(lián)!曝最后目標(biāo),力挺卡里克轉(zhuǎn)正

羅米的曼聯(lián)博客
2026-03-28 10:03:24
人民日?qǐng)?bào)痛批大學(xué)生 “沉睡” 現(xiàn)象:躺平四年,畢業(yè)真的會(huì)失業(yè)!

人民日?qǐng)?bào)痛批大學(xué)生 “沉睡” 現(xiàn)象:躺平四年,畢業(yè)真的會(huì)失業(yè)!

復(fù)轉(zhuǎn)這些年
2026-03-25 10:02:32
國民黨內(nèi)斗徹底炸鍋!“親美派”圍攻鄭麗文,原來都被馬英九騙了

國民黨內(nèi)斗徹底炸鍋!“親美派”圍攻鄭麗文,原來都被馬英九騙了

娛樂的宅急便
2026-03-28 12:22:28
每體:拉菲尼亞的受傷引發(fā)巴薩高層強(qiáng)烈憤慨,弗里克也極為憤怒

每體:拉菲尼亞的受傷引發(fā)巴薩高層強(qiáng)烈憤慨,弗里克也極為憤怒

懂球帝
2026-03-28 06:38:07
4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

巴叔GO聊體育
2026-03-28 14:30:14
美股全線大跌,芯片股普跌,微軟較高點(diǎn)跌34%,國際油價(jià)大漲7%,伊朗考慮退出不擴(kuò)散核武器條約

美股全線大跌,芯片股普跌,微軟較高點(diǎn)跌34%,國際油價(jià)大漲7%,伊朗考慮退出不擴(kuò)散核武器條約

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-28 07:13:32
現(xiàn)款極氪007GT已售罄 煥新007GT即將上市 900V平臺(tái)/純電續(xù)航880km

現(xiàn)款極氪007GT已售罄 煥新007GT即將上市 900V平臺(tái)/純電續(xù)航880km

太平洋汽車
2026-03-28 14:45:51
生活中有哪些「看似便宜,實(shí)際弄壞很貴」的東西?我先說5個(gè)!

生活中有哪些「看似便宜,實(shí)際弄壞很貴」的東西?我先說5個(gè)!

Home范
2026-03-27 14:11:20
古代通房丫頭為何只能穿開襠褲,背后故事令人心痛。

古代通房丫頭為何只能穿開襠褲,背后故事令人心痛。

長安一孤客
2026-03-09 11:42:06
臺(tái)灣統(tǒng)一的風(fēng)向:賴清德由獨(dú)轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

臺(tái)灣統(tǒng)一的風(fēng)向:賴清德由獨(dú)轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

混沌錄
2026-03-15 16:17:03
國足踢喀麥隆首發(fā)預(yù)測(cè)!劉殿座和蒯紀(jì)聞踢主力,李揚(yáng)將有望挑大梁

國足踢喀麥隆首發(fā)預(yù)測(cè)!劉殿座和蒯紀(jì)聞踢主力,李揚(yáng)將有望挑大梁

張麗說足球
2026-03-28 10:40:06
戰(zhàn)爭(zhēng)已到臨界點(diǎn)!以色列下達(dá)決戰(zhàn)書:48小時(shí)定生死,立刻啟用核彈

戰(zhàn)爭(zhēng)已到臨界點(diǎn)!以色列下達(dá)決戰(zhàn)書:48小時(shí)定生死,立刻啟用核彈

夢(mèng)史
2026-03-28 12:31:05
2026-03-28 15:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1310文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

遭中國學(xué)界"拉黑"后,這家AI頂會(huì)低頭道歉

頭條要聞

牛彈琴:伊朗狠角色強(qiáng)硬嘲諷美國 卻被美移出獵殺名單

頭條要聞

牛彈琴:伊朗狠角色強(qiáng)硬嘲諷美國 卻被美移出獵殺名單

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

王一博改名上熱搜!個(gè)人時(shí)代正式開啟!

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

家居
數(shù)碼
藝術(shù)
旅游
公開課

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

數(shù)碼要聞

華碩新款商務(wù)本ExpertBook B3 G1,配置超豐富!

藝術(shù)要聞

細(xì)膩優(yōu)雅的花卉靜物畫 | Henrietta Smith

旅游要聞

春夏秋冬皆可游!濟(jì)南將打造四季可游、全域皆景的文旅體驗(yàn)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版