網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Gemini聯(lián)手頂尖學(xué)者破解理論科學(xué)難題：推翻人類學(xué)者的假設(shè)

2026-02-07 18:15:56　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

此前，業(yè)界對(duì)AI 能力的評(píng)價(jià)往往基于“會(huì)不會(huì)做題”，比如能不能在高考試題上擊敗人類考生、在奧數(shù)競(jìng)賽中斬獲幾塊金牌，又或者寫(xiě)出的代碼夠不夠格通過(guò)互聯(lián)網(wǎng)大廠的筆試……

但在這些看似“人類一敗涂地，AI大獲全勝”的測(cè)試背后，科學(xué)界一直存在一種冷靜甚至審慎的看法：AI 確實(shí)很會(huì)“做題”，但它能解決那些人類尚未解決的“真問(wèn)題”嗎？畢竟，背誦教科書(shū)是一回事，拓展人類知識(shí)的邊界則是完全不同的另一回事。

許多科學(xué)家曾認(rèn)為，目前的 AI 或許只能做簡(jiǎn)單的模仿者，無(wú)法進(jìn)行深度的邏輯推理和創(chuàng)新。然而，Google Research 最新發(fā)布的一項(xiàng)重磅研究打破了這種質(zhì)疑，并向我們展示：AI 不僅是只會(huì)做選擇題的學(xué)生，還可以成為人類頂尖學(xué)者的“左膀右臂”，共同攻克多個(gè)困擾學(xué)界已久的難題。

（來(lái)源：arXiv）

2 月 3 日，Google Research 聯(lián)合卡內(nèi)基梅隆大學(xué)、哈佛大學(xué)、麻省理工學(xué)院等多所頂尖高校研究人員共同在預(yù)印本平臺(tái) arXiv 提交了一篇論文：《利用 Gemini 加速科學(xué)研究：案例研究與通用技術(shù)》（Accelerating Scientific Research with Gemini: Case Studies and Common Techniques），詳細(xì)記錄了前沿大語(yǔ)言模型，特別是具備增強(qiáng)推理能力的 Gemini Deep Think 及其變體，如何從傳統(tǒng)的輔助工具轉(zhuǎn)變?yōu)槔碚摽茖W(xué)研究中的實(shí)質(zhì)性合作者。

研究團(tuán)隊(duì)通過(guò)展示 Gemini 系列大型語(yǔ)言模型在理論計(jì)算機(jī)科學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)等多個(gè)領(lǐng)域的實(shí)際應(yīng)用，證實(shí)了 Gemini 在解決開(kāi)放性數(shù)學(xué)問(wèn)題、反駁長(zhǎng)期存在的猜想以及生成復(fù)雜新證明方面具備卓越性能，還總結(jié)出了一套行之有效的人機(jī)協(xié)作方法論。

為了讓 Gemini 真正參與專家級(jí)的科研工作，研究人員首先構(gòu)建了幾項(xiàng)關(guān)鍵的協(xié)作規(guī)則。首先是“迭代提示與改進(jìn)”，即模型很少能一次性解決深?yuàn)W問(wèn)題，需要通過(guò)多輪對(duì)話，由人類研究員將大問(wèn)題分解為可驗(yàn)證的子任務(wù)，并提供高層級(jí)的證明框架（即“腳手架”），引導(dǎo)模型逐步填補(bǔ)技術(shù)細(xì)節(jié)。

其次是“思想的異花授粉”（Cross-Pollination of Ideas），團(tuán)隊(duì)利用模型攝取了跨學(xué)科海量文獻(xiàn)的優(yōu)勢(shì)，借助其識(shí)別出不同數(shù)學(xué)領(lǐng)域之間，可能被人類專家忽視的隱秘聯(lián)系。

此外還有“神經(jīng)符號(hào)循環(huán)”（Neuro-Symbolic Loops）技術(shù)，即將模型嵌入自動(dòng)化的編程環(huán)境中，讓模型生成數(shù)學(xué)公式，同時(shí)編寫(xiě)代碼對(duì)假設(shè)進(jìn)行數(shù)值驗(yàn)證，根據(jù)執(zhí)行錯(cuò)誤（如 Python 回溯信息）自主修正推導(dǎo)路徑，從而在沒(méi)有人類干預(yù)的情況下修剪無(wú)效的推理分支，形成一個(gè)自我修正的閉環(huán)。

（來(lái)源：Google Research）

這些框架搭建完成后，Gemini 隨即在分屬多個(gè)領(lǐng)域的科學(xué)研究中展現(xiàn)出巨大的應(yīng)用潛力。首先，在密碼學(xué)領(lǐng)域，Gemini 指出了一種前沿協(xié)議的致命漏洞。這一名為“簡(jiǎn)潔非交互式論證”（SNARGs）的協(xié)議，旨在保護(hù)區(qū)塊鏈和隱私計(jì)算，如果這個(gè)錯(cuò)誤未被發(fā)現(xiàn)，未來(lái)的數(shù)字安全可能面臨巨大風(fēng)險(xiǎn)。

具體來(lái)看，針對(duì)一篇聲稱基于容錯(cuò)學(xué)習(xí)（LWE）假設(shè)實(shí)現(xiàn)簡(jiǎn)潔非交互式論證（SNARGs）的預(yù)印本論文，研究人員設(shè)計(jì)了一種“對(duì)抗性自我糾正”的提示策略，要求模型嚴(yán)格批判自己的發(fā)現(xiàn)。結(jié)果，Gemini 敏銳地指出，論文中“完美一致性”定義與實(shí)際構(gòu)造僅能實(shí)現(xiàn)“統(tǒng)計(jì)一致性”之間存在嚴(yán)重的邏輯缺陷，這一發(fā)現(xiàn)隨后得到了密碼學(xué)專家和論文原作者的確認(rèn)。

“在線次模福利最大化”（online submodular welfare maximization）是一個(gè)經(jīng)典的經(jīng)濟(jì)學(xué)與算法問(wèn)題，研究如何在需求未知且逐個(gè)出現(xiàn)的情況下，例如在實(shí)時(shí)廣告競(jìng)價(jià)或云計(jì)算資源分配中，將資源分給不同的人以最大化整體滿意度。這里的“次?！敝傅氖沁呺H效益遞減，即擁有的越多，新獲得的價(jià)值就越低。

此前，谷歌研究科學(xué)家尼蒂什·科魯拉（Nitish Korula）等人提出過(guò)一個(gè)與之相關(guān)的猜想，認(rèn)為某種貪婪算法的效率界限可以被進(jìn)一步提升?；诖耍珿emini 并未順著原假設(shè)的思路進(jìn)一步證實(shí)，反而自主構(gòu)建了一個(gè)涉及 3 個(gè)物品和 2 個(gè)代理的具體反例，并通過(guò)繁瑣的期望計(jì)算成功反駁了該猜想。這是 AI 罕見(jiàn)地在研究者沒(méi)有給出明確答案的情況下，直接利用真實(shí)科研語(yǔ)境否定了一位人類學(xué)者（還是谷歌自己人）提出的猜想。

（來(lái)源：Recherche-Research-Google）

借助掌握海量跨學(xué)科知識(shí)的優(yōu)勢(shì)，Gemini 在數(shù)學(xué)領(lǐng)域的難題中另辟蹊徑，為算法難題提供頗具創(chuàng)新性的幾何解法。最大割（Max-Cut）是一個(gè)圖論問(wèn)題，旨在尋找一種分割方式，使被切斷的連接線數(shù)量最大，這也是網(wǎng)絡(luò)流和芯片設(shè)計(jì)中常用的基礎(chǔ)算法之一。

為解決其中關(guān)于近似算法精度的一個(gè)長(zhǎng)期開(kāi)放問(wèn)題，Gemini 跳出了傳統(tǒng)的組合優(yōu)化思路，將其重構(gòu)為一個(gè)幾何泛函分析問(wèn)題，并創(chuàng)造性地建議應(yīng)用斯通-魏爾斯特拉斯（Stone-Weierstrass）定理（一項(xiàng)關(guān)于函數(shù)逼近的數(shù)學(xué)定理）來(lái)建立必要的方差界限。

（來(lái)源：Google Research）

在計(jì)算幾何領(lǐng)域中，針對(duì)斯坦納樹(shù)問(wèn)題（如何以最短路徑連接多個(gè)點(diǎn)），存在一個(gè)關(guān)于“單純形是最佳圖嵌入結(jié)構(gòu)”的猜想。Gemini 發(fā)現(xiàn)，解決問(wèn)題的關(guān)鍵實(shí)際在于希爾伯特空間映射中的基爾斯布勞恩（Kirszbraun）擴(kuò)展定理，這個(gè)定理通常用于分析函數(shù)的平滑性（Lipschitz 連續(xù)性），人類研究者此前往往認(rèn)為它過(guò)于深?yuàn)W而不予考慮。但 Gemini 正是借助這一晦澀的數(shù)學(xué)工具，成功完成了從任意圖嵌入到星形圖嵌入的形式化映射證明。

（來(lái)源：Google Research）

類似地，正則二分圖常用于通信網(wǎng)絡(luò)建模，為改進(jìn)其完美匹配數(shù)量下界，Gemini 綜合運(yùn)用了統(tǒng)計(jì)物理中的貝特（Bethe）近似、數(shù)論中的互質(zhì)整數(shù)分析以及譜圖理論中的伊原-巴斯（Ihara-Bass）恒等式，給出了比施賴弗（Schrijver）界限更強(qiáng)的理論結(jié)果。

涉及復(fù)雜運(yùn)算和算法優(yōu)化的學(xué)科時(shí)，Gemini 展現(xiàn)出驚人的“精算師”與“優(yōu)化師”能力。在理論天體物理學(xué)中，科學(xué)家試圖通過(guò)引力波探測(cè)宇宙大爆炸后的遺跡——宇宙弦。然而，預(yù)測(cè)其引力輻射涉及一個(gè)極度振蕩且具有嚴(yán)重奇點(diǎn)的球面積分計(jì)算，這是該領(lǐng)域的一個(gè)長(zhǎng)期難題。

為此，研究團(tuán)隊(duì)構(gòu)建了一個(gè)神經(jīng)符號(hào)系統(tǒng)，Gemini 在其中推導(dǎo)數(shù)學(xué)公式，并編寫(xiě) Python 代碼與數(shù)值基準(zhǔn)進(jìn)行比對(duì)。通過(guò)這種反饋循環(huán)，AI 自主發(fā)現(xiàn)了六種不同的解析路徑，最終結(jié)合蓋根鮑爾（Gegenbauer）多項(xiàng)式展開(kāi)，為這一難題推導(dǎo)出一個(gè)精確的閉式解。

在大數(shù)據(jù)處理中，如何在有限的內(nèi)存中從海量數(shù)據(jù)流里篩選出最有價(jià)值的信息（次模函數(shù)最大化）是一個(gè)核心問(wèn)題，Gemini 敏銳地發(fā)現(xiàn)，現(xiàn)有分析中存在一個(gè)潛在自由度：算法中的閾值參數(shù)不應(yīng)是全局固定的，而應(yīng)根據(jù)處理狀態(tài)動(dòng)態(tài)調(diào)整。

通過(guò)引入狀態(tài)依賴閾值，AI 推導(dǎo)并證明出一個(gè)優(yōu)化的遞推關(guān)系，將算法的近似比從約 0.55 精確提升到了 2-√2。同時(shí)，在流算法的香農(nóng)熵（Shannon Entropy）估計(jì)中，AI 觀察到，算法其實(shí)只需依賴低階矩，從而避開(kāi)了高方差區(qū)域，這一洞察直接將內(nèi)部狀態(tài)變化的復(fù)雜度界限從多項(xiàng)式級(jí)大幅優(yōu)化至多對(duì)數(shù)級(jí)別。

此外，論文還證實(shí)，Gemini 已經(jīng)有能力重塑論文寫(xiě)作的全流程，甚至出現(xiàn)了“代碼化”論文寫(xiě)作的趨勢(shì)。例如，在理論計(jì)算機(jī)科學(xué)領(lǐng)域，著名的復(fù)雜性理論專家、Computational Complexity 博客博主蘭斯·福特諾（Lance Fortnow）嘗試使用集成了 AI 的 IDE 開(kāi)發(fā)環(huán)境，通過(guò)高層級(jí)的提示進(jìn)行“氛圍編程”（Vibe-coding）。

當(dāng)對(duì)復(fù)雜性類 SP2（涉及博弈論與計(jì)算復(fù)雜性）進(jìn)行研究時(shí)，Gemini 不僅可在幾乎沒(méi)有人工干預(yù)的情況下，自主生成關(guān)于搜索問(wèn)題與決策問(wèn)題等價(jià)性的主要證明，被指出推論中的假設(shè)錯(cuò)誤后，還迅速將證明策略修正為歸約法，幾乎獨(dú)立完成了一篇高質(zhì)量理論論文的初稿。

論文還在更多學(xué)科中考驗(yàn)了 Gemini 解決實(shí)際難題的能力。如在機(jī)制設(shè)計(jì)領(lǐng)域，AI 幫助將原論文中基于有理數(shù)報(bào)價(jià)的結(jié)論推廣到了實(shí)數(shù)域，利用拓?fù)鋵W(xué)和序理論替代了原有的計(jì)數(shù)性論證。

在信息論領(lǐng)域，AI 通過(guò)分析優(yōu)化圖景和利用超壓縮性不等式（Hypercontractivity），對(duì)著名的庫(kù)爾塔德-庫(kù)馬爾（Courtade-Kumar）猜想做出了實(shí)質(zhì)性貢獻(xiàn)，包括將其推廣到非平衡函數(shù)以及改進(jìn)了高噪聲區(qū)間的界限。

這一系列成果表明，前沿 AI 模型已經(jīng)具備了在理論科學(xué)中進(jìn)行實(shí)質(zhì)性貢獻(xiàn)的能力，而非簡(jiǎn)單的輔助工具。它不僅能優(yōu)化算法、推導(dǎo)公式，還能跨越學(xué)科壁壘，甚至從人類專家的盲點(diǎn)區(qū)域找到新的可能性。

然而，論文也強(qiáng)調(diào)，目前的這種成功仍高度依賴于人類專家的“腳手架”支持和嚴(yán)格驗(yàn)證，類似于目前已廣為人知的“Vibe-coding”，這種人機(jī)協(xié)作模式被形象地稱為“Vibe-proving”——即利用 AI 的直覺(jué)生成證明草稿，再由人類進(jìn)行嚴(yán)格審查。

為了徹底解決模型可能產(chǎn)生的幻覺(jué)問(wèn)題，未來(lái)的研究方向?qū)⑹怯美?Lean 或 Coq 等交互式定理證明器，將 AI 生成的非形式化數(shù)學(xué)推導(dǎo)轉(zhuǎn)化為絕對(duì)嚴(yán)謹(jǐn)?shù)男问交C明，從而在根本上保證科學(xué)發(fā)現(xiàn)的正確性，甚至有望得到同行評(píng)審的信任。

參考資料：

https://arxiv.org/pdf/2602.03837

排版：劉雅坤

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.