国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT獨立破解數(shù)論猜想的背后:答案藏在80年前的論文里

0
分享至

1 月 18 日,一位前量化研究員尼爾·索馬尼(Neel Somani)在社交平臺宣布,他借助 GPT-5.2 Pro 獨立解決了 Erd?s 問題第 281 號(Problem 281)。這是一個自 1980 年由數(shù)學(xué)家保羅·埃爾德什(Paul Erd?s)與葛立恒(Ronald Graham)提出后,長期未被公開解答的數(shù)學(xué)猜想。

索馬尼稱,該證明已獲得菲爾茲獎得主陶哲軒的認(rèn)可,后者評價其“或許是迄今人工智能解決未解數(shù)學(xué)問題最明確的例子”。


(來源 :erdosproblem)

OpenAI 聯(lián)合創(chuàng)始人格雷格·布羅克曼(Greg Brockman)隨即轉(zhuǎn)發(fā)并評論:“GPT-5.2 Pro 用于解決另一個未解決的 Erd?s 問題。數(shù)學(xué)和科學(xué)的進(jìn)步將是充滿活力的一年!”一時間,“AI 獨立攻克 45 年數(shù)學(xué)難題”的消息在社交媒體上廣泛傳播。


(來源:X)

這并非索馬尼首次用 AI 工具解決 Erd?s 問題。幾天前,他剛提交了對 Problem 397 的證明——一個關(guān)于中心二項式系數(shù)乘積的猜想。該證明同樣由 GPT-5.2 Pro 生成,并通過形式化驗證工具 Harmonic 的 Aristotle 系統(tǒng)轉(zhuǎn)換為 Lean 代碼,經(jīng)陶哲軒確認(rèn)為正確。

索馬尼原本只是想測試一下大語言模型的數(shù)學(xué)能力,看看它們在何時能有效解決開放數(shù)學(xué)問題、又在哪里會遇到困難,卻意外發(fā)現(xiàn)最新模型的能力邊界已顯著提升。

幾天之內(nèi),大模型連續(xù)解決兩個多年未解的“難題”。有評論不禁疑問:這是否意味著 AI 的數(shù)學(xué)能力已達(dá)到了人類數(shù)學(xué)家的水平?

要回答這個問題,或許需要先理解什么是“Erd?s 問題”。

保羅·埃爾德什(Paul Erd?s)什是 20 世紀(jì)最多產(chǎn)的數(shù)學(xué)家之一,一生發(fā)表論文逾 1,500 篇。他習(xí)慣提出數(shù)學(xué)猜想,并根據(jù)難度懸賞 25 至數(shù)千美元不等。他去世后留下超過一千個未解問題,涵蓋數(shù)論、組合學(xué)、圖論等多個領(lǐng)域,統(tǒng)稱為“Erd?s 問題”。這些問題目前由劍橋大學(xué)數(shù)學(xué)家托馬斯·布魯姆(Thomas Bloom)維護(hù)的網(wǎng)站 erdosproblems.com 追蹤記錄。


圖 | 保羅·埃爾德什與10歲的陶哲軒 (來源:Wikipedia)

然而,這些未解問題的難度跨度極大:一端是公認(rèn)的核心難題,另一端則是大量長期無人關(guān)注的“長尾問題”。它們并非無解,只是缺乏足夠研究動力。

自 2025 年圣誕節(jié)以來,該網(wǎng)站已有 15 個問題從“開放”轉(zhuǎn)為“已解決”,其中 11 個涉及 AI 模型的參與。但并非所有“AI 解決”都具原創(chuàng)性。2025 年 10 月,OpenAI 曾宣稱 GPT-5 解決了十個 Erd?s 問題,后被布魯姆澄清為烏龍事件:那些 GPT-5 生成的答案實為模型通過網(wǎng)絡(luò)搜索復(fù)現(xiàn)了早已存在的論文成果,并非新發(fā)現(xiàn)。


圖 | 布魯姆回復(fù)OpenAI CPO (來源:X )

真正的轉(zhuǎn)折點出現(xiàn)在 2026 年 1 月初。劍橋大學(xué)本科生凱文·巴雷托(Kevin Barreto)與業(yè)余數(shù)學(xué)家利亞姆·普賴斯(Liam Price)共同宣布使用 GPT-5.2 Pro 解決了 Problem 728。陶哲軒稱這是“第一個在原問題精神下、以文獻(xiàn)中未曾記載的方式被 AI 基本自主解決的 Erd?s 問題”,并評價其“或多或少是由 AI 自主完成的”,真實地體現(xiàn)了“這些工具近幾個月的能力提升”。

那么,此次引發(fā)熱議的 Problem 281 情況如何?

該問題涉及整數(shù)序列在同余類中的密度性質(zhì)。索馬尼發(fā)布的 GPT-5.2 Pro 證明采用了遍歷理論(ergodic theory)的框架。陶哲軒確認(rèn)其邏輯正確,并特別指出:“它避免了在極限或量詞交換時常見的錯誤,前幾代大語言模型幾乎肯定會在這些微妙之處出錯。”


圖 | 陶哲軒對于Problem 281的回復(fù)(來源:erdosproblem)

然而,就在討論熱烈進(jìn)行時,論壇用戶 KoishiChan 發(fā)帖指出:這個問題實際上可以通過 1966 年的 Rogers 定理,結(jié)合 Halberstam–Roth 著作中的 Theorem 12 直接解決。他還找到了一份存檔文獻(xiàn),更清晰地闡述了這一論證路徑。

陶哲軒順著線索進(jìn)一步追溯,發(fā)現(xiàn)這一解法的核心其實源自 1936 年劍橋數(shù)學(xué)家達(dá)文波特(Davenport)與埃爾德什本人合著的一篇論文。他在論壇上寫道:“現(xiàn)在我真的很困惑,在同余領(lǐng)域深耕多年,埃爾德什在 1980 年肯定知道這兩個定理,而且他還是后一個結(jié)果的共同作者。我不知道發(fā)生了什么。因為一旦了解 Rogers 定理,將其應(yīng)用于這個問題是非常自然的;事實上,這個問題幾乎就是 Davenport–Erd?s 結(jié)果的一個特例?!?/p>


(來源:scite_)

隨后,陶哲軒與數(shù)學(xué)家特南鮑姆(Tenenbaum)進(jìn)行了郵件交流,后者是埃爾德什長期的合作對象。特南鮑姆確認(rèn):“如果使用這兩個定理,可以立竿見影地解決問題?!彼茰y,“現(xiàn)有的問題的表述可能在某個環(huán)節(jié)被修改過”,但目前尚未發(fā)現(xiàn)任何關(guān)于原始意圖的替代版本,只能按現(xiàn)有表述來。KoishiChan 則半開玩笑地評論:“也許有人在雞尾酒會上告訴了埃爾德什這個解法,但沒人繼續(xù)研究它?!?/p>

陶哲軒在論壇總結(jié)道,Problem 281 之所以未解,背后的原因主要是因為Rogers 定理“沒有得到應(yīng)有的傳播”:該結(jié)果僅出現(xiàn)在 Halberstam–Roth 的專著中,從未以獨立論文形式發(fā)表,文獻(xiàn)中也僅被引用過寥寥數(shù)次。

換言之,GPT-5.2 Pro 的貢獻(xiàn)其實并非解決了一個真正未解的難題,而是用一種新方法——遍歷理論,去重新證明了一個早已可解、卻因文獻(xiàn)傳播有限而被長期遺忘的問題。類似情況此前也出現(xiàn)在 Problem 333 等案例中:AI 擅長調(diào)用標(biāo)準(zhǔn)工具,高效解決那些“人類早就能解、只是長期無人關(guān)注”的問題。

更重要的是,就在討論聲愈發(fā)熱烈的當(dāng)天,陶哲軒還在發(fā)帖提醒公眾需要警惕“報告偏差”(reporting bias)。他在 Mathsodon 上寫道:“當(dāng)研究者用 AI 嘗試解題卻失敗時,幾乎不會公開結(jié)果;而成功案例則極易在社交媒體病毒式傳播。因此,我們看到的‘AI 連續(xù)攻克難題’印象,嚴(yán)重偏向正面?!?/p>


(來源:Mathstodon)

為糾正這一偏差,他推廣了數(shù)學(xué)家帕阿塔·伊萬尼什維利(Paata Ivanisvili)與梅赫梅特·馬爾斯·塞文(Mehmet Mars Seven)建立的數(shù)據(jù)庫,系統(tǒng)記錄 AI 嘗試解決 Erd?s 問題的全部結(jié)果。數(shù)據(jù)顯示:AI 工具的真實成功率僅在 1% 到 2% 之間。


(來源:GitHub)

陶哲軒評論道:“盡管如此,考慮到仍有六百多個未解問題,這仍帶來了一組令人印象深刻且非平凡的貢獻(xiàn)。但這些成功壓倒性地集中在難度譜的低端,尚未觸及中等難度問題。”

業(yè)內(nèi)人士對此有不同的看法。Harmonic 公司創(chuàng)始人圖多爾·阿希姆(Tudor Achim)指出:“真正有說服力的證據(jù),不是媒體報道,也不是成功率,而是數(shù)學(xué)和計算機(jī)科學(xué)教授們開始在實際研究中使用這些工具的事實。他們有聲譽(yù)要維護(hù),不會輕易背書?!痹摴鹃_發(fā)的 Aristotle 工具能將自然語言證明自動轉(zhuǎn)為 Lean 形式化代碼,在 AI 輔助數(shù)學(xué)研究中扮演關(guān)鍵角色。

Erd?s 網(wǎng)站維護(hù)者布魯姆則對當(dāng)前大模型的進(jìn)步速度表示樂觀:“目前被 AI 解決的問題,難度大概相當(dāng)于一年級博士生水平。這仍然令人印象深刻——因為要做到這一點,需要不一般的推理能力。”他還提到,2025 年 10 月前,他嘗試用 ChatGPT 時“只會編造論文,全是幻覺”,但“大約從 10 月起,某種實質(zhì)性變化發(fā)生了”。

誠然,GPT-5.2 Pro 在數(shù)學(xué)推理上的進(jìn)步是真實的:它能生成邏輯嚴(yán)密、規(guī)避常見錯誤的證明,這在一年前不可想象。并且,它在系統(tǒng)性挖掘被忽視的長尾問題、輔助文獻(xiàn)檢索與形式化驗證方面展現(xiàn)出實用價值。

但同樣重要的是:不要被社交媒體的選擇性敘事誤導(dǎo)。所謂“45 年未解”,很多時候只是45 年無人關(guān)注、無人挖掘;1%–2% 的成功率,遠(yuǎn)非AI 已掌握數(shù)學(xué)的信號。中等及以上難度的 Erd?s 問題,目前仍遠(yuǎn)超當(dāng)前 AI 的能力范圍。

1.https://mathstodon.xyz/@tao

2.https://www.erdosproblems.com/forum/thread/2

3.https://mehmetmars7.github.io/Erdosproblems-llm-hunter/index.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
演都不演了?李國慶給李亞鵬捐款不到24小時,惡心的一幕出現(xiàn)了

演都不演了?李國慶給李亞鵬捐款不到24小時,惡心的一幕出現(xiàn)了

天天熱點見聞
2026-01-20 05:41:04
字節(jié)全球首發(fā)AI技能商店:一句話生成Coze Skills,你的經(jīng)驗直接賣錢

字節(jié)全球首發(fā)AI技能商店:一句話生成Coze Skills,你的經(jīng)驗直接賣錢

新智元
2026-01-19 12:38:07
與澳大利亞、庫拉索、喀麥隆同組,國際足聯(lián)確認(rèn)國足參加FIFA系列賽

與澳大利亞、庫拉索、喀麥隆同組,國際足聯(lián)確認(rèn)國足參加FIFA系列賽

北青網(wǎng)-北京青年報
2026-01-19 22:14:03
美國將烏軍情報傳遞俄方是真是假?

美國將烏軍情報傳遞俄方是真是假?

史政先鋒
2026-01-20 13:53:28
2026年第一個大騙子的輝煌戰(zhàn)績!

2026年第一個大騙子的輝煌戰(zhàn)績!

梳子姐
2026-01-19 14:19:44
2026年春節(jié),要暖到離譜!大年初一撞上七九,老輩人:60年頭回見,今年逛廟會不用穿棉襖了

2026年春節(jié),要暖到離譜!大年初一撞上七九,老輩人:60年頭回見,今年逛廟會不用穿棉襖了

美食格物
2026-01-19 16:01:15
部隊退役我當(dāng)了獄警,給一個死刑犯剃頭時,認(rèn)出他是失蹤多年的隊長

部隊退役我當(dāng)了獄警,給一個死刑犯剃頭時,認(rèn)出他是失蹤多年的隊長

浮生實錄集
2025-09-18 15:10:05
演員郝蕾年輕時舊照曝光,無美顏無濾鏡,絕對的純天然大美妞

演員郝蕾年輕時舊照曝光,無美顏無濾鏡,絕對的純天然大美妞

草莓解說體育
2026-01-20 11:57:09
兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

李云飛Afey
2026-01-20 11:43:34
1936 年被俘國民黨中將走完長征,到延安后偉人揮手讓他回去

1936 年被俘國民黨中將走完長征,到延安后偉人揮手讓他回去

嘮叨說歷史
2026-01-12 14:59:24
慘叫出聲!JB重傷,37歲庫里面如死灰...

慘叫出聲!JB重傷,37歲庫里面如死灰...

體育新角度
2026-01-20 15:05:16
誰是廣東省衛(wèi)健委下屬規(guī)模最大的醫(yī)院?

誰是廣東省衛(wèi)健委下屬規(guī)模最大的醫(yī)院?

王曉愛體彩
2026-01-20 10:34:01
追夢:不同意文班力壓阿夫迪亞入選全明星首發(fā),后者讓開拓者脫胎換骨

追夢:不同意文班力壓阿夫迪亞入選全明星首發(fā),后者讓開拓者脫胎換骨

懂球帝
2026-01-20 14:05:09
皇馬偷著樂!阿森納6400萬鎊引援成水貨,皇馬早看穿本質(zhì)果斷棄簽

皇馬偷著樂!阿森納6400萬鎊引援成水貨,皇馬早看穿本質(zhì)果斷棄簽

夜白侃球
2026-01-19 21:40:38
今晚早點回家!廣州多區(qū)寒冷預(yù)警已生效

今晚早點回家!廣州多區(qū)寒冷預(yù)警已生效

FM96.2廣州新聞電臺
2026-01-20 15:19:16
央視曝光“毒鐵鍋”,用它炒菜,美食變“毒藥”,很多人還在用!

央視曝光“毒鐵鍋”,用它炒菜,美食變“毒藥”,很多人還在用!

阿纂看事
2026-01-17 09:41:12
調(diào)整!1月20日晚間央視直播亞洲杯有變,國足沖決賽,約戰(zhàn)日本!

調(diào)整!1月20日晚間央視直播亞洲杯有變,國足沖決賽,約戰(zhàn)日本!

皮皮觀天下
2026-01-20 12:09:00
面對預(yù)制菜風(fēng)波,和府撈面選擇沉默,生意火爆,較真的西貝卻黃了

面對預(yù)制菜風(fēng)波,和府撈面選擇沉默,生意火爆,較真的西貝卻黃了

水晶的視界
2026-01-20 07:59:56
接住169萬的頭彩!南京人抽中查干湖“頭魚”,國宴主廚上門開魚烹宴

接住169萬的頭彩!南京人抽中查干湖“頭魚”,國宴主廚上門開魚烹宴

揚(yáng)子晚報
2026-01-19 20:43:59
驚爆!詹姆斯飆到第一!布朗尼也有收獲

驚爆!詹姆斯飆到第一!布朗尼也有收獲

體育新角度
2026-01-20 15:51:53
2026-01-20 16:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16149文章數(shù) 514505關(guān)注度
往期回顧 全部

科技要聞

去年預(yù)虧60億后再投百億 兩大車企緊抱華為

頭條要聞

特朗普:格陵蘭島非常重要 北約若離開了美國啥也不是

頭條要聞

特朗普:格陵蘭島非常重要 北約若離開了美國啥也不是

體育要聞

新的時代!東契奇首奪全明星票王 詹姆斯落選首發(fā)

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

財政部:財政總體支出力度"只增不減"

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

時尚
旅游
家居
藝術(shù)
本地

碼住抄作業(yè)!春節(jié)見人不翻車就靠這8樣!

旅游要聞

【圖游天下 發(fā)現(xiàn)上?!砍蓖婀茸訍酆谜呒?!上海四大必逛商場等你來打卡

家居要聞

雋永之章 清雅無塵

藝術(shù)要聞

截至2026年,中國已建成的十大摩天樓

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

無障礙瀏覽 進(jìn)入關(guān)懷版