国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

頂級AI撞上低級烏龍:連寫幾十頁推導(dǎo),結(jié)果發(fā)現(xiàn)題干錯了?

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】Google DeepMind再次血洗數(shù)學(xué)圈!700個地獄級難題被丟進(jìn)Gemini的熔爐,結(jié)果讓數(shù)學(xué)家集體破防:這哪是證明,這分明是「邏輯拆遷」。DeepMind這一波不僅貼臉爆殺了OpenAI,還砸爛了人類所有的優(yōu)越感。

幾百美金的懸賞,跨越半個世紀(jì)的死局。

20世紀(jì)最偉大的「題目魔術(shù)師」保羅·埃爾德什(PaulErd?s)生前留下了幾百個懸賞令,金額從50刀漲到5000刀。

50年里,無數(shù)數(shù)學(xué)天才熬禿了頭,也沒能拿走一分錢。

結(jié)果,Google DeepMind帶著名為Aletheia(真理女神)的怪獸進(jìn)場了。

上線僅7天,13道難題應(yīng)聲而碎。


論文鏈接:https://arxiv.org/abs/2601.22401

但最扎心的真相是:AI并不是比你更聰明,它只是比你更懂「洗稿」。

13/700的真相:AI真的在加速科學(xué)嗎?

「AI攻克百年數(shù)學(xué)難題」看起來很像爽文標(biāo)題,聽聽就行,別被帶了節(jié)奏。

數(shù)學(xué)這行只看硬指標(biāo)。DeepMind這次祭出的Aletheia,底色根本不是什么「天才數(shù)學(xué)家」,而是一個冷酷的「頂級邏輯洗煤廠」

這套邏輯極其殘酷,帶著一股子硅谷大廠KPI導(dǎo)向的血腥味:


初始的流量層里,裝著700個埃爾德什猜想。

隨后,Gemini開啟Deep Think模式,像不要錢一樣大規(guī)模灌入算力,得出200個候選方案。

然后,這200個候選人經(jīng)過自然語言驗證器,剔除邏輯不通的部分,最后只剩下63個。

最后,經(jīng)過專家級別的數(shù)學(xué)推演,得到13個真正具有數(shù)學(xué)原創(chuàng)意義的答案。


成功證明問題:Erd?s problem#1051

700個問題里只解答出13個,轉(zhuǎn)化率還不到2%。

其中,最具代表性的是對「Erd?s-1051」猜想中關(guān)于無理數(shù)分布的證明。

聽著很牛X,但DeepMind自己也承認(rèn),剩下的68.5%都是學(xué)術(shù)垃圾。


有些AI給出的證明過程長達(dá)幾百頁,讀起來像是東拼西湊的論文。

在整個過程中,Aletheia像一個「自動審稿員」。Gemini負(fù)責(zé)狂暴輸出,而驗證器負(fù)責(zé)冷酷拒絕。


Gemini DeepThink處理數(shù)學(xué)猜想具體過程:https://www.youtube.com/watch?v=Nmv4YxpbhU8

更諷刺的是,人類數(shù)學(xué)家復(fù)核后發(fā)現(xiàn),這13個所謂的「突破」,很大一部分屬于數(shù)學(xué)界的「低垂果實」——太繁瑣所以沒人想做。

一位參與評審的組合數(shù)學(xué)專家曾私下感嘆:

AI目前的強(qiáng)項不是創(chuàng)造,而是清掃。

只要算力管夠,這種靠暴力邏輯搜集、整理、強(qiáng)行出結(jié)果的路徑,AI基本無敵。

潛意識剽竊:AI數(shù)學(xué)家的「洗稿」藝術(shù)

在這次DeepMind的成果展示中,出現(xiàn)了一個讓學(xué)術(shù)界集體炸鍋的新名詞:潛意識剽竊。

簡單說,就是AI利用自己幾乎無限的硬盤,從某個犄角旮旯翻出一篇冷門論文,然后用現(xiàn)代的邏輯語言把它重新包裝了一遍。

最典型的翻車現(xiàn)場是關(guān)于Erd?s-1089猜想的證明。


當(dāng)時Aletheia給出了一個極其精妙的推導(dǎo),精妙到連幾個頂尖數(shù)學(xué)家都差點想給它頒獎。

但隨后,有人在數(shù)據(jù)庫的深層挖掘中發(fā)現(xiàn),這個所謂的「原創(chuàng)靈感」,與1981年一篇東歐冷門數(shù)學(xué)期刊上的論文高度重合。

這就是AI作為一個「黑盒」最讓人絕望的本能。

對AI來說,它并沒有原創(chuàng)和抄襲的概念。它只是在概率的指引下,把權(quán)重最高的Token組合在一起。

AI記住了所有你忘了的東西。當(dāng)它從千億級參數(shù)中提取出那個冷門關(guān)聯(lián)時,它自己都不知道是在致敬還是在白嫖。


GoogleDeepMind-Aletheia項目詳情,在此頁面可以找到更多具體輸出案例:https://github.com/google-deepmind/superhuman

只要喂的數(shù)據(jù)夠多,AI就能通過變換符號系統(tǒng)、調(diào)整推導(dǎo)步長,把一篇舊論文洗得像剛出爐的SCI。

菲爾茲獎得主陶哲軒一語道破:

AI并不是在做數(shù)學(xué),它是在對人類過往的智慧進(jìn)行大規(guī)模的歸納整合。

細(xì)思極恐。如果連數(shù)學(xué)這種硬核真理領(lǐng)域,AI都能靠「洗稿」蒙混過關(guān),那我們寫的行業(yè)報告、架構(gòu)方案、市場分析,在它眼里算什么?

大師也翻車:被詛咒的Erd?s-75號

接下來這個「Erd?s-75號靈異事件」,暴露出AI的智商硬傷。


這道題在數(shù)學(xué)圈臭名昭著,因為它被「詛咒」了。

1995年,埃爾德什在寫下這個猜想時,犯了一個低級邏輯錯誤,這道題題干就是錯的,是個偽命題。

魔幻的一幕發(fā)生了:Aletheia接手后,不僅沒發(fā)現(xiàn)題目有問題,反而憑借其狂暴的算力和自我博弈機(jī)制,硬生生地輸出了一份長達(dá)幾十頁、邏輯閉環(huán)的「完美證明」。

這種「邏輯狂奔」暴露了當(dāng)前AI的致命缺陷:

首先,AI缺乏審美與常識。它只會在符號框架內(nèi)找最優(yōu)解,卻根本分不清這個框架本身是不是一張廢紙。


其次,獎勵函數(shù)具有盲目性。AI的目標(biāo)是讓驗證器閉嘴。只要推導(dǎo)過程符合規(guī)則,結(jié)論哪怕再荒謬,它也敢一路狂飆到底。

最后發(fā)現(xiàn)Bug的,還得是那幫數(shù)學(xué)家。他們翻出1995年的手稿,一行行對完后得出結(jié)論:「這題出錯了,AI證的是個寂寞!

而這一點,恰恰是我們和AI競爭時的最后防線。AI能在幾毫秒內(nèi)跑完幾千公里的邏輯馬拉松,但它不知道終點線是不是畫在懸崖外面。

DeepMind貼臉開大:OpenAI的「數(shù)學(xué)公關(guān)戰(zhàn)」破產(chǎn)題

前陣子,OpenAI靠著o1在數(shù)學(xué)AIME考試?yán)锼⑵,宣稱AI已經(jīng)有了類似人類的「慢思考」能力。

但在DeepMind看來,那頂多算是一場極其成功的文獻(xiàn)開盒。

為了打臉OpenAI,Google專門在Aletheia的輸出分類里設(shè)立了一個很損的標(biāo)簽:「已知文獻(xiàn)關(guān)聯(lián)」。

它明擺著在諷刺OpenAI:你以為你解決了問題,其實你只是從訓(xùn)練集里翻出了標(biāo)準(zhǔn)答案。

而DeepMind表示,我不僅能證出來,我還能告訴你哪些是人類證過的、哪些是我洗稿洗出來的、哪些才是真正的原創(chuàng)。

這場「數(shù)學(xué)公關(guān)戰(zhàn)」撕開了大廠競爭的遮羞布。

OpenAI的數(shù)學(xué)能力很大程度上依賴于「題海戰(zhàn)術(shù)」,一旦遇到訓(xùn)練集之外的真命題就容易抓瞎。

而DeepMind走的是「AlphaGo路線」——自我博弈+形式化驗證(Lean),寧可轉(zhuǎn)化率只有2%,也要確保這13個成果是硬通貨。


DeepMind官方技術(shù)文檔:Aletheia用于數(shù)學(xué)的自我對弈與形式化證明

數(shù)學(xué)界的「掃地僧」陶哲軒一直關(guān)注著這場博弈。

他在自己的他在博客里含蓄地表示:相比于追求「看起來正確」的概率模型,他更看好那種能生成「可由計算機(jī)驗證證明」的系統(tǒng)。

這等于是給DeepMind站了臺。

瓶頸位移:從「解題機(jī)器」到「審美法官」

折騰了半天,這場13/700的戰(zhàn)役到底告訴了我們什么?

是——數(shù)學(xué)發(fā)現(xiàn)的瓶頸,正在從「解題能力」位移到「價值判定」。

這種范式轉(zhuǎn)移,預(yù)示了未來所有硬核從業(yè)者的兩種求生路徑:

一種是從「操作員」變成「審美法官」。

既然AI能以極低成本生成海量邏輯證明,人類的價值就不再是去復(fù)核每一個符號,而是運用直覺和審美,去判斷哪個方向才有真正的科學(xué)突破。

另一種形態(tài)是邏輯審計員。

面對潛意識剽竊和大師Bug,人類需要利用對歷史的精通,去甄別AI到底是真天才,還是個洗稿高手。

AI能在幾毫秒內(nèi)重走完人類幾千年的邏輯之路,但它依然讀不懂人類在深夜推演失敗時,那份撕掉草稿紙的無奈。

邏輯可以代工,但靈魂和審美,AI暫時還沒學(xué)會怎么洗。

參考資料:

https://x.com/quocleix/status/2018402933193539735?s=20

https://arxiv.org/abs/2601.22401


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
5月1日起,抽煙,買煙全變天!違規(guī)直接重罰,煙民、商家必看

5月1日起,抽煙,買煙全變天!違規(guī)直接重罰,煙民、商家必看

王二哥老搞笑
2026-05-05 21:10:10
剛剛,全體默哀!已致26死61傷!自5月4日19時起,長沙市所有煙花爆竹生產(chǎn)企業(yè),全面停產(chǎn)整頓

剛剛,全體默哀!已致26死61傷!自5月4日19時起,長沙市所有煙花爆竹生產(chǎn)企業(yè),全面停產(chǎn)整頓

浙江之聲
2026-05-05 15:50:01
研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險增高!

研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險增高!

黯泉
2026-05-03 20:25:37
墨菲對英國斯諾克前景憂心忡忡:中國現(xiàn)在有二三十個年輕天才球手

墨菲對英國斯諾克前景憂心忡忡:中國現(xiàn)在有二三十個年輕天才球手

楊華評論
2026-05-05 20:44:18
溫州一網(wǎng)紅景區(qū)!排隊!排隊!

溫州一網(wǎng)紅景區(qū)!排隊!排隊!

大永強(qiáng)
2026-05-05 11:18:20
高市早苗在澳大利亞這一跪,跪出了日本最丑陋的一面!

高市早苗在澳大利亞這一跪,跪出了日本最丑陋的一面!

朋筆生輝
2026-05-05 15:10:25
一女游客體驗景區(qū)懸崖秋千項目高空墜落,景區(qū)公告臨時閉園,當(dāng)?shù)鼗貞?yīng)

一女游客體驗景區(qū)懸崖秋千項目高空墜落,景區(qū)公告臨時閉園,當(dāng)?shù)鼗貞?yīng)

極目新聞
2026-05-05 18:58:13
直線拉升!套現(xiàn)約455億,李嘉誠又賣了

直線拉升!套現(xiàn)約455億,李嘉誠又賣了

中國基金報
2026-05-05 17:19:50
游客墜落前喊了兩遍“沒綁緊”,視頻中有人笑,整個過程不到20秒

游客墜落前喊了兩遍“沒綁緊”,視頻中有人笑,整個過程不到20秒

魔都姐姐雜談
2026-05-05 22:13:52
強(qiáng)詞奪理!“中國不應(yīng)獲得最先進(jìn)芯片,美國才應(yīng)領(lǐng)先”

強(qiáng)詞奪理!“中國不應(yīng)獲得最先進(jìn)芯片,美國才應(yīng)領(lǐng)先”

觀察者網(wǎng)
2026-05-05 18:52:05
為什么不能取消公務(wù)員周末休息?這樣老百姓辦事就不用請假了!你怎么看?

為什么不能取消公務(wù)員周末休息?這樣老百姓辦事就不用請假了!你怎么看?

碧翰烽
2026-05-05 07:50:33
突發(fā)!日本航空拿下宇樹科技

突發(fā)!日本航空拿下宇樹科技

互聯(lián)網(wǎng)品牌官
2026-05-05 17:32:49
央視不播世界杯?國際足聯(lián)正式回應(yīng)

央視不播世界杯?國際足聯(lián)正式回應(yīng)

果媽聊娛樂
2026-05-05 21:02:05
97年我對女老師說我喜歡她,她紅著臉說:考上重點大學(xué)我就嫁給你

97年我對女老師說我喜歡她,她紅著臉說:考上重點大學(xué)我就嫁給你

千秋文化
2026-05-02 19:36:54
伊朗總統(tǒng)辦公室官員否認(rèn)總統(tǒng)辭職傳聞

伊朗總統(tǒng)辦公室官員否認(rèn)總統(tǒng)辭職傳聞

新華社
2026-05-05 23:07:08
女鄰居讓我?guī)退与娋,黑暗中我們抱到了一起,但她沒有松手

女鄰居讓我?guī)退与娋,黑暗中我們抱到了一起,但她沒有松手

千秋文化
2026-05-04 18:34:54
國際乒聯(lián)親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

國際乒聯(lián)親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

以茶帶書
2026-05-05 17:10:10
出任主教練,王楠正式回歸,體育局官宣,級別年薪曝光

出任主教練,王楠正式回歸,體育局官宣,級別年薪曝光

乒乓網(wǎng)國球匯
2026-05-06 00:04:29
壓力來了!21死61傷!瀏陽一煙花廠爆炸上熱搜,禁煙花的呼聲再起

壓力來了!21死61傷!瀏陽一煙花廠爆炸上熱搜,禁煙花的呼聲再起

火山詩話
2026-05-05 11:09:50
歐洲情報聲稱:普京已在地下掩體度過數(shù)周,并禁止工作人員用手機(jī)

歐洲情報聲稱:普京已在地下掩體度過數(shù)周,并禁止工作人員用手機(jī)

激情與榮耀并存
2026-05-05 15:34:41
2026-05-06 04:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15136文章數(shù) 66837關(guān)注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

頭條要聞

媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

頭條要聞

媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

體育要聞

全世界都等著看他笑話,他帶國米拿下冠軍

娛樂要聞

內(nèi)娛真情誼!楊紫為謝娜演唱會送花籃

財經(jīng)要聞

瀏陽煙花往事

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

健康
旅游
親子
藝術(shù)
本地

干細(xì)胞治燒燙傷面臨這些“瓶頸”

旅游要聞

女子體驗瀑布秋千受傷后送醫(yī)途中離世 官方通報

親子要聞

這個五一,帶寶寶來北?春@病y灘細(xì)沙海浪,是小朋友最愛的天

藝術(shù)要聞

AI應(yīng)用“豆包”要收費,第一批“韭菜”是誰?

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進(jìn)入關(guān)懷版