国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超越IMO金牌?谷歌創(chuàng)超難FirstProof數(shù)學(xué)挑戰(zhàn)新紀(jì)錄

0
分享至

去年 7 月的 IMO 數(shù)學(xué)奧林匹克競賽中,兩大人工智能公司搶奪競賽「金牌」成績的鬧劇搞得沸沸揚(yáng)揚(yáng)。

當(dāng)時 OpenAI 和 谷歌 同時聲稱取得競賽金牌,而 OpenAI 因,遭到廣泛吐槽;谷歌 DeepMind 的 Gemini 進(jìn)階模型。

競賽與真正的數(shù)學(xué)研究之間,仍然存在一道明顯的分界線。

在此之后,AI 智能體飛速發(fā)展,解決數(shù)學(xué)問題的能力不再僅依靠模型的推理能力。AI 智能體已經(jīng)可以開始自己做數(shù)學(xué),不只是解題,更能夠進(jìn)行數(shù)學(xué)研究,而且研究的還是頂尖數(shù)學(xué)家都要撓頭的問題,這意味著什么?

近日,來自谷歌 DeepMind ,由 Gemini 3 Deep Think 驅(qū)動的最新數(shù)學(xué)研究智能體 Aletheia 在首屆 FirstProof 挑戰(zhàn)中,自主解決了 10 道高難度研究問題中的 6 道,成為創(chuàng)下了該數(shù)學(xué)挑戰(zhàn)賽的最佳紀(jì)錄。


曾帶隊實現(xiàn) AI IMO 金牌成績的 DeepMind 超人類推理方向負(fù)責(zé)人 Thang Luong 表示,這一成果的分量超過去年 AI 在 IMO 測試中獲得金牌的表現(xiàn)。

相關(guān)論文《Aletheia tackles FirstProof autonomously》已發(fā)布在 arXiv,并且團(tuán)隊在 Github 上公開了解決 FirstProof 問題的提示詞與輸出結(jié)果。


  • 論文標(biāo)題:Aletheia tackles FirstProof autonomously

  • 論文鏈接:https://arxiv.org/pdf/2602.21201

  • 提示詞與輸出結(jié)果:https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof:把 AI 放進(jìn)真實的數(shù)學(xué)研究現(xiàn)場

FirstProof 是一項專門為評估 AI 數(shù)學(xué)研究能力而設(shè)計的實驗性挑戰(zhàn)。項目由多位活躍在不同數(shù)學(xué)分支的一線研究者發(fā)起,題目全部來自真實科研過程中的命題,被提出作為評估當(dāng)前人工智能能力的測試。

這些問題挑戰(zhàn)啟動前從未公開證明,組織方提前將標(biāo)準(zhǔn)證明加密保存,以盡量排除訓(xùn)練數(shù)據(jù)泄露的可能。最終提交的答案,需要由領(lǐng)域?qū)<胰斯忛?/strong>,判斷其邏輯嚴(yán)密性與學(xué)術(shù)可接受度。評價標(biāo)準(zhǔn)接近論文審稿,而非自動判分。

這種設(shè)計刻意提高了門檻。它測試的,是 AI 在陌生問題上進(jìn)行長期推理與結(jié)構(gòu)構(gòu)造的能力。換句話說,F(xiàn)irstProof 關(guān)心的,是系統(tǒng)是否具備參與數(shù)學(xué)研究的潛力。

這些問題于 2026 年 2 月 5 日發(fā)布,并設(shè)定了截止時間為太平洋時間 2026 年 2 月 13 日晚上 11:59 ,解決方法在截止后在互聯(lián)網(wǎng)上發(fā)布。

這項評估本身極其困難,能夠真正理解這些問題的專家屈指可數(shù)。關(guān)鍵的一點是:Aletheia 的所有解答均在沒有任何人工干預(yù)的情況下生成,并且在 FirstProof 挑戰(zhàn)規(guī)定的時間范圍內(nèi)提交。



研究團(tuán)隊執(zhí)行整體流程

FirstProof 的第一作者確認(rèn)了這一事實:


研究團(tuán)隊運(yùn)行了兩個版本的 Aletheia(兩者僅在底層基礎(chǔ)模型上有所不同),它們都由 Gemini DeepThink 提供支持。綜合多數(shù)專家評審意見,這兩個系統(tǒng)共同解決了 10 道題中的 6 道(第 2、5、7、8、9、10 題)。我們注意到,專家們對第 8 題的評估并不完全一致。



Aletheia 在 FirstProof 上的性能總結(jié)。專家評估列顯示了在咨詢的總專家人數(shù)中,有多少專家將解決方案評為正確。僅在 P8 上的評估不是一致的。

Aletheia 的「解題分析」

兩個智能體在同樣的 FirstProof 十個問題的執(zhí)行結(jié)果如下所示:


在 FirstProof 的 10 道問題中,Aletheia 為其中 6 道題(P2、P5、P7、P8、P9、P10)生成了候選解答。在「best-of-2」的評估設(shè)置下,根據(jù)多數(shù)專家的評審意見,這 6 道題都被認(rèn)定為在該解釋框架下已正確解決。

Aletheia A 與 Aletheia B 針對相同的六道題目都生成了候選解答。單獨來看,每個智能體都至少出現(xiàn)過一次「假陽性」(false positive),但在 best-of-2 的評估機(jī)制下,它們共同為六道題目都提供了可信的解答。這一結(jié)果相比 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本,在準(zhǔn)確率上有明顯提升。

不過,P8 的評估并非一致通過 ——7 位專家中有 5 位給出了「Correct」的評價。對于另外 4 道題(P1、P3、P4、P6),兩個智能體都沒有給出解答:要么明確輸出「No solution found」(未找到解答),要么在時間限制內(nèi)沒有返回任何結(jié)果。

研究團(tuán)隊認(rèn)為,Aletheia 具備一種「自我篩選」機(jī)制,這也是 Aletheia 的關(guān)鍵設(shè)計原則之一。

在將 AI 擴(kuò)展為數(shù)學(xué)研究助手的過程中,可靠性才是首要瓶頸。如果智能體給出錯誤的「幻覺」答案,會極度浪費人類專家用于驗證結(jié)果的時間與精力,與提高研究效率和自動化的目標(biāo)背道而馳。

此外,解決問題的推理成本也是非常重要的指標(biāo)。


在圖中展示了每個候選解的推理成本,并將其表示為相對于 Erd?s-1051 解答推理成本的倍數(shù)。不難發(fā)現(xiàn),Aletheia 在所有問題上,推理成本都高于 Erd?s-1051。

尤其是 P7,其推理成本比此前觀察到的規(guī)模高出一個數(shù)量級。研究者稱,這一方面是因為 Generator 子智能體在生成候選解時消耗了大量計算資源,另一方面是因為需要更多輪交互才能通過 Verifier 子智能體的驗證。

總結(jié)

數(shù)學(xué)研究包含多個環(huán)節(jié):提出問題、建立框架、尋找關(guān)鍵結(jié)構(gòu)、完成證明。當(dāng)前系統(tǒng)顯然還無法全面承擔(dān)所有角色,但它已經(jīng)開始在證明與驗證環(huán)節(jié)發(fā)揮作用。

未來的研究場景或許會發(fā)生變化。人類研究者提出方向與核心思想,AI 負(fù)責(zé)高強(qiáng)度的路徑搜索與形式化驗證,再由人類進(jìn)行理論整合與升華。這種協(xié)作模式,正在逐漸成形。

數(shù)學(xué)長期以來被視為人類理性能力的高地。如今,AI 正在這里取得實質(zhì)性突破。當(dāng)機(jī)器開始穩(wěn)定地完成研究級證明,我們或許需要重新思考一個問題:

在未來的數(shù)學(xué)論文作者名單中,AI 會以什么身份出現(xiàn)?

? THE END

文章來源:機(jī)器之心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
燃盡了!巴薩3-0大勝馬競!止步國王杯半決賽,拼盡全力不負(fù)熱愛

燃盡了!巴薩3-0大勝馬競!止步國王杯半決賽,拼盡全力不負(fù)熱愛

球叮足球
2026-03-04 09:28:05
浙大研究:喜歡吃面大量放醋的人,不出半年,血管或有3個變化!

浙大研究:喜歡吃面大量放醋的人,不出半年,血管或有3個變化!

搖感軍事
2025-12-12 22:05:56
痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

離離言幾許
2026-02-25 10:43:45
看上海外婆,再看北京姥姥,我悟了:老了盡量少戴黃金、穿老年裝

看上海外婆,再看北京姥姥,我悟了:老了盡量少戴黃金、穿老年裝

孤傲何妨初
2026-03-03 14:35:38
空手套白狼!幾乎沒有代價,喜獲三位優(yōu)質(zhì)球員,這才是頂級管理層

空手套白狼!幾乎沒有代價,喜獲三位優(yōu)質(zhì)球員,這才是頂級管理層

禾三千體育
2026-03-04 08:58:08
王炸落地!北京2026地鐵狂飆,跨省直通河北,百萬通勤族苦盡甘來

王炸落地!北京2026地鐵狂飆,跨省直通河北,百萬通勤族苦盡甘來

黑哥講現(xiàn)代史
2026-03-04 04:43:40
永遠(yuǎn)不要攻擊孩子的人格:毀掉一個孩子,這幾句話就夠了

永遠(yuǎn)不要攻擊孩子的人格:毀掉一個孩子,這幾句話就夠了

木言觀
2026-02-09 21:59:55
伊朗重生:德黑蘭的“屈服”與新中東的誕生

伊朗重生:德黑蘭的“屈服”與新中東的誕生

民間胡扯老哥
2026-03-03 07:01:21
C羅或已離開沙特!價值6100萬鎊的私人飛機(jī),已抵達(dá)馬德里

C羅或已離開沙特!價值6100萬鎊的私人飛機(jī),已抵達(dá)馬德里

懂個球
2026-03-03 16:49:28
盯上了“下一個安世”?荷蘭嘗到甜頭后,準(zhǔn)備再次對華虎口奪食?

盯上了“下一個安世”?荷蘭嘗到甜頭后,準(zhǔn)備再次對華虎口奪食?

小影的娛樂
2026-03-03 19:13:45
再見開拓者!22.7分5.6籃板新星被裁!楊瀚森呀楊瀚森!說你啥呢

再見開拓者!22.7分5.6籃板新星被裁!楊瀚森呀楊瀚森!說你啥呢

現(xiàn)代小青青慕慕
2026-03-03 10:57:39
豆包推薦:人生回報率最高的8件事,盡早“焊死”在孩子身上

豆包推薦:人生回報率最高的8件事,盡早“焊死”在孩子身上

十點讀書
2026-02-20 18:37:13
貧窮限制了我的想象,中東戰(zhàn)火燃起,又炸出娛樂圈的一大波有錢人

貧窮限制了我的想象,中東戰(zhàn)火燃起,又炸出娛樂圈的一大波有錢人

魔都姐姐雜談
2026-03-03 10:25:53
哈梅內(nèi)伊死得不冤!內(nèi)賈德早就提醒過政府,伊朗高層內(nèi)有大內(nèi)奸

哈梅內(nèi)伊死得不冤!內(nèi)賈德早就提醒過政府,伊朗高層內(nèi)有大內(nèi)奸

欽點歷史
2026-03-04 09:12:51
這一次,伊朗領(lǐng)導(dǎo)人的慘痛遭遇,再一次印證了毛主席的高瞻遠(yuǎn)矚

這一次,伊朗領(lǐng)導(dǎo)人的慘痛遭遇,再一次印證了毛主席的高瞻遠(yuǎn)矚

夢史
2026-03-02 11:21:33
凌晨2點浦東機(jī)場!4個18歲女孩差2分鐘飛泰國,看完后背發(fā)涼

凌晨2點浦東機(jī)場!4個18歲女孩差2分鐘飛泰國,看完后背發(fā)涼

瓜哥的動物日記
2026-03-03 01:09:36
華裔天才少年成百億富翁,曾獻(xiàn)計特朗普,阻止中國AI技術(shù)搶跑

華裔天才少年成百億富翁,曾獻(xiàn)計特朗普,阻止中國AI技術(shù)搶跑

明天見灌裝冰塊
2026-03-03 20:21:29
劉亦菲至今未婚:不是沒人追,是她身上根本沒有“性緣氣質(zhì)”

劉亦菲至今未婚:不是沒人追,是她身上根本沒有“性緣氣質(zhì)”

手工制作阿殲
2026-03-03 04:00:24
柯文哲曾言:大陸若膽敢對臺灣出手,我隨隨便便就能讓大陸癱瘓?

柯文哲曾言:大陸若膽敢對臺灣出手,我隨隨便便就能讓大陸癱瘓?

鯨探所長
2026-02-25 09:33:46
伊朗之戰(zhàn),正出現(xiàn)三個新動向

伊朗之戰(zhàn),正出現(xiàn)三個新動向

牛彈琴
2026-03-04 08:11:49
2026-03-04 10:36:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5389文章數(shù) 64616關(guān)注度
往期回顧 全部

科技要聞

新MacBook Pro首發(fā)M5 Pro/Max芯片 17999起

頭條要聞

牛彈琴:伊朗選出新的最高領(lǐng)袖 一個更不可能妥協(xié)的人

頭條要聞

牛彈琴:伊朗選出新的最高領(lǐng)袖 一個更不可能妥協(xié)的人

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

伊朗,正在打破特朗普的幻想

汽車要聞

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
數(shù)碼
公開課

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

教育要聞

高校分類改革,對考生和家長意味著什么?

藝術(shù)要聞

您能認(rèn)全這8個字嗎?張學(xué)良和胡蝶的舞蹈真相曝光!

數(shù)碼要聞

把簡潔與自由還給桌面:羅技新旗艦Master 4+K980全家桶深度體驗

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版