国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超越IMO金牌?谷歌創(chuàng)超難FirstProof數(shù)學(xué)挑戰(zhàn)新紀(jì)錄

0
分享至

編輯|冷貓


去年 7 月的 IMO 數(shù)學(xué)奧林匹克競賽中,兩大人工智能公司搶奪競賽「金牌」成績的鬧劇搞得沸沸揚揚。

當(dāng)時 OpenAI 和 谷歌 同時聲稱取得競賽金牌,而 OpenAI 因繞過官方競賽規(guī)則提前官宣,遭到廣泛吐槽;谷歌 DeepMind 的 Gemini 進階模型成為首個獲得奧賽組委會官方認(rèn)定為金牌的 AI 系統(tǒng)。

競賽與真正的數(shù)學(xué)研究之間,仍然存在一道明顯的分界線。

在此之后,AI 智能體飛速發(fā)展,解決數(shù)學(xué)問題的能力不再僅依靠模型的推理能力。AI 智能體已經(jīng)可以開始自己做數(shù)學(xué),不只是解題,更能夠進行數(shù)學(xué)研究,而且研究的還是頂尖數(shù)學(xué)家都要撓頭的問題,這意味著什么?

近日,來自谷歌 DeepMind ,由 Gemini 3 Deep Think 驅(qū)動的最新數(shù)學(xué)研究智能體 Aletheia 在首屆 FirstProof 挑戰(zhàn)中,自主解決了 10 道高難度研究問題中的 6 道,成為創(chuàng)下了該數(shù)學(xué)挑戰(zhàn)賽的最佳紀(jì)錄。



曾帶隊實現(xiàn) AI IMO 金牌成績的 DeepMind 超人類推理方向負(fù)責(zé)人 Thang Luong 表示,這一成果的分量超過去年 AI 在 IMO 測試中獲得金牌的表現(xiàn)。

相關(guān)論文《Aletheia tackles FirstProof autonomously》已發(fā)布在 arXiv,并且團隊在 Github 上公開了解決 FirstProof 問題的提示詞與輸出結(jié)果。



  • 論文標(biāo)題:Aletheia tackles FirstProof autonomously
  • 論文鏈接:https://arxiv.org/pdf/2602.21201
  • 提示詞與輸出結(jié)果:https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof:把 AI 放進真實的數(shù)學(xué)研究現(xiàn)場

FirstProof 是一項專門為評估 AI 數(shù)學(xué)研究能力而設(shè)計的實驗性挑戰(zhàn)。項目由多位活躍在不同數(shù)學(xué)分支的一線研究者發(fā)起,題目全部來自真實科研過程中的命題,被提出作為評估當(dāng)前人工智能能力的測試。

這些問題在挑戰(zhàn)啟動前從未公開證明,組織方提前將標(biāo)準(zhǔn)證明加密保存,以盡量排除訓(xùn)練數(shù)據(jù)泄露的可能。最終提交的答案,需要由領(lǐng)域?qū)<胰斯忛啠袛嗥溥壿媷?yán)密性與學(xué)術(shù)可接受度。評價標(biāo)準(zhǔn)接近論文審稿,而非自動判分。

這種設(shè)計刻意提高了門檻。它測試的,是 AI 在陌生問題上進行長期推理與結(jié)構(gòu)構(gòu)造的能力。換句話說,F(xiàn)irstProof 關(guān)心的,是系統(tǒng)是否具備參與數(shù)學(xué)研究的潛力。

這些問題于 2026 年 2 月 5 日發(fā)布,并設(shè)定了截止時間為太平洋時間 2026 年 2 月 13 日晚上 11:59 ,解決方法在截止后在互聯(lián)網(wǎng)上發(fā)布。

這項評估本身極其困難,能夠真正理解這些問題的專家屈指可數(shù)。關(guān)鍵的一點是:Aletheia 的所有解答均在沒有任何人工干預(yù)的情況下生成,并且在 FirstProof 挑戰(zhàn)規(guī)定的時間范圍內(nèi)提交。



研究團隊執(zhí)行整體流程

FirstProof 的第一作者確認(rèn)了這一事實:



研究團隊運行了兩個版本的 Aletheia(兩者僅在底層基礎(chǔ)模型上有所不同),它們都由 Gemini DeepThink 提供支持。綜合多數(shù)專家評審意見,這兩個系統(tǒng)共同解決了 10 道題中的 6 道(第 2、5、7、8、9、10 題)。我們注意到,專家們對第 8 題的評估并不完全一致。



Aletheia 在 FirstProof 上的性能總結(jié)。專家評估列顯示了在咨詢的總專家人數(shù)中,有多少專家將解決方案評為正確。僅在 P8 上的評估不是一致的。

Aletheia 的「解題分析」

兩個智能體在同樣的 FirstProof 十個問題的執(zhí)行結(jié)果如下所示:



在 FirstProof 的 10 道問題中,Aletheia 為其中 6 道題(P2、P5、P7、P8、P9、P10)生成了候選解答。在「best-of-2」的評估設(shè)置下,根據(jù)多數(shù)專家的評審意見,這 6 道題都被認(rèn)定為在該解釋框架下已正確解決。

Aletheia A 與 Aletheia B 針對相同的六道題目都生成了候選解答。單獨來看,每個智能體都至少出現(xiàn)過一次「假陽性」(false positive),但在 best-of-2 的評估機制下,它們共同為六道題目都提供了可信的解答。這一結(jié)果相比 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本,在準(zhǔn)確率上有明顯提升。

不過,P8 的評估并非一致通過 ——7 位專家中有 5 位給出了「Correct」的評價。對于另外 4 道題(P1、P3、P4、P6),兩個智能體都沒有給出解答:要么明確輸出「No solution found」(未找到解答),要么在時間限制內(nèi)沒有返回任何結(jié)果。

研究團隊認(rèn)為,Aletheia 具備一種「自我篩選」機制,這也是 Aletheia 的關(guān)鍵設(shè)計原則之一。

在將 AI 擴展為數(shù)學(xué)研究助手的過程中,可靠性才是首要瓶頸。如果智能體給出錯誤的「幻覺」答案,會極度浪費人類專家用于驗證結(jié)果的時間與精力,與提高研究效率和自動化的目標(biāo)背道而馳。

此外,解決問題的推理成本也是非常重要的指標(biāo)。



在圖中展示了每個候選解的推理成本,并將其表示為相對于 Erd?s-1051 解答推理成本的倍數(shù)。不難發(fā)現(xiàn),Aletheia 在所有問題上,推理成本都高于 Erd?s-1051。

尤其是 P7,其推理成本比此前觀察到的規(guī)模高出一個數(shù)量級。研究者稱,這一方面是因為 Generator 子智能體在生成候選解時消耗了大量計算資源,另一方面是因為需要更多輪交互才能通過 Verifier 子智能體的驗證。

總結(jié)


數(shù)學(xué)研究包含多個環(huán)節(jié):提出問題、建立框架、尋找關(guān)鍵結(jié)構(gòu)、完成證明。當(dāng)前系統(tǒng)顯然還無法全面承擔(dān)所有角色,但它已經(jīng)開始在證明與驗證環(huán)節(jié)發(fā)揮作用。

未來的研究場景或許會發(fā)生變化。人類研究者提出方向與核心思想,AI 負(fù)責(zé)高強度的路徑搜索與形式化驗證,再由人類進行理論整合與升華。這種協(xié)作模式,正在逐漸成形。

數(shù)學(xué)長期以來被視為人類理性能力的高地。如今,AI 正在這里取得實質(zhì)性突破。當(dāng)機器開始穩(wěn)定地完成研究級證明,我們或許需要重新思考一個問題:

在未來的數(shù)學(xué)論文作者名單中,AI 會以什么身份出現(xiàn)?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中方正式宣布:永久更換國內(nèi)供應(yīng)商!荷蘭這次后悔也來不及了

中方正式宣布:永久更換國內(nèi)供應(yīng)商!荷蘭這次后悔也來不及了

墨羽怪談
2026-02-28 21:59:26
3月1日晚間,多家上市公司發(fā)布重大利好利空好消息

3月1日晚間,多家上市公司發(fā)布重大利好利空好消息

A股數(shù)據(jù)表
2026-03-01 17:33:53
伊朗最高國家安全委員會發(fā)布第1號公告

伊朗最高國家安全委員會發(fā)布第1號公告

界面新聞
2026-02-28 18:24:27
南海連轟三日!敢劃禁區(qū)便夷平,全球紛燃戰(zhàn)火,中國嚴(yán)劃紅線!

南海連轟三日!敢劃禁區(qū)便夷平,全球紛燃戰(zhàn)火,中國嚴(yán)劃紅線!

起喜電影
2026-03-02 01:17:18
即日起,廣州全面禁止!

即日起,廣州全面禁止!

羊城攻略
2026-03-01 23:03:39
亂世之秋誰會成為波斯新掌門?為何說伊朗之變對烏克蘭是大利好?

亂世之秋誰會成為波斯新掌門?為何說伊朗之變對烏克蘭是大利好?

史政先鋒
2026-03-01 20:02:01
3月1日晚間上市公司重大事項公告

3月1日晚間上市公司重大事項公告

風(fēng)風(fēng)順
2026-03-01 19:37:35
伊朗外長:伊朗已將導(dǎo)彈射程限制在2000公里以內(nèi)

伊朗外長:伊朗已將導(dǎo)彈射程限制在2000公里以內(nèi)

新華社
2026-02-27 10:33:20
汪小菲回應(yīng)轉(zhuǎn)學(xué)風(fēng)波,大S私自操辦被國際學(xué)校退學(xué),得知后很崩潰

汪小菲回應(yīng)轉(zhuǎn)學(xué)風(fēng)波,大S私自操辦被國際學(xué)校退學(xué),得知后很崩潰

萌神木木
2026-03-01 11:37:34
伊朗前總統(tǒng) 內(nèi)賈德遇襲身亡

伊朗前總統(tǒng) 內(nèi)賈德遇襲身亡

每日經(jīng)濟新聞
2026-03-01 22:34:10
真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預(yù)言

真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預(yù)言

曹說體育
2026-03-01 22:16:15
河北孟村殺妻案迎來結(jié)局,堂哥和律師證實已執(zhí)行

河北孟村殺妻案迎來結(jié)局,堂哥和律師證實已執(zhí)行

九方魚論
2026-03-01 23:13:07
2連勝男籃最新評分!3人滿分4人優(yōu)秀,有3人郭士強下次不能再帶了

2連勝男籃最新評分!3人滿分4人優(yōu)秀,有3人郭士強下次不能再帶了

后仰大風(fēng)車
2026-03-01 20:26:16
曼聯(lián)夏窗中場大換新!續(xù)約梅努成優(yōu)先項,三新人成卡里克主推人選

曼聯(lián)夏窗中場大換新!續(xù)約梅努成優(yōu)先項,三新人成卡里克主推人選

里芃芃體育
2026-03-02 03:00:03
創(chuàng)紀(jì)錄!外資,突然大拋售!全球“最?!惫墒?,發(fā)生了什么?

創(chuàng)紀(jì)錄!外資,突然大拋售!全球“最牛”股市,發(fā)生了什么?

數(shù)據(jù)寶
2026-03-01 18:36:28
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

帶你感受人間冷暖
2026-02-17 01:00:24
美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

近史談
2026-01-19 10:09:51
犧牲時僅19歲:被20多名土匪輪番侵犯,行刑前高呼"毛主席萬歲"

犧牲時僅19歲:被20多名土匪輪番侵犯,行刑前高呼"毛主席萬歲"

小莜讀史
2026-03-01 09:04:30
感謝日本隊?世預(yù)賽78:72力克韓國,中國男籃大勝=反超升小組第二

感謝日本隊?世預(yù)賽78:72力克韓國,中國男籃大勝=反超升小組第二

現(xiàn)代小青青慕慕
2026-03-01 17:05:42
徹底飄了,美防長公然“警告”中國,振臂高呼:美國威懾力回來了

徹底飄了,美防長公然“警告”中國,振臂高呼:美國威懾力回來了

小蘭聊歷史
2026-01-11 10:27:33
2026-03-02 03:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
公開課
軍事航空

本地新聞

津南好·四時總相宜

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進入關(guān)懷版