国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌Deep Think八語奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】谷歌Deep Think橫掃亞歐多語種競賽,AI科研工具的語言壁壘正在被拆掉,數(shù)學(xué)與科學(xué)發(fā)現(xiàn)進(jìn)入AI驅(qū)動(dòng)新時(shí)代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」!

剛剛,Google DeepMind高級研究員Conglong Li在X平臺連發(fā)12條帖子,甩出了一張前所未見的成績單。



一個(gè)AI,同一個(gè)大腦,八張不同語言的試卷,全部高分交卷。

在任何一個(gè)模型身上,這樣的成績實(shí)屬罕見。

從IMO金牌到區(qū)域賽全覆蓋

這次Deep Think拿下多個(gè)榜單高分,并非突然的單點(diǎn)爆發(fā),而是一條已經(jīng)持續(xù)了近一年的能力演進(jìn)曲線。

首先登頂最硬核的推理賽場。

2025年7月,Gemini Deep Think首次在國際數(shù)學(xué)奧林匹克(IMO)達(dá)到金牌標(biāo)準(zhǔn),42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現(xiàn)。

這兩個(gè)成績,DeepMind官方博客已經(jīng)正式公布。

Google DeepMind隨后把這兩項(xiàng)成績都寫進(jìn)了官方博客,作為Deep Think邁過數(shù)學(xué)與編程「世界級競賽門檻」的標(biāo)志。

接著,Deep Think開始從「世界冠軍級單項(xiàng)突破」,走向「跨語言、跨學(xué)科、跨場景的系統(tǒng)驗(yàn)證」。

2026年2月,Google連發(fā)三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級,一篇來自DeepMind科學(xué)發(fā)現(xiàn)團(tuán)隊(duì),直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標(biāo):

Humanity's Last Exam拿下48.4%(無工具輔助),ARC-AGI-2達(dá)到84.6%(ARC Prize基金會官方驗(yàn)證),Codeforces競賽編程Elo評分3455,2025國際物理奧賽和化學(xué)奧賽筆試部分達(dá)到金牌水平。


這條路線非常清楚:先用IMO、ICPC這樣的世界級競賽,證明它的強(qiáng)大推理能力,然后再用多語種、區(qū)域賽和跨學(xué)科奧賽成績,證明它的跨語言、跨領(lǐng)域穩(wěn)定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進(jìn)

8語言成績單逐項(xiàng)細(xì)看

現(xiàn)在,把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數(shù)學(xué)奧賽本選(JMO Finals),滿分。

ICPC亞洲日本初賽,滿分。


其中,JMO本選這項(xiàng)成績甚至超過了當(dāng)屆最高得分對應(yīng)的80%水平,達(dá)到官方所說的「金獎(jiǎng)相當(dāng)」標(biāo)準(zhǔn)。

法語同樣滿分,100%。

中文就有意思了。

第41屆中國數(shù)學(xué)奧林匹克(CMO),Deep Think拿到86.3%,相當(dāng)出色。但中國信息學(xué)奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫出了AI推理能力的真實(shí)邊界。

在數(shù)學(xué)競賽里,模型面對的是抽象推導(dǎo)、證明構(gòu)造和多步演繹,這恰好是Deep Think最擅長的能力帶。

但到了信息學(xué)競賽,問題就不只是「想明白」,還包括把邏輯翻譯成可執(zhí)行代碼、控制邊界條件、兼顧復(fù)雜度約束,并且在實(shí)現(xiàn)層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設(shè)計(jì)+工程化實(shí)現(xiàn)」同時(shí)過關(guān)。

其它語種,韓語、印地語、越南語、俄語、葡萄牙語對應(yīng)的競賽結(jié)果里,Deep Think 也都實(shí)現(xiàn)了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看,這次最不尋常的一點(diǎn)其實(shí)不是某一門單科刷到滿分,而是同一個(gè)模型、同一種Deep Think推理系統(tǒng),在多種語言的競賽試卷上,都交出了第一梯隊(duì)的成績。

這份成績單可靠嗎?

但這里有一個(gè)關(guān)鍵的缺失:

Conglong Li并沒有列出競品的具體對比數(shù)據(jù):所有成績,全部來自Google內(nèi)部評測。沒有第三方獨(dú)立復(fù)現(xiàn),沒有競賽官方認(rèn)證,評測方法完全沒有公開。

每道題是做一次還是做很多次取最優(yōu)?推理時(shí)用了多少算力?有沒有人工提示工程介入?

這些直接影響成績含金量的細(xì)節(jié),也都沒提。

還有一點(diǎn)容易被忽略:這些考試全部是各國區(qū)域選拔賽,不是國際決賽。

區(qū)域賽的題目難度和國際決賽之間,隔著一個(gè)量級。

研究員明確說了,這些成績「將被納入模型卡」,截至發(fā)稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務(wù)處蓋章的成績單。

多語言科研公平性

被忽視的真正戰(zhàn)場

為什么Google要專門花精力做8種語言的區(qū)域賽評測?

當(dāng)前AI推理能力的評測,幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數(shù)學(xué)家、物理學(xué)家、工程師,只要母語不是英語,在使用AI科研工具時(shí)都要先過一道語言關(guān)。

Google選的這8種語言不是隨機(jī)的。

日語、韓語、中文覆蓋東亞科研重鎮(zhèn),印地語、越南語覆蓋新興市場,法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起,這是全球科研產(chǎn)出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說它能「處理知識檢索和嚴(yán)格驗(yàn)證,讓科學(xué)家專注于概念深度和創(chuàng)造性方向」。

結(jié)合這次的多語言成績,這句話的潛臺詞不難理解:這個(gè)倍增器,不僅限英語的科學(xué)家用。

更值得注意的是Deep Think在科研落地上已經(jīng)走了多遠(yuǎn)。

DeepMind公布了一個(gè)叫Aletheia的數(shù)學(xué)研究智能體,基于Deep Think驅(qū)動(dòng),能自主生成、驗(yàn)證、修訂研究級數(shù)學(xué)問題的解法。


Aletheia由Deep Think驅(qū)動(dòng),能夠?qū)ρ芯考墧?shù)學(xué)問題進(jìn)行迭代式生成、驗(yàn)證與修正

Aletheia已經(jīng)參與產(chǎn)出了多篇研究論文,其中一篇完全由AI自主完成,計(jì)算了算術(shù)幾何中的特定結(jié)構(gòu)常數(shù)。


另外,在700個(gè)開放數(shù)學(xué)問題的半自主評估中,它還獨(dú)立解決了4個(gè)此前未解的問題。

Gemini Deep Think模式在計(jì)算機(jī)科學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域也展現(xiàn)出巨大潛力。

在計(jì)算機(jī)科學(xué)領(lǐng)域,Deep Think幫助推翻了一個(gè)懸而未決十年的猜想,在物理學(xué)領(lǐng)域找到了宇宙弦引力輻射的新型解析解,在經(jīng)濟(jì)學(xué)領(lǐng)域擴(kuò)展了一個(gè)拍賣理論定理。


AI推理流程的示意圖,展示了在網(wǎng)絡(luò)層進(jìn)行的大規(guī)模解空間探索如何被匯聚為結(jié)構(gòu)化推理,并通過自動(dòng)化與人工驗(yàn)證加以確認(rèn)。

通過與專家合作解決18個(gè)研究難題,Gemini Deep Think的高級版本幫助突破了算法、機(jī)器學(xué)習(xí)與組合優(yōu)化、信息論以及經(jīng)濟(jì)學(xué)領(lǐng)域長期存在的瓶頸。

這已經(jīng)遠(yuǎn)遠(yuǎn)超出了「做競賽題」的范疇。

當(dāng)競品還在卷英文benchmark排行榜的時(shí)候,Google已經(jīng)在「AI科研加速器」領(lǐng)域找到了新戰(zhàn)場。

這件事請最重要的東西其實(shí)不是分?jǐn)?shù),它背后真正的信號是:AI科研工具的語言壁壘正在被當(dāng)作一個(gè)工程問題來解決。

如果這條路走通了,全世界用日語、韓語、中文、印地語做研究的科學(xué)家,將第一次和英語母語者站在同一條起跑線上。

這一次,Google已經(jīng)把牌攤在了桌上。

至于競爭對手誰會跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
楊冪新劇造型不僅顏值下滑很顯老還彎腰駝背體態(tài)畏縮毫無古人之姿

楊冪新劇造型不僅顏值下滑很顯老還彎腰駝背體態(tài)畏縮毫無古人之姿

小椰的奶奶
2026-04-09 02:19:02
比亞迪大唐賣30萬,被噴得最狠的一次

比亞迪大唐賣30萬,被噴得最狠的一次

音樂時(shí)光的娛樂
2026-04-07 07:04:26
歐冠雙2-0:巴黎大勝利物浦,馬競擊敗巴薩,三隊(duì)出局

歐冠雙2-0:巴黎大勝利物浦,馬競擊敗巴薩,三隊(duì)出局

吳紒愛體育
2026-04-09 15:19:52
曝伊能靜機(jī)場錄綜藝失態(tài)!噘嘴搬行李卻摔箱,帶貨翻車后看著疲憊

曝伊能靜機(jī)場錄綜藝失態(tài)!噘嘴搬行李卻摔箱,帶貨翻車后看著疲憊

阿紿聊社會
2026-04-09 06:38:36
尼泊爾的“一妻多夫”有多尷尬?看完她們的生活后,滿滿的辛酸

尼泊爾的“一妻多夫”有多尷尬?看完她們的生活后,滿滿的辛酸

芳芳?xì)v史燴
2026-03-31 20:27:45
反轉(zhuǎn)!陳光標(biāo)改口,1000萬捐款用途改變可用于醫(yī)院房租與患兒救治

反轉(zhuǎn)!陳光標(biāo)改口,1000萬捐款用途改變可用于醫(yī)院房租與患兒救治

放開他讓wo來
2026-04-09 14:31:02
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

蔡蔡說史
2026-04-09 10:37:02
48集燒腦諜戰(zhàn)大劇,諜影終現(xiàn),暗夜前行,丁勇岱智斗勁敵!

48集燒腦諜戰(zhàn)大劇,諜影終現(xiàn),暗夜前行,丁勇岱智斗勁敵!

樂楓電影
2026-04-09 14:31:41
錢大鈞故意放走陳賡還送大洋,下屬不解,錢:我敢動(dòng)他一根毫毛嗎

錢大鈞故意放走陳賡還送大洋,下屬不解,錢:我敢動(dòng)他一根毫毛嗎

北海史記
2026-04-09 14:33:12
韓國軍事專家:這個(gè)世界上沒有任何一個(gè)國家敢動(dòng)中國

韓國軍事專家:這個(gè)世界上沒有任何一個(gè)國家敢動(dòng)中國

南權(quán)先生
2026-03-12 16:14:24
綠茵懷舊足球友誼賽官宣:莫雷諾、范志毅出席,票價(jià)150元起

綠茵懷舊足球友誼賽官宣:莫雷諾、范志毅出席,票價(jià)150元起

懂球帝
2026-04-09 13:16:19
早讀|美伊即將面對面會談!美國或?qū)で笈c伊朗“合資經(jīng)營”霍爾木茲海峽

早讀|美伊即將面對面會談!美國或?qū)で笈c伊朗“合資經(jīng)營”霍爾木茲海峽

上觀新聞
2026-04-09 06:50:10
德國乒協(xié)發(fā)文炮轟國際乒聯(lián),曝光世乒賽“內(nèi)幕”,孫穎莎被牽連

德國乒協(xié)發(fā)文炮轟國際乒聯(lián),曝光世乒賽“內(nèi)幕”,孫穎莎被牽連

凡知
2026-04-09 10:58:23
最美女保鏢嚴(yán)月霞同志簡歷

最美女保鏢嚴(yán)月霞同志簡歷

TVB的四小花
2026-03-25 07:54:32
催生病妻子做飯后續(xù):孩子推搡護(hù)母,親戚勸刪視頻,寶媽不再隱忍

催生病妻子做飯后續(xù):孩子推搡護(hù)母,親戚勸刪視頻,寶媽不再隱忍

潮鹿逐夢
2026-04-07 15:06:59
2套拆遷房分給女兒1套,兒媳鬧離婚孫子改母姓,真離婚后她又后悔

2套拆遷房分給女兒1套,兒媳鬧離婚孫子改母姓,真離婚后她又后悔

半夏解語
2026-04-09 07:00:03
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
阿司匹林和他汀,什么時(shí)間吃最合適?早知道,早受益!

阿司匹林和他汀,什么時(shí)間吃最合適?早知道,早受益!

健康之光
2026-04-08 17:32:59
伊朗宣布勝利:美國已原則上承諾撤出戰(zhàn)斗部隊(duì)、解除制裁、支付賠償、承認(rèn)海峽控制權(quán)等!特朗普也宣布勝利:伊朗可以重建了

伊朗宣布勝利:美國已原則上承諾撤出戰(zhàn)斗部隊(duì)、解除制裁、支付賠償、承認(rèn)海峽控制權(quán)等!特朗普也宣布勝利:伊朗可以重建了

每日經(jīng)濟(jì)新聞
2026-04-08 17:32:20
神秘“歡樂馬”空降屠榜,碾壓Seedance 2.0,視頻AI又變天了?

神秘“歡樂馬”空降屠榜,碾壓Seedance 2.0,視頻AI又變天了?

華爾街見聞官方
2026-04-08 20:23:49
2026-04-09 15:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14933文章數(shù) 66756關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

白宮發(fā)言人:特朗普直接把伊朗停戰(zhàn)條款扔進(jìn)了垃圾桶

頭條要聞

白宮發(fā)言人:特朗普直接把伊朗停戰(zhàn)條款扔進(jìn)了垃圾桶

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

娛樂要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財(cái)經(jīng)要聞

談判基礎(chǔ)已被破壞!霍爾木茲海峽關(guān)閉

汽車要聞

合資3.0革命性重構(gòu),文飛與神行者背水一戰(zhàn)

態(tài)度原創(chuàng)

教育
旅游
數(shù)碼
家居
公開課

教育要聞

一大早,南京一班主任連發(fā)三條信息:因天氣原因體育中考延期

旅游要聞

新華視點(diǎn)|文旅融合消費(fèi)升級 春日經(jīng)濟(jì)活力涌動(dòng)

數(shù)碼要聞

GeekBench 6.7更新:新增英特爾BOT檢測,標(biāo)記跑分無效

家居要聞

清新自然 復(fù)古風(fēng)尚

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版