国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌Deep Think八語(yǔ)奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】谷歌Deep Think橫掃亞歐多語(yǔ)種競(jìng)賽,AI科研工具的語(yǔ)言壁壘正在被拆掉,數(shù)學(xué)與科學(xué)發(fā)現(xiàn)進(jìn)入AI驅(qū)動(dòng)新時(shí)代。

「Deep Think」在所有競(jìng)賽中都擊敗/媲美競(jìng)爭(zhēng)對(duì)手」!

剛剛,Google DeepMind高級(jí)研究員Conglong Li在X平臺(tái)連發(fā)12條帖子,甩出了一張前所未見(jiàn)的成績(jī)單。



一個(gè)AI,同一個(gè)大腦,八張不同語(yǔ)言的試卷,全部高分交卷。

在任何一個(gè)模型身上,這樣的成績(jī)實(shí)屬罕見(jiàn)。

從IMO金牌到區(qū)域賽全覆蓋

這次Deep Think拿下多個(gè)榜單高分,并非突然的單點(diǎn)爆發(fā),而是一條已經(jīng)持續(xù)了近一年的能力演進(jìn)曲線。

首先登頂最硬核的推理賽場(chǎng)。

2025年7月,Gemini Deep Think首次在國(guó)際數(shù)學(xué)奧林匹克(IMO)達(dá)到金牌標(biāo)準(zhǔn),42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現(xiàn)。

這兩個(gè)成績(jī),DeepMind官方博客已經(jīng)正式公布。

Google DeepMind隨后把這兩項(xiàng)成績(jī)都寫進(jìn)了官方博客,作為Deep Think邁過(guò)數(shù)學(xué)與編程「世界級(jí)競(jìng)賽門檻」的標(biāo)志。

接著,Deep Think開(kāi)始從「世界冠軍級(jí)單項(xiàng)突破」,走向「跨語(yǔ)言、跨學(xué)科、跨場(chǎng)景的系統(tǒng)驗(yàn)證」。

2026年2月,Google連發(fā)三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級(jí),一篇來(lái)自DeepMind科學(xué)發(fā)現(xiàn)團(tuán)隊(duì),直接把Deep Think定位成「人類智力倍增器」。

升級(jí)后的Deep Think交出了一串硬指標(biāo):

Humanity's Last Exam拿下48.4%(無(wú)工具輔助),ARC-AGI-2達(dá)到84.6%(ARC Prize基金會(huì)官方驗(yàn)證),Codeforces競(jìng)賽編程Elo評(píng)分3455,2025國(guó)際物理奧賽和化學(xué)奧賽筆試部分達(dá)到金牌水平。


這條路線非常清楚:先用IMO、ICPC這樣的世界級(jí)競(jìng)賽,證明它的強(qiáng)大推理能力,然后再用多語(yǔ)種、區(qū)域賽和跨學(xué)科奧賽成績(jī),證明它的跨語(yǔ)言、跨領(lǐng)域穩(wěn)定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級(jí)科研加速的能力演進(jìn)

8語(yǔ)言成績(jī)單逐項(xiàng)細(xì)看

現(xiàn)在,把這張成績(jī)單真正攤開(kāi)來(lái)看。

日語(yǔ)最亮眼。

2025年第35回日本數(shù)學(xué)奧賽本選(JMO Finals),滿分。

ICPC亞洲日本初賽,滿分。


其中,JMO本選這項(xiàng)成績(jī)甚至超過(guò)了當(dāng)屆最高得分對(duì)應(yīng)的80%水平,達(dá)到官方所說(shuō)的「金獎(jiǎng)相當(dāng)」標(biāo)準(zhǔn)。

法語(yǔ)同樣滿分,100%。

中文就有意思了。

第41屆中國(guó)數(shù)學(xué)奧林匹克(CMO),Deep Think拿到86.3%,相當(dāng)出色。但中國(guó)信息學(xué)奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫(huà)出了AI推理能力的真實(shí)邊界。

在數(shù)學(xué)競(jìng)賽里,模型面對(duì)的是抽象推導(dǎo)、證明構(gòu)造和多步演繹,這恰好是Deep Think最擅長(zhǎng)的能力帶。

但到了信息學(xué)競(jìng)賽,問(wèn)題就不只是「想明白」,還包括把邏輯翻譯成可執(zhí)行代碼、控制邊界條件、兼顧復(fù)雜度約束,并且在實(shí)現(xiàn)層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設(shè)計(jì)+工程化實(shí)現(xiàn)」同時(shí)過(guò)關(guān)。

其它語(yǔ)種,韓語(yǔ)、印地語(yǔ)、越南語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)對(duì)應(yīng)的競(jìng)賽結(jié)果里,Deep Think 也都實(shí)現(xiàn)了擊敗對(duì)手或至少持平。

如果把日語(yǔ)、法語(yǔ)、中文再合起來(lái)看,這次最不尋常的一點(diǎn)其實(shí)不是某一門單科刷到滿分,而是同一個(gè)模型、同一種Deep Think推理系統(tǒng),在多種語(yǔ)言的競(jìng)賽試卷上,都交出了第一梯隊(duì)的成績(jī)。

這份成績(jī)單可靠嗎?

但這里有一個(gè)關(guān)鍵的缺失:

Conglong Li并沒(méi)有列出競(jìng)品的具體對(duì)比數(shù)據(jù):所有成績(jī),全部來(lái)自Google內(nèi)部評(píng)測(cè)。沒(méi)有第三方獨(dú)立復(fù)現(xiàn),沒(méi)有競(jìng)賽官方認(rèn)證,評(píng)測(cè)方法完全沒(méi)有公開(kāi)。

每道題是做一次還是做很多次取最優(yōu)?推理時(shí)用了多少算力?有沒(méi)有人工提示工程介入?

這些直接影響成績(jī)含金量的細(xì)節(jié),也都沒(méi)提。

還有一點(diǎn)容易被忽略:這些考試全部是各國(guó)區(qū)域選拔賽,不是國(guó)際決賽。

區(qū)域賽的題目難度和國(guó)際決賽之間,隔著一個(gè)量級(jí)。

研究員明確說(shuō)了,這些成績(jī)「將被納入模型卡」,截至發(fā)稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務(wù)處蓋章的成績(jī)單。

多語(yǔ)言科研公平性

被忽視的真正戰(zhàn)場(chǎng)

為什么Google要專門花精力做8種語(yǔ)言的區(qū)域賽評(píng)測(cè)?

當(dāng)前AI推理能力的評(píng)測(cè),幾乎全部基于英語(yǔ)。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語(yǔ)。

全世界的數(shù)學(xué)家、物理學(xué)家、工程師,只要母語(yǔ)不是英語(yǔ),在使用AI科研工具時(shí)都要先過(guò)一道語(yǔ)言關(guān)。

Google選的這8種語(yǔ)言不是隨機(jī)的。

日語(yǔ)、韓語(yǔ)、中文覆蓋東亞科研重鎮(zhèn),印地語(yǔ)、越南語(yǔ)覆蓋新興市場(chǎng),法語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)覆蓋歐洲和南美。

加在一起,這是全球科研產(chǎn)出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說(shuō)它能「處理知識(shí)檢索和嚴(yán)格驗(yàn)證,讓科學(xué)家專注于概念深度和創(chuàng)造性方向」。

結(jié)合這次的多語(yǔ)言成績(jī),這句話的潛臺(tái)詞不難理解:這個(gè)倍增器,不僅限英語(yǔ)的科學(xué)家用。

更值得注意的是Deep Think在科研落地上已經(jīng)走了多遠(yuǎn)。

DeepMind公布了一個(gè)叫Aletheia的數(shù)學(xué)研究智能體,基于Deep Think驅(qū)動(dòng),能自主生成、驗(yàn)證、修訂研究級(jí)數(shù)學(xué)問(wèn)題的解法。


Aletheia由Deep Think驅(qū)動(dòng),能夠?qū)ρ芯考?jí)數(shù)學(xué)問(wèn)題進(jìn)行迭代式生成、驗(yàn)證與修正

Aletheia已經(jīng)參與產(chǎn)出了多篇研究論文,其中一篇完全由AI自主完成,計(jì)算了算術(shù)幾何中的特定結(jié)構(gòu)常數(shù)。


另外,在700個(gè)開(kāi)放數(shù)學(xué)問(wèn)題的半自主評(píng)估中,它還獨(dú)立解決了4個(gè)此前未解的問(wèn)題。

Gemini Deep Think模式在計(jì)算機(jī)科學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域也展現(xiàn)出巨大潛力。

在計(jì)算機(jī)科學(xué)領(lǐng)域,Deep Think幫助推翻了一個(gè)懸而未決十年的猜想,在物理學(xué)領(lǐng)域找到了宇宙弦引力輻射的新型解析解,在經(jīng)濟(jì)學(xué)領(lǐng)域擴(kuò)展了一個(gè)拍賣理論定理。


AI推理流程的示意圖,展示了在網(wǎng)絡(luò)層進(jìn)行的大規(guī)模解空間探索如何被匯聚為結(jié)構(gòu)化推理,并通過(guò)自動(dòng)化與人工驗(yàn)證加以確認(rèn)。

通過(guò)與專家合作解決18個(gè)研究難題,Gemini Deep Think的高級(jí)版本幫助突破了算法、機(jī)器學(xué)習(xí)與組合優(yōu)化、信息論以及經(jīng)濟(jì)學(xué)領(lǐng)域長(zhǎng)期存在的瓶頸。

這已經(jīng)遠(yuǎn)遠(yuǎn)超出了「做競(jìng)賽題」的范疇。

當(dāng)競(jìng)品還在卷英文benchmark排行榜的時(shí)候,Google已經(jīng)在「AI科研加速器」領(lǐng)域找到了新戰(zhàn)場(chǎng)。

這件事請(qǐng)最重要的東西其實(shí)不是分?jǐn)?shù),它背后真正的信號(hào)是:AI科研工具的語(yǔ)言壁壘正在被當(dāng)作一個(gè)工程問(wèn)題來(lái)解決。

如果這條路走通了,全世界用日語(yǔ)、韓語(yǔ)、中文、印地語(yǔ)做研究的科學(xué)家,將第一次和英語(yǔ)母語(yǔ)者站在同一條起跑線上。

這一次,Google已經(jīng)把牌攤在了桌上。

至于競(jìng)爭(zhēng)對(duì)手誰(shuí)會(huì)跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
別再被假照片騙了!這才是陳麗華年輕時(shí)真實(shí)長(zhǎng)相,臉型根本對(duì)不上

別再被假照片騙了!這才是陳麗華年輕時(shí)真實(shí)長(zhǎng)相,臉型根本對(duì)不上

陳意小可愛(ài)
2026-04-12 19:05:19
比亞迪發(fā)布新品牌,首款新車4月15日上市!

比亞迪發(fā)布新品牌,首款新車4月15日上市!

新浪財(cái)經(jīng)
2026-04-12 18:09:20
廣西4名學(xué)生下河游泳不幸溺亡

廣西4名學(xué)生下河游泳不幸溺亡

澎湃新聞
2026-04-12 21:54:03
次元壁破了!樸寶劍探班王安宇,從初識(shí)到探班僅用短短48小時(shí)

次元壁破了!樸寶劍探班王安宇,從初識(shí)到探班僅用短短48小時(shí)

娛樂(lè)寡姐
2026-04-12 22:52:39
英超最新奪冠概率:阿森納從最高91%跌至56%,曼城升至43%

英超最新奪冠概率:阿森納從最高91%跌至56%,曼城升至43%

懂球帝
2026-04-13 02:21:32
賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng),120多億遺產(chǎn)由姐弟繼承

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng),120多億遺產(chǎn)由姐弟繼承

素素娛樂(lè)
2026-04-12 16:24:23
路人搶著合影!上海街頭驚現(xiàn)高顏值“簪花郎”,網(wǎng)友:美到犯規(guī)了

路人搶著合影!上海街頭驚現(xiàn)高顏值“簪花郎”,網(wǎng)友:美到犯規(guī)了

生活魔術(shù)專家
2026-04-11 17:38:03
歐爾班若落選,是匈牙利整個(gè)國(guó)家悲劇的開(kāi)始

歐爾班若落選,是匈牙利整個(gè)國(guó)家悲劇的開(kāi)始

清濱酒客
2026-04-12 11:14:36
無(wú)濾鏡后,蕭薔像隔壁大嬸,李小冉斷崖式衰老,瞿穎孫怡村里村氣

無(wú)濾鏡后,蕭薔像隔壁大嬸,李小冉斷崖式衰老,瞿穎孫怡村里村氣

白面書(shū)誏
2026-04-12 17:06:22
男子用透明文件夾裝著147.4萬(wàn)港幣現(xiàn)金帶出境,被海關(guān)發(fā)現(xiàn)異常并進(jìn)行攔截,海關(guān)提醒:攜帶超額現(xiàn)鈔不予放行

男子用透明文件夾裝著147.4萬(wàn)港幣現(xiàn)金帶出境,被海關(guān)發(fā)現(xiàn)異常并進(jìn)行攔截,海關(guān)提醒:攜帶超額現(xiàn)鈔不予放行

環(huán)球網(wǎng)資訊
2026-04-12 11:07:45
恭喜!41歲文章又添“新身份”,喜氣背后藏父女情深,前妻有功勞

恭喜!41歲文章又添“新身份”,喜氣背后藏父女情深,前妻有功勞

興史興談
2026-04-12 03:12:40
隨著博洛尼亞2-0,國(guó)際米蘭4-3,那不勒斯1-1,意甲最新積分榜出爐

隨著博洛尼亞2-0,國(guó)際米蘭4-3,那不勒斯1-1,意甲最新積分榜出爐

側(cè)身凌空斬
2026-04-13 04:45:12
意甲奪冠在望?國(guó)米4-3逆轉(zhuǎn)科莫!26分鐘連扳4球,剩6輪仍9分領(lǐng)跑

意甲奪冠在望?國(guó)米4-3逆轉(zhuǎn)科莫!26分鐘連扳4球,剩6輪仍9分領(lǐng)跑

我愛(ài)英超
2026-04-13 06:43:49
好萊塢“種馬”白蘭度:睡遍女星,毀了3任妻子,去世時(shí)無(wú)人送終

好萊塢“種馬”白蘭度:睡遍女星,毀了3任妻子,去世時(shí)無(wú)人送終

七阿姨愛(ài)八卦
2026-04-12 17:45:06
為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺(tái)獨(dú)要害

為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺(tái)獨(dú)要害

流史歲月
2026-04-09 16:30:07
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-31 15:11:31
成年人的社交潛規(guī)則|無(wú)論誰(shuí)幫了你,一定要送禮,不收也要送

成年人的社交潛規(guī)則|無(wú)論誰(shuí)幫了你,一定要送禮,不收也要送

杏花煙雨江南的碧園
2026-04-11 16:15:03
山東第一高樓即將完工!濟(jì)南CBD,顏值爆表!

山東第一高樓即將完工!濟(jì)南CBD,顏值爆表!

GA環(huán)球建筑
2026-04-12 23:03:22
11天9次密集發(fā)聲!伊朗新領(lǐng)袖“冒死接班”一月未露面,突然全面亮劍

11天9次密集發(fā)聲!伊朗新領(lǐng)袖“冒死接班”一月未露面,突然全面亮劍

國(guó)是直通車
2026-04-11 19:48:07
陰雨何時(shí)休?下周天氣趨勢(shì)來(lái)了!

陰雨何時(shí)休?下周天氣趨勢(shì)來(lái)了!

上海靜安
2026-04-12 18:35:00
2026-04-13 07:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂(lè)要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
旅游
健康
教育

藝術(shù)要聞

朱元璋去拜佛,問(wèn)方丈:“朕要跪下嗎?”方丈答了8個(gè)字救了全寺的人

數(shù)碼要聞

Linux圈徹底炸鍋!Valve神級(jí)補(bǔ)丁拯救8G顯卡:硬搶顯存游戲性能起飛

旅游要聞

順德莫氏雞煲爆火之后,鄉(xiāng)村文旅還有哪些玩法?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

留學(xué)行業(yè)的寒冬已經(jīng)來(lái)了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版