国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

姚順宇谷歌首秀,Gemini新模型刷爆SOTA:僅剩7人捍衛(wèi)碳基編程

0
分享至

面對(duì)Claude Opus 4.6和GPT Codex 5.3的猛烈攻勢(shì),谷歌反手就是一個(gè)Gemini 3 Deep Think的重大升級(jí)。



在Codeforces(一個(gè)包含各種競(jìng)技編程挑戰(zhàn)的基準(zhǔn)測(cè)試平臺(tái))上,它取得了驚人的3455Elo分?jǐn)?shù),相當(dāng)于世界第8名



這下子,全球只有7人的編程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。



Gemini 3 Deep Think的實(shí)力不止于此,它還直接把ARC-AGI-2——這個(gè)公認(rèn)測(cè)試AI推理能力的前沿基準(zhǔn),給刷到了史無(wú)前例的84.6%

要知道,之前最強(qiáng)模型的得分在60%-70%之間徘徊,Claude Opus 4.6的成績(jī)也只有68.8%。

人類最后考試(HLE)上,Gemini 3 Deep Think也刷新SOTA,拿下了48.4%的成績(jī)。



官方表示,新版Deep Think是谷歌專門開發(fā)的推理模式,旨在推動(dòng)智能前沿發(fā)展,并解決科學(xué)、研究和工程領(lǐng)域的現(xiàn)代挑戰(zhàn)。

另一位“堯舜禹”——清華物理系傳奇特獎(jiǎng)得主姚順宇(Shunyu Yao),去年9月加入谷歌DeepMind,也是這次Deep Think新模型的參與者。



新版DeepThink已經(jīng)走進(jìn)了實(shí)驗(yàn)室

升級(jí)后的Gemini 3 Deep Think實(shí)力究竟有多強(qiáng)?

它的野心不止于贏得基準(zhǔn)測(cè)試,而是要走進(jìn)科研和工程領(lǐng)域,幫助工程師處理復(fù)雜任務(wù)。

新版Deep Think可以分析草圖,對(duì)復(fù)雜形狀進(jìn)行建模,并直接生成用于3D打印的實(shí)體文件。這是它打印的一個(gè)筆記本電腦支架:



谷歌VP Josh Woodward 在X上曬出了打印的成果,看起來(lái)對(duì)草圖相當(dāng)還原:



羅格斯大學(xué)的數(shù)學(xué)家Lisa Carbone,利用Gemini 3 Deep Think審閱了一篇高度專業(yè)的數(shù)學(xué)論文。

結(jié)果Gemini 3 Deep Think成功地識(shí)別出了一個(gè)細(xì)微的邏輯缺陷,而這個(gè)缺陷在此前的人工同行評(píng)審中均未被發(fā)現(xiàn)。



杜克大學(xué)的王安實(shí)驗(yàn)室,利用Gemini 3 Deep Think技術(shù)優(yōu)化了復(fù)雜晶體生長(zhǎng)的制備方法,以期發(fā)現(xiàn)新的半導(dǎo)體材料。

結(jié)果Gemini 3 Deep Think成功設(shè)計(jì)了一種能夠生長(zhǎng)厚度大于 100 微米薄膜的工藝,達(dá)到了以往方法難以企及的精確目標(biāo)。



在X上,DeepSeek多模態(tài)團(tuán)隊(duì)研究員XiaoKang Chen也表示:Gemini 3 Deep Think非常擅長(zhǎng)處理科學(xué)領(lǐng)域中的長(zhǎng)尾任務(wù)。

他給Deep Think輸入了一張復(fù)雜分子結(jié)構(gòu)的圖片,隨后模型便準(zhǔn)確地計(jì)算出了分子式。



勇奪三項(xiàng)新SOTA,推理成本降低82%

去年Deep Think專門版已經(jīng)IMO等國(guó)際競(jìng)賽中奪下金牌?,F(xiàn)在,全新升級(jí)后的Deep Think又在多項(xiàng)高難度的基準(zhǔn)測(cè)試中全面刷新SOTA:

  • 不使用任何工具,在HLE中取得新SOTA——48.4%
  • 在ARC-AGI-2測(cè)試中取得前所未有的84.6%的成績(jī),并經(jīng) ARC Prize 基金會(huì)驗(yàn)證;
  • 在Codeforces上取得了驚人的3455Elo分?jǐn)?shù);
  • 在2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中達(dá)到金牌水平。



其中,ARC-AGI-2被譽(yù)為AI界的“圖靈測(cè)試”,旨在衡量模型處理從未見(jiàn)過(guò)的新穎推理任務(wù)的能力

要知道,去年12月剛發(fā)布的初代Deep Think得分還是45.1%,不到三個(gè)月時(shí)間已經(jīng)飆升到84.6%,比Opus 4.6還要強(qiáng)出一截。

而在ARC-AGI-1上,Gemini 3 Deep Think取得了96%的成績(jī),直接頂?shù)教旎ò辶恕?/p>



性能提升的同時(shí),推理成本也在大幅下降。初代Deep Think執(zhí)行每項(xiàng)任務(wù)的成本為77.16美元。此次升級(jí)讓成本降低了82%,每項(xiàng)任務(wù)僅需13.62美元



由于1和2都被Gemini刷爆了,現(xiàn)在ARC Prize已經(jīng)在構(gòu)建ARC-AGI-3了……

除了數(shù)學(xué)和編程,升級(jí)后的Deep Think在化學(xué)和物理等廣泛的科學(xué)領(lǐng)域同樣表現(xiàn)出色。

在2025年國(guó)際物理奧林匹克競(jìng)賽和化學(xué)奧林匹克競(jìng)賽中,Gemini 3 Deep Think在筆試部分取得了金牌級(jí)別的成績(jī)。

此外,它還展現(xiàn)了在高等理論物理方面的能力,在CMT-Benchmark測(cè)試中取得了50.5%的分?jǐn)?shù)。



華人帶隊(duì),打造最強(qiáng)推理模型

Gemini 3 Deep Think的研發(fā)團(tuán)隊(duì)中,有不少華人身影。

核心成員包括95后華人科學(xué)家Yi Tay,他在Gemini團(tuán)隊(duì)中從事強(qiáng)化學(xué)習(xí)和推理方向的研究工作。



此前,他曾在Google Brain共同領(lǐng)導(dǎo)早期大語(yǔ)言模型項(xiàng)目,包括PaLM-2、UL2和Flan-2。

在Google Brain工作3年多之后,2023–2024 年間,Yi Tay曾短暫離開谷歌,作為聯(lián)合創(chuàng)始人創(chuàng)辦了一家獨(dú)角獸AI初創(chuàng)公司——Reka。

Reka AI由DeepMind、谷歌和Meta的研究人員創(chuàng)立,其創(chuàng)辦初衷是打造功能強(qiáng)大且高效的基礎(chǔ)模型,現(xiàn)在也開發(fā)界面設(shè)計(jì)、應(yīng)用邏輯以及其他應(yīng)用方面的工具。

在創(chuàng)業(yè)一年半后,Yi Tay便重返谷歌DeepMind,擔(dān)任高級(jí)資深研究科學(xué)家,繼續(xù)從事人工智能和大語(yǔ)言模型的研究。

去年剛從Anthropic跳槽到谷歌DeepMind的清華校友姚順宇,也參與了Deep think新模型的開發(fā)。



姚順宇本科就讀于清華大學(xué)物理系,曾拿下過(guò)清華本科生特等獎(jiǎng)學(xué)金(清華授予在校優(yōu)秀本科生的最高獎(jiǎng)學(xué)金榮譽(yù))

本科期間,他就已在《Physical Review Letters》(國(guó)際物理學(xué)領(lǐng)域最頂級(jí)的學(xué)術(shù)期刊之一)發(fā)表高水平論文,首次在國(guó)際上給出了關(guān)于非厄米系統(tǒng)的拓?fù)淠軒Ю碚摚粌H準(zhǔn)確預(yù)測(cè)了相關(guān)現(xiàn)象,還定義了兩個(gè)新的物理概念。

本科畢業(yè)后,他赴斯坦福大學(xué)繼續(xù)攻讀博士,專注于量子多體混沌、開放量子系統(tǒng)動(dòng)力學(xué)等前沿問(wèn)題,師從Douglas Stanford(美國(guó)理論物理學(xué)家,被同行視為頂尖且有潛力改變物理學(xué)發(fā)展方向的年輕科學(xué)家之一)、Zhenbin Yang(楊振斌,華裔美國(guó)科學(xué)家,公認(rèn)的20世紀(jì)最重要的物理學(xué)家之一)等知名學(xué)者。

博士畢業(yè)后,他先是去UC伯克利做博士后研究,隨后加入了Anthropic。在Anthropic工作的一年時(shí)間里,他參與組建了強(qiáng)化學(xué)習(xí)基礎(chǔ)團(tuán)隊(duì),負(fù)責(zé)了Claude 3.7 Sonnet框架,以及Claude 4系列背后的基本強(qiáng)化學(xué)習(xí)理論。

離開Anthropic之后,姚順宇轉(zhuǎn)戰(zhàn)谷歌DeepMind,繼續(xù)從事AI方面的研究。這次Deep Think新模型發(fā)布,也是他在谷歌的首秀之作


[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[2]https://x.com/ShunyuYao14/status/2022013770843967900
[3]https://x.com/YiTayML/status/2021988841142534287
[4]https://x.com/NoamShazeer/status/2021988459519652089
[5]https://x.com/PKUCXK/status/2022144532272623990

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
德國(guó)總理默茨率團(tuán)訪華,完整代表團(tuán)名單公布,最新調(diào)查報(bào)告顯示:93%的在華德企仍計(jì)劃維持或擴(kuò)大合作

德國(guó)總理默茨率團(tuán)訪華,完整代表團(tuán)名單公布,最新調(diào)查報(bào)告顯示:93%的在華德企仍計(jì)劃維持或擴(kuò)大合作

大風(fēng)新聞
2026-02-26 10:25:10
巴厘島遭遇暴雨,近5米長(zhǎng)蟒蛇從居民區(qū)游過(guò),當(dāng)?shù)厝A僑:白天晚上均在下雨,現(xiàn)在天氣稍微轉(zhuǎn)好

巴厘島遭遇暴雨,近5米長(zhǎng)蟒蛇從居民區(qū)游過(guò),當(dāng)?shù)厝A僑:白天晚上均在下雨,現(xiàn)在天氣稍微轉(zhuǎn)好

大象新聞
2026-02-25 23:41:02
2月25日俄烏:俄羅斯指責(zé)英法向?yàn)蹀D(zhuǎn)讓重磅武器

2月25日俄烏:俄羅斯指責(zé)英法向?yàn)蹀D(zhuǎn)讓重磅武器

山河路口
2026-02-25 22:10:30
烏度卡終于用明白了!申京搭配謝潑德盤活進(jìn)攻空間,阿門下替補(bǔ)吧

烏度卡終于用明白了!申京搭配謝潑德盤活進(jìn)攻空間,阿門下替補(bǔ)吧

籃球資訊達(dá)人
2026-02-26 12:42:23
無(wú)追夢(mèng)勇士連勝掘金灰熊!勇媒炮轟他成癥結(jié) 科爾盛贊言論成笑談

無(wú)追夢(mèng)勇士連勝掘金灰熊!勇媒炮轟他成癥結(jié) 科爾盛贊言論成笑談

顏小白的籃球夢(mèng)
2026-02-26 12:31:06
一場(chǎng)5-0,讓榜首易主,前3只差3分,C羅點(diǎn)射:21場(chǎng)轟入21球

一場(chǎng)5-0,讓榜首易主,前3只差3分,C羅點(diǎn)射:21場(chǎng)轟入21球

足球狗說(shuō)
2026-02-26 07:09:06
中國(guó)音樂(lè)家紐約路邊換胎被撞身亡,年僅35歲

中國(guó)音樂(lè)家紐約路邊換胎被撞身亡,年僅35歲

揚(yáng)子晚報(bào)
2026-02-26 10:51:43
克洛普出任皇馬主帥的新要求:接受曼聯(lián)為維尼修斯開出的報(bào)價(jià)?

克洛普出任皇馬主帥的新要求:接受曼聯(lián)為維尼修斯開出的報(bào)價(jià)?

夜白侃球
2026-02-25 22:38:06
突發(fā)!2026年全國(guó)第一巨額搶劫案在江蘇發(fā)生了,197萬(wàn),疑犯已捕

突發(fā)!2026年全國(guó)第一巨額搶劫案在江蘇發(fā)生了,197萬(wàn),疑犯已捕

原廣工業(yè)
2026-02-26 07:57:32
親密度總停在99%,想談個(gè)戀愛(ài)怎么就那么難?上海多名單身男子有苦難言:太丟臉了

親密度總停在99%,想談個(gè)戀愛(ài)怎么就那么難?上海多名單身男子有苦難言:太丟臉了

環(huán)球網(wǎng)資訊
2026-02-26 07:26:27
我見(jiàn)過(guò)最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見(jiàn)過(guò)最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
痛心!廣東英德1歲走失男童在報(bào)警人家附近魚塘中被發(fā)現(xiàn),已無(wú)生命體征

痛心!廣東英德1歲走失男童在報(bào)警人家附近魚塘中被發(fā)現(xiàn),已無(wú)生命體征

封面新聞
2026-02-26 01:57:06
門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

瓜哥的動(dòng)物日記
2026-02-25 15:33:17
史上最亂倫成語(yǔ)“上蒸下報(bào)”

史上最亂倫成語(yǔ)“上蒸下報(bào)”

華人星光
2026-02-21 11:24:05
隨著皇馬3-1,多特3-4遭逆轉(zhuǎn),歐冠16強(qiáng)正式出爐:英超6隊(duì),意甲僅1隊(duì)

隨著皇馬3-1,多特3-4遭逆轉(zhuǎn),歐冠16強(qiáng)正式出爐:英超6隊(duì),意甲僅1隊(duì)

側(cè)身凌空斬
2026-02-26 06:43:04
遭多國(guó)退貨,演習(xí)不敵殲10C,實(shí)戰(zhàn)被擊落,中國(guó)的蘇35還有啥用?

遭多國(guó)退貨,演習(xí)不敵殲10C,實(shí)戰(zhàn)被擊落,中國(guó)的蘇35還有啥用?

書紀(jì)文譚
2026-02-25 20:51:08
澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

第7情感
2026-02-23 20:45:16
大范圍雨雪來(lái)襲!江蘇2月末氣溫先升再降

大范圍雨雪來(lái)襲!江蘇2月末氣溫先升再降

現(xiàn)代快報(bào)
2026-02-26 00:09:04
震驚!網(wǎng)傳河南一老人93歲去世,此前自殺3次,起因不想住女兒家

震驚!網(wǎng)傳河南一老人93歲去世,此前自殺3次,起因不想住女兒家

火山詩(shī)話
2026-02-25 17:10:36
三星Galaxy S26系列新品發(fā)布會(huì)一文匯總,首發(fā)硬件防窺屏

三星Galaxy S26系列新品發(fā)布會(huì)一文匯總,首發(fā)硬件防窺屏

IT之家
2026-02-26 04:01:01
2026-02-26 12:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12204文章數(shù) 176394關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

特朗普自詡開啟美國(guó)"黃金時(shí)代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國(guó)"黃金時(shí)代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變!有人投百萬(wàn)賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來(lái)襲

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
家居
旅游
時(shí)尚

房產(chǎn)要聞

2.2萬(wàn)/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

手機(jī)要聞

三星Galaxy S26 Ultra手機(jī)支持2400萬(wàn)像素直出

家居要聞

歸隱于都市 慢享自由

旅游要聞

一整年都有新驚喜!上海迪士尼十周年慶典即將啟幕,三大娛樂(lè)演出煥新升級(jí)

倫敦時(shí)裝周|2026秋冬流行趨勢(shì)早知道

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版