国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌 Gemini 3 深夜炸場:沒有懸念的最強(qiáng) AI

0
分享至


新王登基了。


作者|Li Yuan

來了。

預(yù)熱了快一個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續(xù)上線Google的各項產(chǎn)品中。

沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓。

按照 Google 披露的測試數(shù)據(jù),Gemini 3 Pro 毫無懸念地成為了目前地球上數(shù)學(xué)最強(qiáng)的 AI。在數(shù)學(xué)競賽的「地獄模式」MathArena 里,當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接干到了23.4%。

編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調(diào)用和終端操作基準(zhǔn)測試中更是名列第一。

真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達(dá)72.7%,是目前最先進(jìn)水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機(jī)的模式。

但這還沒完,Google 今晚還順手扔出了一個小王炸:自家的 Agentic 編程平臺——Google Antigravity。

此前網(wǎng)傳 Gemini 3 能實現(xiàn)「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統(tǒng)工程實現(xiàn)端到端編程。

如果說 Cursor 是目前最強(qiáng)的「外骨骼」,它通過 AI 補(bǔ)全讓你寫代碼更快;那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器,而是一個智能體優(yōu)先(Agent-first)發(fā)環(huán)境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發(fā)現(xiàn)報錯自己修。

不講故事,只拼肌肉。

Google 用這一波硬核發(fā)布宣告:新王已至。

有趣的是,這次連 Sam Altman 都獻(xiàn)上了自己的點贊。:)


01

霸榜的暴力美學(xué):不止是智商洗榜,更是 Agent 能力的變化

在 AI 圈子里,大家習(xí)慣了模型之間你追我趕的微弱優(yōu)勢,但 Gemini 3 Pro 拋出的這份成績單,可以說十分耀眼。

根據(jù) Model Card 披露的數(shù)據(jù),Gemini 3 Pro 在推理、多模態(tài)、Agent 工具使用等關(guān)鍵基準(zhǔn)上,實現(xiàn)了全方位的霸榜。


讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam(人類最終大考)。這是一個衡量學(xué)術(shù)推理極限的標(biāo)尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復(fù)雜學(xué)術(shù)問題時,已經(jīng)具備了完全不同的理解深度。

但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進(jìn)一步飆升至41.0%。看起來人類最后的堡壘也并不能持續(xù)很久了。


數(shù)理方面的每一個領(lǐng)域,都能看出它的統(tǒng)治力。

AIME 2025(美國數(shù)學(xué)邀請賽):配合代碼執(zhí)行(Code Execution),Gemini 3 Pro 的準(zhǔn)確率達(dá)到了驚人的100%。沒錯,是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準(zhǔn)確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

MathArena Apex(數(shù)學(xué)競賽地獄模式):當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領(lǐng)域,Gemini 3 已經(jīng)開始解題了。

而更關(guān)鍵的是 Agent 相關(guān)能力的提升。

Gemini 一向在多模態(tài)能力上領(lǐng)先,這一代更是專門優(yōu)化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關(guān)鍵。

ScreenSpot-Pro這一欄數(shù)據(jù):

  • GPT-5.1:3.5%(這基本意味著它是個「瞎子」)。

  • Gemini 3 Pro:72.7%。

這是近乎20 倍的能力碾壓!這標(biāo)志著 Gemini 3 Pro 已經(jīng)不再是一個單純的對話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復(fù)雜的操作系統(tǒng)界面。

在一些傳統(tǒng)強(qiáng)項上,Gemini 3 Pro 仍然表現(xiàn)出色——比如支持1M Token的超大上下文窗口、對多模態(tài)數(shù)據(jù)的「原生支持」、長視頻和多語言處理等等。



有一個很有趣的標(biāo)準(zhǔn)也被 Google 掛了上來:在 一個模擬開店賺錢的基準(zhǔn) Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產(chǎn),而 GPT-5.1 僅賺了 $1,473.43。

不過關(guān)于之前網(wǎng)傳「徹底端到端終結(jié)程序員」的編程能力,Gemini 3 Pro 的狀態(tài)是在 AI 屆頂尖,但并沒有「顛覆編程」。

在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強(qiáng),但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復(fù)雜的后端邏輯時,它依然有局限性。

這也很合理。每一個大模型目前都在全力卷編程的情況下,想要在這個領(lǐng)域一騎絕塵確實比較難。

目前 Gemini 的能力更偏向于,還不能幫你重構(gòu)整個后端架構(gòu),但如果你想寫一個極具現(xiàn)代設(shè)計美學(xué)的網(wǎng)站、一個 3D 飛船游戲,或者生成復(fù)雜的 SVG 交互動畫,它能通過一次提示就給出極其驚艷的、可直接運行的結(jié)果。

02

Antigravity,Agentic 編程的探索

有了最強(qiáng)的模型和算力,谷歌開始在應(yīng)用層「掀桌子」了。今晚,谷歌扔出了一個「小王炸」——Google Antigravity

前一陣新聞的風(fēng)向還是模型公司努力收購 AI 編程應(yīng)用公司呢,而 Google 這次則這么快的就發(fā)了自己的開發(fā)平臺。

這不僅僅是一個新的 IDE,它是谷歌定義的Agent-first(智能體優(yōu)先)開發(fā)平臺。在這里,開發(fā)者從「碼農(nóng)」升級為「架構(gòu)師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權(quán)限的「執(zhí)行合伙人」。

為了達(dá)成這種體驗,谷歌甚至在后臺配置了一個「模型軍團(tuán)」協(xié)同作戰(zhàn):

  • Gemini 3:作為大腦,負(fù)責(zé)高級推理和代碼編寫。

  • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進(jìn)行 UI 驗證和測試。

  • Nano Banana:作為美工,負(fù)責(zé)生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環(huán)體驗,對于 Cursor 等現(xiàn)有 AI 編輯器來說,無疑是一次降維打擊。


Antigravity 最有趣的能力在于并行。官方材料明確提到,開發(fā)者可以與多個智能 Agent 協(xié)作,而這些 Agent 能夠代表你同時 自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)。

想象一下這種工作流:你下達(dá)一個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負(fù)責(zé)寫后端邏輯,Agent B 負(fù)責(zé)在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖,像是一個配合默契的敏捷開發(fā)小組,而你只需要驗收它們提交的「工件」。

Antigravity 是是一個免費平臺,網(wǎng)絡(luò)上目前對于 Antigravity 的使用體驗不多,但基本上都是好評。

要達(dá)到替代 Cursor 本身,肯定不太行——端到端的復(fù)雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進(jìn)行編程,或許會更簡單了。

03

全家桶齊發(fā)力:TPU 與搜索

在大模型發(fā)展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數(shù)據(jù)更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點是很特別的:Gemini 3 Pro 是使用 Google TPU 訓(xùn)練的。

當(dāng)全世界的 AI 公司都在苦苦等待英偉達(dá) GPU 的發(fā)貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓(xùn)練設(shè)計,擁有極高的高帶寬內(nèi)存(HBM),這讓它能夠輕松處理海量的模型參數(shù)和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴(kuò)張參數(shù)規(guī)模的底氣。

有了算力,還要有「燃料」。Gemini 3 Pro 的訓(xùn)練數(shù)據(jù)是全維度的覆蓋:它吞噬了公共網(wǎng)絡(luò)文檔、代碼庫、圖像、音頻和視頻。更關(guān)鍵的是,谷歌明確提到使用了User Data(用戶數(shù)據(jù))——當(dāng)然是在隱私協(xié)議框架下,來自谷歌龐大產(chǎn)品生態(tài)的用戶交互數(shù)據(jù)。

最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當(dāng)你搜索一個復(fù)雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強(qiáng)大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動圖表或模擬工具。


從底層的 TPU 硅基霸權(quán),到中間層的模型智能,再到頂層的 Antigravity 開發(fā)生態(tài)與生成式搜索——谷歌這一夜展示的,不僅僅是一個滿分模型,而是一個只有巨頭才能構(gòu)建的、嚴(yán)絲合縫的未來。

04

實測體驗

最后讓我們看看網(wǎng)上的一些實測體驗吧。

出名的六邊形測試的升級款。


不少帖子提及了設(shè)計上的美感。


一些物理世界的建模。


前面提到的,Gemini 對于用戶界面數(shù)據(jù)這塊做了特別的優(yōu)化。


開發(fā)應(yīng)用。


在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復(fù)雜的前沿基準(zhǔn)測試,其測量精度也開始失效。如何科學(xué)地量化模型之間的微妙差距,已經(jīng)成為了一門專門的「量化科學(xué)」,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機(jī)。

實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態(tài)。

Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

當(dāng)模型直出能力越來越好,對于開發(fā)者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。

*頭圖來源:視覺中國

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你覺得人類的審美跑的過

AI 的直出審美嗎?

扎克伯格:傲慢就會失敗,創(chuàng)造應(yīng)該服務(wù)群眾

點贊關(guān)注 極客公園視頻號 ,

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國核工業(yè)集團(tuán),總工程師羅琦,突然從一個極重要位置上被撤下來

中國核工業(yè)集團(tuán),總工程師羅琦,突然從一個極重要位置上被撤下來

百態(tài)人間
2026-02-25 15:36:52
我在國安局監(jiān)聽敵方頻道時,竟聽到了我上司和敵方在密謀交易

我在國安局監(jiān)聽敵方頻道時,竟聽到了我上司和敵方在密謀交易

千秋文化
2026-02-20 20:27:25
吉利偷偷換上了朱雀新車標(biāo),被18個國家搶購,帥得有點太過分

吉利偷偷換上了朱雀新車標(biāo),被18個國家搶購,帥得有點太過分

有態(tài)度網(wǎng)友17y
2026-02-26 19:58:08
中戲的招生丑聞,徹底震驚了整個藝術(shù)圈!

中戲的招生丑聞,徹底震驚了整個藝術(shù)圈!

南權(quán)先生
2026-02-24 15:52:36
賭中國不會還手?巴拿馬總統(tǒng)被秒打臉,中方第五波反制馬上就到

賭中國不會還手?巴拿馬總統(tǒng)被秒打臉,中方第五波反制馬上就到

石江月
2026-02-28 17:09:34
領(lǐng)克關(guān)掉的大燈,照亮了新能源車圈的吐槽大會

領(lǐng)克關(guān)掉的大燈,照亮了新能源車圈的吐槽大會

鈦媒體APP
2026-02-28 09:12:54
吳夢潔殺瘋了!再砍全場最高3分,助江蘇女排復(fù)仇山東

吳夢潔殺瘋了!再砍全場最高3分,助江蘇女排復(fù)仇山東

金毛愛女排
2026-02-28 23:09:18
第25屆冬奧會中國體育代表團(tuán)總結(jié)大會在京召開

第25屆冬奧會中國體育代表團(tuán)總結(jié)大會在京召開

北青網(wǎng)-北京青年報
2026-02-28 16:29:03
美以襲擊造成伊朗一學(xué)校51人死亡 現(xiàn)場一片廢墟 民眾崩潰尖叫

美以襲擊造成伊朗一學(xué)校51人死亡 現(xiàn)場一片廢墟 民眾崩潰尖叫

新華社
2026-02-28 21:03:12
中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
震驚,江蘇某建筑公司裁員裁得只剩下兩個人了!

震驚,江蘇某建筑公司裁員裁得只剩下兩個人了!

黯泉
2026-02-27 22:32:24
又給全球上一課!美國都沒發(fā)現(xiàn)?500萬大軍藏75年,7艘航母藏東海

又給全球上一課!美國都沒發(fā)現(xiàn)?500萬大軍藏75年,7艘航母藏東海

華人星光
2026-01-28 11:35:47
柔廓:一種關(guān)于性別的自覺語法

柔廓:一種關(guān)于性別的自覺語法

疾跑的小蝸牛
2026-02-28 22:54:32
以方消息稱伊朗政府所有高級官員都是襲擊目標(biāo)

以方消息稱伊朗政府所有高級官員都是襲擊目標(biāo)

財聯(lián)社
2026-02-28 15:29:11
2026 年有線電視全國一網(wǎng)推進(jìn)!收費漲嗎?機(jī)頂盒換嗎?4 大變化

2026 年有線電視全國一網(wǎng)推進(jìn)!收費漲嗎?機(jī)頂盒換嗎?4 大變化

生活不過如此呀
2026-03-01 00:00:05
伊朗失守的一個側(cè)面:匯率雙軌,特權(quán)分蛋糕,普通人買單

伊朗失守的一個側(cè)面:匯率雙軌,特權(quán)分蛋糕,普通人買單

蛙蛙和洼
2026-01-18 09:25:01
給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

百態(tài)人間
2026-02-28 15:31:33
美伊調(diào)解人發(fā)聲:敦促美國收手

美伊調(diào)解人發(fā)聲:敦促美國收手

參考消息
2026-03-01 01:29:04
知情人士稱伊朗最高領(lǐng)袖正坐鎮(zhèn)指揮

知情人士稱伊朗最高領(lǐng)袖正坐鎮(zhèn)指揮

財聯(lián)社
2026-03-01 02:45:07
這就是赤裸裸的現(xiàn)實!越來越多央國企員工已經(jīng)成了周末夫妻?

這就是赤裸裸的現(xiàn)實!越來越多央國企員工已經(jīng)成了周末夫妻?

娛樂圈見解說
2026-02-20 10:11:21
2026-03-01 04:16:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11835文章數(shù) 78818關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

伊朗媒體公布反擊美軍軍事行動結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動結(jié)果

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

數(shù)碼
時尚
游戲
旅游
藝術(shù)

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

這6款發(fā)色居然這么火?50張圖可以直接給tony

所有人保持嘴角不變!生化危機(jī):安魂曲里昂騷話大盤點

旅游要聞

忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長年味!

藝術(shù)要聞

驚艷!這位天使般的女子與油畫讓人心動不已!

無障礙瀏覽 進(jìn)入關(guān)懷版