国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI

0
分享至


新王登基了。


作者|Li Yuan

來了。

預(yù)熱了快一個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續(xù)上線Google的各項產(chǎn)品中。

沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓。

按照 Google 披露的測試數(shù)據(jù),Gemini 3 Pro 毫無懸念地成為了目前地球上數(shù)學(xué)最強的 AI。在數(shù)學(xué)競賽的「地獄模式」MathArena 里,當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接干到了23.4%。

編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調(diào)用和終端操作基準(zhǔn)測試中更是名列第一。

真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

但這還沒完,Google 今晚還順手扔出了一個小王炸:自家的 Agentic 編程平臺——Google Antigravity。

此前網(wǎng)傳 Gemini 3 能實現(xiàn)「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統(tǒng)工程實現(xiàn)端到端編程。

如果說 Cursor 是目前最強的「外骨骼」,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器,而是一個智能體優(yōu)先(Agent-first)發(fā)環(huán)境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發(fā)現(xiàn)報錯自己修。

不講故事,只拼肌肉。

Google 用這一波硬核發(fā)布宣告:新王已至。

有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)


01

霸榜的暴力美學(xué):不止是智商洗榜,更是 Agent 能力的變化

在 AI 圈子里,大家習(xí)慣了模型之間你追我趕的微弱優(yōu)勢,但 Gemini 3 Pro 拋出的這份成績單,可以說十分耀眼。

根據(jù) Model Card 披露的數(shù)據(jù),Gemini 3 Pro 在推理、多模態(tài)、Agent 工具使用等關(guān)鍵基準(zhǔn)上,實現(xiàn)了全方位的霸榜。


讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam(人類最終大考)。這是一個衡量學(xué)術(shù)推理極限的標(biāo)尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復(fù)雜學(xué)術(shù)問題時,已經(jīng)具備了完全不同的理解深度。

但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進一步飆升至41.0%??雌饋砣祟愖詈蟮谋疽膊⒉荒艹掷m(xù)很久了。


數(shù)理方面的每一個領(lǐng)域,都能看出它的統(tǒng)治力。

AIME 2025(美國數(shù)學(xué)邀請賽):配合代碼執(zhí)行(Code Execution),Gemini 3 Pro 的準(zhǔn)確率達到了驚人的100%。沒錯,是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準(zhǔn)確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

MathArena Apex(數(shù)學(xué)競賽地獄模式):當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領(lǐng)域,Gemini 3 已經(jīng)開始解題了。

而更關(guān)鍵的是 Agent 相關(guān)能力的提升。

Gemini 一向在多模態(tài)能力上領(lǐng)先,這一代更是專門優(yōu)化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關(guān)鍵。

ScreenSpot-Pro這一欄數(shù)據(jù):

  • GPT-5.1:3.5%(這基本意味著它是個「瞎子」)。

  • Gemini 3 Pro:72.7%

這是近乎20 倍的能力碾壓!這標(biāo)志著 Gemini 3 Pro 已經(jīng)不再是一個單純的對話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復(fù)雜的操作系統(tǒng)界面。

在一些傳統(tǒng)強項上,Gemini 3 Pro 仍然表現(xiàn)出色——比如支持1M Token的超大上下文窗口、對多模態(tài)數(shù)據(jù)的「原生支持」、長視頻和多語言處理等等。



有一個很有趣的標(biāo)準(zhǔn)也被 Google 掛了上來:在 一個模擬開店賺錢的基準(zhǔn) Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產(chǎn),而 GPT-5.1 僅賺了 $1,473.43。

不過關(guān)于之前網(wǎng)傳「徹底端到端終結(jié)程序員」的編程能力,Gemini 3 Pro 的狀態(tài)是在 AI 屆頂尖,但并沒有「顛覆編程」。

在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復(fù)雜的后端邏輯時,它依然有局限性。

這也很合理。每一個大模型目前都在全力卷編程的情況下,想要在這個領(lǐng)域一騎絕塵確實比較難。

目前 Gemini 的能力更偏向于,還不能幫你重構(gòu)整個后端架構(gòu),但如果你想寫一個極具現(xiàn)代設(shè)計美學(xué)的網(wǎng)站、一個 3D 飛船游戲,或者生成復(fù)雜的 SVG 交互動畫,它能通過一次提示就給出極其驚艷的、可直接運行的結(jié)果。

02

Antigravity,Agentic 編程的探索

有了最強的模型和算力,谷歌開始在應(yīng)用層「掀桌子」了。今晚,谷歌扔出了一個「小王炸」——Google Antigravity

前一陣新聞的風(fēng)向還是模型公司努力收購 AI 編程應(yīng)用公司呢,而 Google 這次則這么快的就發(fā)了自己的開發(fā)平臺。

這不僅僅是一個新的 IDE,它是谷歌定義的Agent-first(智能體優(yōu)先)開發(fā)平臺。在這里,開發(fā)者從「碼農(nóng)」升級為「架構(gòu)師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權(quán)限的「執(zhí)行合伙人」。

為了達成這種體驗,谷歌甚至在后臺配置了一個「模型軍團」協(xié)同作戰(zhàn):

  • Gemini 3:作為大腦,負(fù)責(zé)高級推理和代碼編寫。

  • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。

  • Nano Banana:作為美工,負(fù)責(zé)生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環(huán)體驗,對于 Cursor 等現(xiàn)有 AI 編輯器來說,無疑是一次降維打擊。


Antigravity 最有趣的能力在于并行。官方材料明確提到,開發(fā)者可以與多個智能 Agent 協(xié)作,而這些 Agent 能夠代表你同時 自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)。

想象一下這種工作流:你下達一個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負(fù)責(zé)寫后端邏輯,Agent B 負(fù)責(zé)在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖,像是一個配合默契的敏捷開發(fā)小組,而你只需要驗收它們提交的「工件」。

Antigravity 是是一個免費平臺,網(wǎng)絡(luò)上目前對于 Antigravity 的使用體驗不多,但基本上都是好評。

要達到替代 Cursor 本身,肯定不太行——端到端的復(fù)雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。

03

全家桶齊發(fā)力:TPU 與搜索

在大模型發(fā)展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數(shù)據(jù)更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點是很特別的:Gemini 3 Pro 是使用 Google TPU 訓(xùn)練的

當(dāng)全世界的 AI 公司都在苦苦等待英偉達 GPU 的發(fā)貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓(xùn)練設(shè)計,擁有極高的高帶寬內(nèi)存(HBM),這讓它能夠輕松處理海量的模型參數(shù)和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數(shù)規(guī)模的底氣。

有了算力,還要有「燃料」。Gemini 3 Pro 的訓(xùn)練數(shù)據(jù)是全維度的覆蓋:它吞噬了公共網(wǎng)絡(luò)文檔、代碼庫、圖像、音頻和視頻。更關(guān)鍵的是,谷歌明確提到使用了User Data(用戶數(shù)據(jù))——當(dāng)然是在隱私協(xié)議框架下,來自谷歌龐大產(chǎn)品生態(tài)的用戶交互數(shù)據(jù)。

最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當(dāng)你搜索一個復(fù)雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動圖表或模擬工具。


從底層的 TPU 硅基霸權(quán),到中間層的模型智能,再到頂層的 Antigravity 開發(fā)生態(tài)與生成式搜索——谷歌這一夜展示的,不僅僅是一個滿分模型,而是一個只有巨頭才能構(gòu)建的、嚴(yán)絲合縫的未來。

04

實測體驗

最后讓我們看看網(wǎng)上的一些實測體驗吧。

出名的六邊形測試的升級款。


不少帖子提及了設(shè)計上的美感。


一些物理世界的建模。


前面提到的,Gemini 對于用戶界面數(shù)據(jù)這塊做了特別的優(yōu)化。


開發(fā)應(yīng)用。


在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復(fù)雜的前沿基準(zhǔn)測試,其測量精度也開始失效。如何科學(xué)地量化模型之間的微妙差距,已經(jīng)成為了一門專門的「量化科學(xué)」,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。

實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態(tài)。

Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

當(dāng)模型直出能力越來越好,對于開發(fā)者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。

*頭圖來源:視覺中國

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你覺得人類的審美跑的過

AI 的直出審美嗎?

扎克伯格:傲慢就會失敗,創(chuàng)造應(yīng)該服務(wù)群眾

點贊關(guān)注 極客公園視頻號 ,

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
山東八路山頭多,由誰掌舵成難題,43年毛主席果斷將指揮權(quán)交一人

山東八路山頭多,由誰掌舵成難題,43年毛主席果斷將指揮權(quán)交一人

歷史龍元閣
2026-04-16 06:45:09
紐約時報:40美元半只雞讓美國人震驚

紐約時報:40美元半只雞讓美國人震驚

新浪財經(jīng)
2026-04-16 12:46:58
上喂阿祖下睡士兵男孩!底特律變?nèi)伺鞒珊谂勰虌?>
    </a>
        <h3>
      <a href=游民星空
2026-04-16 18:19:55
這則污蔑中國人的假消息,不少日本人看不下去了……

這則污蔑中國人的假消息,不少日本人看不下去了……

環(huán)球時報國際
2026-04-17 00:17:01
鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

青橘罐頭
2026-04-17 07:19:47
震驚!面館“免費加”被指性暗示,網(wǎng)友:99%的人不知哪有性暗示

震驚!面館“免費加”被指性暗示,網(wǎng)友:99%的人不知哪有性暗示

火山詩話
2026-04-17 07:28:41
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
連續(xù)暴跌!一字跌停封死,想跑都跑不掉

連續(xù)暴跌!一字跌停封死,想跑都跑不掉

財經(jīng)智多星
2026-04-15 15:13:57
不可思議!蒙古國三百萬人去年生了8萬,內(nèi)蒙兩千多萬人才生了10萬

不可思議!蒙古國三百萬人去年生了8萬,內(nèi)蒙兩千多萬人才生了10萬

西游日記
2026-04-16 20:53:41
4年戰(zhàn)爭,烏克蘭殺瘋了!海陸空無人武器全面進化,打到莫斯科已成現(xiàn)實

4年戰(zhàn)爭,烏克蘭殺瘋了!海陸空無人武器全面進化,打到莫斯科已成現(xiàn)實

網(wǎng)易新聞出品
2026-04-16 13:47:19
中國女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

中國女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

籃球快餐車
2026-04-17 02:11:49
攬勝回應(yīng)被大量模仿:很高興 每一次都說明攬勝就是標(biāo)桿!

攬勝回應(yīng)被大量模仿:很高興 每一次都說明攬勝就是標(biāo)桿!

快科技
2026-04-17 00:59:12
確認(rèn)了!兩人系間諜

確認(rèn)了!兩人系間諜

浙江之聲
2026-04-16 22:16:31
廣西攔路的路霸已被刑事拘留,網(wǎng)友好奇為啥只抓5人

廣西攔路的路霸已被刑事拘留,網(wǎng)友好奇為啥只抓5人

映射生活的身影
2026-04-16 23:47:58
她工資腰斬,卻想學(xué)開飛機去轟炸伊朗

她工資腰斬,卻想學(xué)開飛機去轟炸伊朗

澎湃新聞
2026-04-17 07:22:29
慘了!伊朗使用星鏈的用戶將面臨死刑,軍方啟用電子干擾星鏈

慘了!伊朗使用星鏈的用戶將面臨死刑,軍方啟用電子干擾星鏈

深度報
2026-04-16 22:38:25
澳門有多大

澳門有多大

新科文
2026-04-16 18:31:53
普京訪華時間定了,與特朗普到訪日期相近,俄表態(tài)不排斥舉行會晤

普京訪華時間定了,與特朗普到訪日期相近,俄表態(tài)不排斥舉行會晤

軍機Talk
2026-04-16 14:46:25
萬萬沒有想到,女神居然也接小商演,看來這樣比較賺錢??!

萬萬沒有想到,女神居然也接小商演,看來這樣比較賺錢??!

東方不敗然多多
2026-04-16 16:27:04
2026-04-17 09:59:00
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11957文章數(shù) 78872關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

時尚
房產(chǎn)
數(shù)碼
藝術(shù)
軍事航空

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會,擠爆了!

數(shù)碼要聞

AOC推出兩款27" QHD 210Hz Fast IPS顯示器,支持圓偏光護眼

藝術(shù)要聞

鄭麗文在上海講話引發(fā)熱議,蔣經(jīng)國辦公室揭秘書法未來!

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進入關(guān)懷版