国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ZPedia|Gemini 3全面斷崖式領先,單個模型橫掃多模態(tài)、推理、Agent三大戰(zhàn)場,Google王者歸來

0
分享至

過去一年,Google 的進步肉眼可見。

ChatGPT 橫掃全球時,Google 一度像被打了個措手不及的巨頭。但短短不到一年,Veo 3、Nano Banana、Genie 3 接連發(fā)布,一個被外界質(zhì)疑“落后”的公司,突然又展現(xiàn)出定義時代的力量。

今天,在全球技術圈幾乎屏住呼吸的等待中,Google 終于推出了最新一代 AI 模型——Gemini 3。

遙遙領先,Gemini 3化身無情的屠榜機器

如果只看數(shù)字,Gemini 3 這一代的成績幾乎去全面碾壓。它不是在一個榜單上領先,而是把能刷的榜單都刷了一遍;不是以某一項特色出圈,而是把多模態(tài)、推理、Agent 三條最難突破的線路,一次性拉到行業(yè)天花板。


先看推理能力。

在開放評測平臺 LMArena 上,Gemini 3 Pro 以 1501 分的成績站到通用模型第一梯隊的最前列。在 SimpleQA Verified 這種強調(diào)事實性與復雜問答準確度的測試里,它達到 72.1%,意味著幻覺率和知識錯誤率被顯著壓低。

在更加嚴苛的人類“終極試卷” Humanity’s Last Exam 中,它在不借用任何外部工具的情況下拿到 37.5%;在博士級科學問答 GPQA Diamond 上更是達到 91.9%;在數(shù)學難題集 MathArena Apex 上刷新最新記錄,拿下 23.4%,為數(shù)學推理模型樹立了新的基準線。

真正具有象征意義的,是它的 Deep Think 模式。當模型能夠分配更多 token、延長推理鏈路后,它在 Humanity’s Last Exam 上躍升至 41%,在 GPQA Diamond 上攀升到 93.8%,在 ARC-AGI 上突破 45%。

這些都是傳統(tǒng) scaling law 被認為“撞墻”的任務,而上一代 Gemini 2.5 在 ARC-AGI 上還不到 5%。在 2025 年這樣一個對推理悲觀論甚囂塵上的時期,這種接近 10 倍的跨越無疑刺破了行業(yè)的認知天花板。


再來看多模態(tài)表現(xiàn)。

Gemini 3 Pro 在 MMMU-Pro 上取得 81%,在 Video-MMMU 上達到 87.6%,幾乎把這幾年所有主流多模態(tài)模型的紀錄重新洗牌。這兩項被業(yè)內(nèi)視為真正的“硬試卷”,考驗的不是看圖回答,而是在跨圖像、跨學科、跨語境的混合任務中,保持一條不被打斷的推理鏈條。

真正讓行業(yè)震動的,并不是這些高分本身,而是它如何得到這些分數(shù):Gemini 3 首次把“視覺理解”與“邏輯推理”合成同一種能力。

谷歌展示了一個場景——一個手寫、符號混雜、排版混亂的本子,模型不僅能精準 OCR,還能自動消解符號不一致帶來的歧義,最終給出的答案甚至比受過訓練的學生更穩(wěn)定。


更關鍵的是,這些表現(xiàn)全部來自一個通用模型,而不是圖像或視頻方向的專精模型。這意味著多模態(tài)不再是外掛能力,而是模型內(nèi)部原生的一部分。

隨著這些能力被整合在一起,Gemini 3 逐漸顯露出一種超出語言層面的“操作心智”:它不僅能理解視覺結(jié)構(gòu),也能讀懂界面變化、預測用戶操作,甚至推斷環(huán)境動態(tài)。推理不再只是答題,而開始向“理解世界如何運作”邁一步。

最后看 Agent 能力。

Gemini 3 Pro 的進步已經(jīng)不是“更強一點”,而是直接跨到一個新的層級。

在 t2-bench 這項工具與系統(tǒng)操作測試中,它拿到 85.4% 的高分,意味著模型不僅能理解你的指令,還能像工程師一樣在真實軟件環(huán)境里調(diào)用 API、處理文件、執(zhí)行系統(tǒng)命令。這是檢驗 Agent 真本事的關鍵,一旦失誤就無法偽裝,而 Gemini 3 Pro 展現(xiàn)出了頂尖的穩(wěn)定性。

真正體現(xiàn)智能體“耐力”的,是 Vending-Bench 2。這項測試模擬一個自動售貨機一整年的運營,考驗模型能否長期記住目標、保持策略不跑偏。Gemini 3 Pro 最終獲得 5478 分,明顯領先所有同級模型,展現(xiàn)出罕見的長鏈任務穩(wěn)態(tài)能力。


在 Terminal-Bench 2.0 中,它還需要在 Unix 環(huán)境里讀日志、改配置、跑驗證,模擬一次真實的自動化修復流程。它的 54.2% 得分說明,它不僅會“說”,也真的會“修”。

這些數(shù)字背后的共性其實只有一個:

Gemini 3 不再是“某個維度特別強”的模型,而是第一次在推理、多模態(tài)、Agent 三個最難突破的方向上,同時達成了可觀的領先優(yōu)勢,而且全部集中在同一個通用模型里。

從模型到產(chǎn)品:Gemini 3 把“答案”變成了“界面”和“行動”

如果說榜單告訴我們的是“能力”,那產(chǎn)品呈現(xiàn)的則是這些能力如何被組織起來、如何被普通人真正用到手里的。

在 Gemini 3 身上,谷歌做了兩件過去很少有人認真做的事:

第一,把模型的輸出從“文本”升級成“界面”;

第二,讓模型從“對話參與者”變成“任務執(zhí)行者”。

在日常使用中,最直觀的變化發(fā)生在 Gemini App 自身。新版應用已經(jīng)不再是一個單一對話框,而更像是一個“由模型驅(qū)動的工作空間”。在這里,你可以在 Canvas 中用自然語言構(gòu)建完整的程序、應用或原型——Gemini 3 Pro 負責多步驟的規(guī)劃、代碼生成、界面生成和調(diào)試,你只需要不斷描述你想要的效果。

另一條非常關鍵的產(chǎn)品線,是所謂的“生成式界面”(Generative Interfaces)。在 Google 的研究與產(chǎn)品博客中,這被稱為一類全新的交互體驗:用戶發(fā)出一個自然語言請求,模型不是直接返回一段答案,而是即時生成一個結(jié)構(gòu)化的、視覺化的界面。

Google 把這種能力分成兩類實驗形態(tài):視覺布局負責“把復雜信息排版成一篇好讀的雜志頁”,而 Dynamic View 則直接生成可以操作的計算器、圖形、模擬器、圖廊甚至完整的小工具,讓回答本身就變成一個“能動”的界面。這些體驗已經(jīng)開始在 Search 的 AI Mode 中出現(xiàn),用戶可以在搜索里直接見到動態(tài)布局、交互組件和實時模擬。

與此同時,Gemini Agent 作為一項仍在實驗階段的能力,負責把這些“理解”和“界面”延伸到行動層面。在 Gemini App 中,它可以連接 Gmail、Calendar 等 Workspace 應用,自動為你整理郵箱、歸類任務、提煉行動項,甚至根據(jù)郵件中的航班信息和預算需求,主動比較租車、預訂酒店,再把決策節(jié)點交給用戶確認。

對開發(fā)者而言,Google Antigravity 則是另一個意義重大的新物種。The Verge 和 TechCrunch 的報道都指出,這個 IDE 本質(zhì)上是一個“agent-first”的開發(fā)環(huán)境:多個 Gemini 3 驅(qū)動的代理可以同時在編輯器、終端、瀏覽器三處操作,生成代碼、執(zhí)行命令、打開網(wǎng)頁、做驗證,并把整個過程記錄為 Artifact 供人類復盤。

整條產(chǎn)品線串起來,會發(fā)現(xiàn) Gemini 3 正在做一件非常有野心的事。

它試圖把“答案”升級為“可操作的界面”,再進一步升級為“真實執(zhí)行的行動”,最終把模型變成一個“能替你做完一件事”的系統(tǒng),而不僅僅是一個“告訴你怎么做”的顧問。

Gemini 3 到底改變了什么?

從表面看,Gemini 3 只是把一堆 benchmark 刷到了新高,把搜索、App、IDE 同步做了升級;但如果把這些碎片放在一起看,就會發(fā)現(xiàn)它其實踩中了幾個關鍵的技術與產(chǎn)品轉(zhuǎn)折點。

第一,統(tǒng)一模型路線第一次有了清晰的技術樣本。

過去幾年,業(yè)界在多模態(tài)這件事上有一個隱形共識:想要圖像強,就做一個圖像向的專精模型;想要推理強,就做一個思考向的推理模型;想要 Agent 能力,就往工具調(diào)用上拼命堆安全與流程。結(jié)果就是,每條賽道上都有一些強模型,但真正能在同一個模型里把三件事都做好的,幾乎沒有。

Gemini 3 給出的答案是:不拆分、不堆疊,而是真正做一個原生多模態(tài)、原生推理、原生 Agent 的統(tǒng)一架構(gòu)。也就是說,這不是“多模型拼盤”,而是一個統(tǒng)一心智在面對不同任務。

第二,“scaling law 撞墻”這句話,恐怕要重新討論了。

過去一年,大家對于 scaling law 的悲觀,主要來自兩個現(xiàn)實:其一是預訓練數(shù)據(jù)逼近上限,其二是參數(shù)繼續(xù)往上堆卻難以換來線性可感知的推理提升。但 Gemini 3 在 ARC-AGI、Humanity’s Last Exam 等極難基準上的跳躍式表現(xiàn)說明,真正起決定性作用的,很可能并不是“堆多大”,而是“結(jié)構(gòu)、訓練范式和任務設計有沒有跟著一起升級”

第三,交互范式正在從“對話式 AI”邁向“界面式 AI”。

ChatGPT 把整個行業(yè)帶入了“對話優(yōu)先”的交互世界,大家開始習慣在一個大輸入框里問所有問題。但 Gemini 3 的 generative UI、Dynamic View 等能力表明,谷歌相信的下一步,是讓模型直接生成界面、頁面、控制面板、模擬器,而不再把“答案”局限在一條條文本里。

當模型可以根據(jù)你的問題即時構(gòu)造出一個適配任務的 UI 時,人與 AI 的關系就從“問—答”變成了“設定任務—共同操作界面”。AI 不再只是在語言層面輔佐你,而是開始和你共享一個可操作的工作環(huán)境。

第四,谷歌拿到了Nano Banana之后又一次“產(chǎn)品側(cè)翻盤窗口”。

OpenAI 在 GPT-5 / GPT-5.1 這一代上并沒有像 GPT-4 那樣形成壓倒性優(yōu)勢,反而給了競爭對手喘息空間。而谷歌這次的打法非常明確:模型端用統(tǒng)一架構(gòu)“屠榜”,產(chǎn)品端在 Search、Gemini App、Workspace、Antigravity 全線鋪開,交互上又用 generative UI 和 Agent 拉開與傳統(tǒng)對話式 AI 的差異。

如果這些能力在接下來半年到一年里持續(xù)穩(wěn)定,不只是開發(fā)者,普通用戶也會真切地感受到“這代產(chǎn)品不太一樣了”。那時,誰在消費級 AI 上更有優(yōu)勢,很可能就要重新算賬。

全面反攻——Google AI 戰(zhàn)略的真正底牌

Google的轉(zhuǎn)變并不是爆發(fā),而是一次漫長沉淀后的結(jié)構(gòu)性反攻。

在 Google 內(nèi)部,“AI-first”已經(jīng)不再是口號,而是一次痛下決心的自我改造。皮查伊多次在公開采訪中強調(diào):Google 正在進入“AI-first 的第二階段”。這句話意味著公司核心身份悄然改變——它不再把自己視為一家搜索公司,而是要成為下一代計算平臺的創(chuàng)建者。搜索、Android、Chrome、Workspace、YouTube、Cloud 等所有核心業(yè)務都在圍繞 Gemini 重構(gòu),甚至連公司 2025 年接近 900 億美元的資本開支,幾乎都指向同一件事:為模型供電,為未來鋪路。

組織結(jié)構(gòu)上的調(diào)整是這次反攻的起點。Google Brain 與 DeepMind 的合并,讓全公司的模型路線首次“統(tǒng)一指揮”。DeepMind CEO Demis Hassabis 負責整條模型主線,Jeff Dean 轉(zhuǎn)向長期研究;所有頂級芯片、TPU 和工程資源開始向 Gemini 集中。這種集中讓 Google 結(jié)束了過去那種“研究多、產(chǎn)品慢”的狀態(tài),第一次把十多年積累的基礎研究能力真正整合成可落地的產(chǎn)品。Gemini 3 的推理能力、Veo 3 的視頻建模、Nano Banana 的圖像編輯、Genie 3 的世界模擬——這些并不是奇跡,而是論文體系第一次系統(tǒng)化落地。

更關鍵的是,Google 不再滿足于“模型更強一點”,而是想重新定義用戶與信息的關系。外界習慣把這場競爭描述為“Google 對 OpenAI”;但從 Google 的戰(zhàn)略動作來看,它要的不是一個更強的 ChatGPT,而是一個新的入口體系。

Gemini Agent 成為新的工作入口,AI Mode 重塑搜索入口,Gemini App 成為移動入口,NotebookLM 成為知識入口,Veo 3、Nano Banana 是視覺內(nèi)容入口,Genie 3 則是未來智能體訓練的虛擬入口。Google 不準備圍繞某個產(chǎn)品競爭,而是試圖重構(gòu)“AI 時代的操作系統(tǒng)”。

為什么 Google 這次變得如此激進?

答案很簡單:這是一場生死局。AI 生成答案讓搜索的護城河開始變薄,廣告模式面臨潛在風險,用戶的第一觸點也可能遷移到 AI 通道。如果不能重新定義入口,Google 的核心商業(yè)模式就會動搖。對于一個過去二十年靠搜索主導互聯(lián)網(wǎng)的巨頭來說,這不是“贏不贏”的問題,而是“能不能留在桌上”的問題。

也正因為此,Google 過去的謹慎正在被新的節(jié)奏所取代。內(nèi)部開始出現(xiàn)跨部門座位混編的合作方式,搜索工程師與 DeepMind 的研究者一起調(diào)試 AI Mode,Android 團隊與 Labs 共同推進 Gemini App 的 UI 迭代。曾經(jīng)開放、松散、鼓勵長期研究的文化,正在被一種更集中、更執(zhí)行導向的節(jié)奏替代。甚至連高層人事安排也指向同一個方向——讓更懂產(chǎn)品、懂用戶、懂節(jié)奏的人接手關鍵業(yè)務。NotebookLM 背后的 Josh Woodward 接掌 Gemini,就是典型例子。

今天的 Google 不僅恢復了工程速度,也重新找回了“用產(chǎn)品定義技術”的能力。Gemini 3 讓人看到它仍然具備構(gòu)建頂級模型的硬實力;Veo 3、Nano Banana 證明 Google 在多模態(tài)領域依舊有別人無法復制的深度;Genie 3 則是 Google 對世界模型的押注,這些都是指向未來十年的關鍵方向。

未來的格局尚未定型,但有一點幾乎可以確定——當一家公司同時掌握搜索入口、移動系統(tǒng)、瀏覽器、辦公套件、云和世界模型,它一旦重新踩住節(jié)奏,力量會呈指數(shù)級回流。

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層,

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
罰球7中1!北京花1億買的中鋒全場3分,球迷:沒你這3分贏不了

罰球7中1!北京花1億買的中鋒全場3分,球迷:沒你這3分贏不了

弄月公子
2026-03-27 22:14:27
85萬元買的瑪莎拉蒂汽車故障后更換發(fā)動機,6年后車主才發(fā)現(xiàn)4S店換上的是老舊拆車件!法院判了:構(gòu)成欺詐

85萬元買的瑪莎拉蒂汽車故障后更換發(fā)動機,6年后車主才發(fā)現(xiàn)4S店換上的是老舊拆車件!法院判了:構(gòu)成欺詐

揚子晚報
2026-03-26 22:51:04
特朗普否認急于達成協(xié)議 稱對伊朗軍事行動繼續(xù)

特朗普否認急于達成協(xié)議 稱對伊朗軍事行動繼續(xù)

財聯(lián)社
2026-03-27 05:29:07
終于爆發(fā)了,擊落大批美以軍機:隱身戰(zhàn)機,超級大黃蜂不斷下墜!

終于爆發(fā)了,擊落大批美以軍機:隱身戰(zhàn)機,超級大黃蜂不斷下墜!

混沌錄
2026-03-27 16:39:18
101枚導彈砸向美國航母,伊朗打出了開戰(zhàn)以來最強勢的一拳

101枚導彈砸向美國航母,伊朗打出了開戰(zhàn)以來最強勢的一拳

樂享人生風雨
2026-03-27 10:07:40
被杜鋒罵郁悶了?焦泊喬缺席對首鋼因家中有事 會是下一個徐昕?

被杜鋒罵郁悶了?焦泊喬缺席對首鋼因家中有事 會是下一個徐昕?

大嘴爵爺侃球
2026-03-27 22:19:09
奧運會為什么發(fā)避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

奧運會為什么發(fā)避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

南權先生
2026-02-13 15:17:51
北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

GA環(huán)球建筑
2026-03-27 01:35:28
張雪峰的死亡預言

張雪峰的死亡預言

王繼續(xù)專欄
2026-03-26 22:11:15
特朗普稱“卸任后可能去委內(nèi)瑞拉競選總統(tǒng)”,旁邊的人聽完忍不住笑了,曾稱“被伊朗邀請當最高領袖”自己婉拒了:我才不想當

特朗普稱“卸任后可能去委內(nèi)瑞拉競選總統(tǒng)”,旁邊的人聽完忍不住笑了,曾稱“被伊朗邀請當最高領袖”自己婉拒了:我才不想當

大象新聞
2026-03-27 22:49:15
一點不比王鈺棟差,替補奇兵讓人眼前一亮,有望在王鈺棟之前留洋

一點不比王鈺棟差,替補奇兵讓人眼前一亮,有望在王鈺棟之前留洋

體壇風之子
2026-03-27 04:30:03
馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統(tǒng)一大使

馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統(tǒng)一大使

影孖看世界
2026-03-26 23:28:51
張雪峰靈堂遺照曝光!員工輪流守靈小聲哭泣,女兒發(fā)聲悼念惹淚目

張雪峰靈堂遺照曝光!員工輪流守靈小聲哭泣,女兒發(fā)聲悼念惹淚目

潮鹿逐夢
2026-03-27 15:26:38
黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

芯榜
2026-03-26 01:34:50
中國可能在等,把三大主要問題解決了,再徹底解決臺灣問題

中國可能在等,把三大主要問題解決了,再徹底解決臺灣問題

論事的老樞
2026-03-21 17:28:10
伊朗戰(zhàn)爭遲遲無法結(jié)束,源于以色列情報部門的重大失誤

伊朗戰(zhàn)爭遲遲無法結(jié)束,源于以色列情報部門的重大失誤

碳基生物關懷組織
2026-03-23 22:55:12
蘋果50周年推出iPhone 17 Pro限量定制版,全球僅9臺,售價8430美元,背部蘋果Logo里鑲嵌喬布斯生前穿過的毛衣碎片

蘋果50周年推出iPhone 17 Pro限量定制版,全球僅9臺,售價8430美元,背部蘋果Logo里鑲嵌喬布斯生前穿過的毛衣碎片

魯中晨報
2026-03-27 20:29:03
立陶宛涉臺表態(tài)變了,中歐班列已改道,200多條鐵軌全拆…

立陶宛涉臺表態(tài)變了,中歐班列已改道,200多條鐵軌全拆…

福建平子
2026-03-27 11:25:16
南方暴雨、大暴雨,要來了

南方暴雨、大暴雨,要來了

澎湃新聞
2026-03-27 16:08:07
伊朗或開辟新戰(zhàn)線,胡塞武裝:已做好準備

伊朗或開辟新戰(zhàn)線,胡塞武裝:已做好準備

第一財經(jīng)資訊
2026-03-27 10:55:15
2026-03-27 23:23:00
ZFinance
ZFinance
Z世代的一站式AI、科技和財經(jīng)資訊
155文章數(shù) 13關注度
往期回顧 全部

數(shù)碼要聞

三星電子公布消費級固態(tài)硬盤BM9K1,高性能PCIe Gen5 QLC產(chǎn)品

頭條要聞

男生欲性侵15歲女同學將其殺害 事后去事發(fā)地查看情況

頭條要聞

男生欲性侵15歲女同學將其殺害 事后去事發(fā)地查看情況

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財經(jīng)要聞

我在小吃培訓機構(gòu)學習“科技與狠活”

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

汽車要聞

與眾08,金標大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

本地
手機
數(shù)碼
公開課
軍事航空

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

手機要聞

一加Nord CE6系列手機曝光:預計基于Turbo 6V微調(diào),有望5月發(fā)布

數(shù)碼要聞

OPPO Enco Clip 2耳機外觀公布,可選高光金/深空灰兩種配色

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:已組織超100萬人為地面戰(zhàn)斗做準備

無障礙瀏覽 進入關懷版