網易首頁 > 網易號 > 正文申請入駐

Gemini 3 正式發(fā)布！一句話生成一個世界，奧特曼親自點贊

2025-11-19 08:16:13　來源: 硅基觀察Pro

北京舉報

分享至

剛剛，谷歌正式發(fā)布了Gemini 3。

從今天起，Gemini 3 Pro 已在全球范圍內向 Gemini App 和 Google AI Studio 用戶推送。甚至在正式官宣之前，谷歌已經悄悄把模型提前上線。

作為谷歌迄今最強的一代基礎模型，Gemini 3 在推理、多模態(tài)、工具使用等核心維度上全面超越了 2.5 和 2.0 系列，也被谷歌內部定義為一次“代際升級”。就連奧特曼在看到相關案例展示時，都忍不住點了贊。

那么，Gemini 3 的實力究竟如何？下面我們結合谷歌發(fā)布的技術細節(jié)和實際案例，一起來拆解。

跑分更猛了，推理能力是亮點

Gemini 3 Pro 的核心變化，是推理能力的全面上升。谷歌在Gemini 3發(fā)布時反復強調一句話：這一代模型“能把任何想法變成現實”。

夸張成分先放在一邊，從各類基準看，它的確在關鍵維度上拉開了與2.5 Pro 的差距。

最能體現整體實力的LMArena 排行榜里，它拿到 1501 分，排在第一。這種 Elo 式評分既考模型在開放問答里的穩(wěn)定性，也考它在長對話和任務拆解中的一致性，從結果看，Gemini 3 Pro 的表現明顯更“穩(wěn)”了，也更擅長把復雜問題講清楚。

▲Gemini 3系列的推理模式在多項高難度AI基準測試中成績突出

在衡量思維深度的兩個基準上，它同樣給出更具有象征意義的成績。Humanity’s Last Exam 與 GPQA 都不考知識，而是看模型能不能在沒有工具的情況下推理出正確結論。

Gemini 3 Pro 在這兩項上分別達到 37.5% 和 91.9%，已經接近博士研究級別。

這次谷歌也跟進了類似o1 的Deep Think

（深度思考）

模式。Gemini 3 Deep Think 會花更多時間去推理，專門解決那種需要剝絲抽繭的復雜問題。

這個技術讓它在真正困難的任務上出現了非線性躍遷：在Humanity’s Last Exam上取得41.0%的成績，在GPQA Diamond上達到93.8%，在ARC-AGI-2里拿到45.1%。這些都是最考模型創(chuàng)造性與新穎推理的任務。

隨著谷歌同步推出的Deep Think 模式打開“慢思考”，這些數字進一步上升：GPQA 升到 93.8%，ARC-AGI-2 第一次沖到45.1%。

ARC的特點是不給先驗、不給模板，讓模型從頭找規(guī)律，因此被視為測試“通用智能苗頭”的指標。通常超過 30% 就被認為出現結構性提升，而 Gemini 3 已經逼近 50%。

數學依然是衡量模型推理真實性的那道最硬門檻。在MathArena Apex 中，Gemini 3 得到 23.4%。

雖然數字不高，卻是目前所有模型中最好的，數學推理既難以靠記憶補齊，也難以通過堆數據提升，能把分數抬上去往往意味著模型內部結構發(fā)生了變化。

多模態(tài)方面，它在MMMU-Pro 和 Video-MMMU 上分別拿到 81% 和 87.6%，這組數據的重要性在于，它證明模型不只是“看見”圖像和視頻，而是能夠從中抽象出結構和因果關系。

Google展示了一個很有趣的用法：做一個等離子體流在托卡馬克里的可視化展現，同時用一首詩來捕捉核聚變的美。

▲一個有趣的用例，用Gemini 3系列編寫托卡馬克離子體流動的可視化編程，并寫一首捕捉聚變物理的詩歌

事實一致性上，SimpleQA Verified 的 72.1% 則顯示它“胡編”的情況減少了。這項指標對任何需要大規(guī)模商用的產品都至關重要，因為它直接代表模型是否值得信任。

代碼能力是Gemini 3 的另一條增長曲線。它在 WebDev Arena 上拿到 1487 Elo，在 Terminal-Bench 2.0 中達到 54.2%，意味著它不僅能寫代碼段，還能通過終端調用工具、運行程序，形成一個完整的執(zhí)行鏈條。

在 SWE-bench Verified 上的 76.2% 則讓它在修復真實代碼問題時，比2.5 Pro穩(wěn)定得多。

綜合來看，Gemini 3 的變化并不是“某一項能力突然變強”，而是推理、工具使用、多模態(tài)理解、事實一致性幾個關鍵維度同步上揚。

同時，Deep Think的加入，讓它第一次具備了可以“沉下去思考”的能力。對谷歌來說，這意味著模型開始具備解決全新問題的基礎，而不是只在過去熟悉的軌道里提升分數。

從生成式界面到自動寫代碼，Gemini 3到底有多能打？

測試成績之外，Gemini 3 在實際場景中的表現更能說明問題。

根據谷歌發(fā)布的一系列Gemini 3 案例，展示了模型能力已經從“能回答問題”，走向“能處理真實任務”。

例如，它可以識別并翻譯手寫的家族菜譜，也能讀懂學術論文和長視頻講座，自動生成結構化的學習卡片。甚至，用戶上傳一段打球的比賽視頻，它也能分析動作、識別弱點，再給出一套可執(zhí)行的訓練計劃。

真正的變化發(fā)生在搜索端。Gemini 3首次引入“生成式界面”，讓搜索結果從過去的文本和鏈接，變成現場生成的可視化工具。

簡單來說，現在用一句話，就能讓Gemini 做出高質量的交互式 SVG。

比如，當你搜索“RNA 聚合酶是如何工作的”，傳統(tǒng)搜索會給你十幾個網頁，生成式 AI 只能給你一段解釋，而 Gemini 3 會直接做出一個可旋轉、可放大的 3D 分子模型，步驟演示以動畫形式呈現，你還能拖著看每個結構在起什么作用。

▲ 以RNA聚合酶為例，演示搜索AI模式下生成式界面是如何工作的

再比如，下面這個在X 上很火的“電風扇”，不僅圖像精美，而且還能動、能交互，完全到了可以直接拿來用的程度。

整個體驗像是一個為你的問題臨時搭建的定制網頁，理解效率遠高于翻百科。

另一項變化來自開發(fā)工具。谷歌發(fā)布了全新的AI IDE——Google Antigravity。

過去的AI 輔助開發(fā)工具大多停留在補全、解釋、改 Bug 的層面，而在 Gemini 3 之后，智能體開始成為一個真正能“自己做項目”的合作伙伴。

▲在AI Studio里從零編寫一款畫面更精細、交互更豐富的復古3D飛船游戲，而不需要人工介入

內置的Agent 能規(guī)劃并執(zhí)行完整的軟件任務鏈條，從查資料、寫代碼到測試驗證都能自動完成。谷歌將推理、工具調用、代碼生成能力深度整合，并接入了 Gemini 2.5 的電腦控制模型和圖像處理模型，構成一個能夠獨立跑通任務的執(zhí)行系統(tǒng)。它也能分析動作、識別弱點，再給出一套可執(zhí)行的訓練計劃。

從Gemini 2 開始，谷歌就把“模型能不能自己做事”作為核心方向。Gemini 3 在這一點上更穩(wěn)，也更能“堅持做完一件事”。

▲與其他主流模型相比，Gemini 3 Pro的長程規(guī)劃能力更強，任務完成度更高

驗證這一能力的是一個叫Vending-Bench 2 的測試，它要求模型經營一家虛擬自動售貨機，全年 365 天，每天都有不同的變量和外部條件。

Gemini 3 Pro 在這項測試里排在前列，表現出罕見的一致性：工具調用穩(wěn)定，不會在決策鏈條中途走神，也不會忘記長期目標，因此最終收益更高。

從這些演示和公開信息中，很難不注意到一個事實：谷歌在Gemini 3 上幾乎動用了所有可以動用的資源。自研 TPU 帶來的算力成本優(yōu)勢，手中數量級差異巨大的專有數據，長期投入的大規(guī)模訓練工程，以及行業(yè)最厚實的人才儲備，這些“底層力量”疊加在一起，塑造了 Gemini 3 在各類主流基準上的統(tǒng)治性表現，也自然延伸到實際產品形態(tài)中。

Gemini 3 所展示的能力差距，既來自模型本身，也來自谷歌在基礎設施與技術棧上的系統(tǒng)性優(yōu)勢。它讓谷歌在這階段的領先位置被進一步鞏固，而其他公司能否在未來周期里追上這一節(jié)奏，讓我們拭目以待。

文/朗朗

PS：如果你對AI大模型領域有獨特的看法，歡迎掃碼加入我們的大模型交流群。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.