網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌Gemini 3震撼發(fā)布！全面碾壓GPT-5.1，奧特曼親自祝賀，AI新時(shí)代來臨

2025-11-19 18:09:07　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：AIGC深一度

【北京時(shí)間2025年11月19日凌晨】谷歌DeepMind正式發(fā)布了新一代旗艦AI模型Gemini 3，這一被業(yè)內(nèi)稱為"史上最強(qiáng)推理+多模態(tài)+氛圍編程三合一AI戰(zhàn)神"的模型，在多個(gè)基準(zhǔn)測試中全面超越OpenAI的GPT-5.1，標(biāo)志著AI競賽進(jìn)入全新階段。

深夜突襲，全球AI界為之震動(dòng)

就在今天凌晨，谷歌毫無預(yù)兆地放出了這個(gè)重磅炸彈。Gemini 3一出手就是頂配的Pro版本，展現(xiàn)出令人震撼的推理能力、多模態(tài)理解和智能體編碼水平。更令人意外的是，發(fā)布僅一小時(shí)后，OpenAI CEO薩姆·奧特曼就親自發(fā)推表示祝賀。

"祝賀谷歌發(fā)布Gemini 3！看起來是個(gè)很棒的模型。"

奧特曼在推文中寫道。這一罕見的舉動(dòng)被業(yè)界解讀為對(duì)Gemini 3實(shí)力的認(rèn)可，也預(yù)示著AI領(lǐng)域競爭格局的重大變化。

基準(zhǔn)測試全面碾壓，性能實(shí)現(xiàn)質(zhì)的飛躍

Gemini 3 Pro在各項(xiàng)基準(zhǔn)測試中的表現(xiàn)堪稱驚艷。從學(xué)術(shù)推理到多模態(tài)理解，從數(shù)學(xué)能力到編程智能，幾乎在所有核心指標(biāo)上都實(shí)現(xiàn)了對(duì)前代產(chǎn)品和競爭對(duì)手的全面超越。

在關(guān)鍵測試中的表現(xiàn)令人印象深刻：

人類最后考試（HLE）：37.5%（無工具）→45.8%（帶搜索和代碼執(zhí)行）

GPQA科學(xué)知識(shí)測試：91.9%的高分，展現(xiàn)博士級(jí)推理能力

AIME數(shù)學(xué)測試：95.0%（無工具）→100%（帶代碼執(zhí)行）

MMMU-Pro多模態(tài)理解：81.0%的優(yōu)異成績

與Gemini 2.5 Pro相比，3代產(chǎn)品在所有核心指標(biāo)上都實(shí)現(xiàn)了顯著提升。更令人矚目的是，它甚至在多個(gè)測試中直接超越了OpenAI剛剛發(fā)布的GPT-5.1，展現(xiàn)出谷歌在AI技術(shù)上的重大突破。

三大核心突破，重新定義AI能力邊界

突破一：前所未有的推理能力

Gemini 3 Pro最引人注目的特點(diǎn)之一就是其強(qiáng)大的推理能力。該模型在需要深度思考和復(fù)雜邏輯推理的任務(wù)中表現(xiàn)卓越，能夠處理傳統(tǒng)AI模型難以應(yīng)對(duì)的復(fù)雜問題。

"Gemini 3 Pro具備超強(qiáng)的推理能力，能夠深入理解問題本質(zhì)，提供有見地的回答。"

谷歌DeepMind團(tuán)隊(duì)在官方博客中表示，"特別是在處理復(fù)雜科學(xué)問題時(shí)，它展現(xiàn)出了接近人類專家水平的能力。"

在實(shí)際測試中，Gemini 3 Pro不僅能夠解決復(fù)雜的數(shù)學(xué)問題，還能進(jìn)行科學(xué)推理和邏輯分析。例如，它能夠理解并解決托卡馬克裝置中等離子體流動(dòng)的物理問題，并生成相應(yīng)的可視化代碼，甚至能夠創(chuàng)作捕捉聚變物理學(xué)精髓的詩歌。

突破二：世界領(lǐng)先的多模態(tài)理解

Gemini 3在多模態(tài)理解方面實(shí)現(xiàn)了質(zhì)的飛躍。該模型能夠無縫處理文本、圖像、視頻、音頻和代碼等多種信息形式，在跨模態(tài)理解和生成任務(wù)中表現(xiàn)出色。

多模態(tài)能力的具體體現(xiàn)：

視頻理解：Video-MMMU測試中獲得87.6%的高分

屏幕理解：ScreenSpot-Pro測試中達(dá)到72.7%的準(zhǔn)確率

圖表理解：CharXiv復(fù)雜圖表推理中獲得81.4%的成績

文檔處理：OmniDocBench OCR測試中錯(cuò)誤率顯著降低

這種強(qiáng)大的多模態(tài)能力使得Gemini 3能夠應(yīng)用于各種實(shí)際場景。例如，用戶可以將手寫食譜拍照上傳，Gemini 3能夠識(shí)別不同語言的文字并將其轉(zhuǎn)換為可共享的電子食譜；或者分析匹克球比賽視頻，提供技術(shù)改進(jìn)建議和訓(xùn)練計(jì)劃。

突破三：革命性的氛圍編程能力

在編程和智能體能力方面，Gemini 3實(shí)現(xiàn)了真正意義上的突破。該模型在WebDev Arena排行榜上以1487 Elo高分登頂，在Terminal-Bench 2.0工具使用測試中獲得54.2%的高分，在SWE-bench編碼智能體測試中達(dá)到76.2%的準(zhǔn)確率。

編程能力的實(shí)際演示令人震撼：

一次性生成完整的3D樂高編輯器，包含UI和空間邏輯

僅憑文本提示重現(xiàn)經(jīng)典iOS游戲《荒謬釣魚》，包含音效和背景音樂

構(gòu)建功能完備的Game Boy模擬器，并用SVG繪制外觀

創(chuàng)建復(fù)雜的3D太空飛船游戲，具有豐富的視覺效果

Google AI Studio負(fù)責(zé)人Logan在測試后表示："我把彈跳球示例的難度提升了10倍，Gemini 3 Pro一次就完美搞定！這確實(shí)不是多次嘗試中的最佳結(jié)果，而是第一次提示就完成了。"

Deep Think模式：開啟深度思考新紀(jì)元

除了標(biāo)準(zhǔn)版本，Gemini 3還引入了Deep Think模式，這一模式在原有基礎(chǔ)上進(jìn)一步提升了模型的推理和思考深度。

Deep Think模式在多個(gè)高難度測試中表現(xiàn)卓越：

人類最后考試（HLE）：41%的優(yōu)異成績（無工具）

GPQA Diamond科學(xué)知識(shí)測試：93.8%的高分

ARC-AGI-2視覺推理謎題：45.1%的歷史新高

這一模式特別適合處理需要深度分析和復(fù)雜推理的任務(wù)，為研究人員和開發(fā)者提供了更強(qiáng)大的工具。

百萬token上下文，全模態(tài)能力大爆發(fā)

Gemini 3支持高達(dá)100萬token的上下文長度，這一突破使得模型能夠處理極其冗長的文檔、視頻或復(fù)雜代碼庫。結(jié)合其全模態(tài)理解能力，Gemini 3為各種復(fù)雜應(yīng)用場景打開了大門。

長上下文能力的實(shí)際應(yīng)用包括：

分析長篇學(xué)術(shù)論文或技術(shù)文檔

處理長達(dá)數(shù)小時(shí)的視頻講座內(nèi)容

理解和維護(hù)大型代碼庫

進(jìn)行復(fù)雜的多步驟任務(wù)規(guī)劃

這一能力與谷歌搜索中的AI模式相結(jié)合，創(chuàng)造了全新的生成式UI體驗(yàn)。用戶可以通過自然語言查詢獲得沉浸式視覺布局、交互式工具和模擬環(huán)境，所有這些內(nèi)容都是根據(jù)查詢實(shí)時(shí)生成的。

智能體能力飛躍，長程規(guī)劃實(shí)現(xiàn)突破

Gemini 3在智能體能力方面實(shí)現(xiàn)了重大突破，特別是在長程規(guī)劃任務(wù)中表現(xiàn)卓越。在Vending-Bench 2測試中，Gemini 3 Pro以絕對(duì)優(yōu)勢登頂，這一測試通過模擬運(yùn)營自動(dòng)售貨機(jī)業(yè)務(wù)來評(píng)估AI在復(fù)雜場景下的長期規(guī)劃能力。

在整個(gè)模擬運(yùn)營年度中，Gemini 3 Pro通過保持一致的工具使用和決策，實(shí)現(xiàn)了顯著更高的回報(bào)。這意味著Gemini 3能夠在日常生活中更好地協(xié)助人類完成復(fù)雜任務(wù)，如預(yù)定本地服務(wù)或整理收件箱，而人類只需把控方向即可。

Google Antigravity：革命性智能體開發(fā)平臺(tái)

配合Gemini 3的發(fā)布，谷歌還推出了全新的智能體開發(fā)平臺(tái)Google Antigravity。這一平臺(tái)允許開發(fā)者以"任務(wù)"為維度與智能體協(xié)同工作，將AI輔助從工具升級(jí)為全程參與的主動(dòng)協(xié)作者。

Google Antigravity的特點(diǎn)包括：

為智能體提供專用界面，可直接訪問編輯器、終端和瀏覽器

支持智能體自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)

實(shí)時(shí)驗(yàn)證生成的代碼質(zhì)量和功能

與Gemini 3 Pro、Gemini 2.5計(jì)算機(jī)使用模型緊密集成

在該平臺(tái)上，Gemini 3能夠獨(dú)立規(guī)劃、編寫應(yīng)用程序代碼，并通過基于瀏覽器的計(jì)算機(jī)操作驗(yàn)證其執(zhí)行效果。例如，它可以驅(qū)動(dòng)飛行跟蹤應(yīng)用程序的完整開發(fā)流程，展現(xiàn)出強(qiáng)大的端到端解決問題的能力。

實(shí)際應(yīng)用演示，展現(xiàn)驚人創(chuàng)造力

Gemini 3發(fā)布后，全球開發(fā)者紛紛進(jìn)行實(shí)測，結(jié)果令人驚嘆。前Anthropic AI工程師Pietro Schirano讓Gemini 3 Pro創(chuàng)建3D樂高編輯器，結(jié)果模型僅憑一次生成就完美實(shí)現(xiàn)了用戶界面、復(fù)雜的空間邏輯以及所有功能。

其他令人印象深刻的演示包括：

生成具有豐富視覺效果的復(fù)古3D太空飛船游戲

構(gòu)建可玩的科幻世界，包含復(fù)雜的著色器效果

創(chuàng)建交互式Web UI和應(yīng)用程序，前端開發(fā)效率大幅提升

編寫復(fù)雜的科學(xué)可視化代碼，如等離子體流動(dòng)模擬

技術(shù)架構(gòu)與訓(xùn)練突破

值得注意的是，Gemini 3完全在谷歌自家TPU上完成訓(xùn)練，這一成就展示了谷歌在硬件和軟件協(xié)同優(yōu)化方面的深厚積累。谷歌的TPU集群為訓(xùn)練如此大規(guī)模的模型提供了必要的算力支持，同時(shí)也構(gòu)成了谷歌在AI競爭中的重要護(hù)城河。

在模型架構(gòu)方面，Gemini 3采用了創(chuàng)新的注意力機(jī)制和訓(xùn)練技術(shù)，使其能夠在保持強(qiáng)大性能的同時(shí)，實(shí)現(xiàn)高效的推理速度。這些技術(shù)細(xì)節(jié)的突破為模型在各種實(shí)際應(yīng)用場景中的表現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。

定價(jià)與可用性

即日起，Gemini 3 Pro預(yù)覽版已全面上線。在Google AI Studio上，Gemini 3 Pro的API定價(jià)如下：

上下文長度≤200,000 tokens：輸入2.00/百萬tokens，輸出12.00/百萬tokens

上下文長度>200,000 tokens：輸入4.00/百萬tokens，輸出18.00/百萬tokens

Deep Think模式預(yù)計(jì)將在未來向Google AI Ultra訂閱用戶開放。全球開發(fā)者現(xiàn)可通過Google AI Studio、Vertex AI、Gemini CLI以及全新的Google Antigravity平臺(tái)使用Gemini 3進(jìn)行應(yīng)用開發(fā)。

AI新紀(jì)元已開啟，未來可期

Gemini 3的發(fā)布不僅是谷歌在AI領(lǐng)域的重要里程碑，更標(biāo)志著整個(gè)行業(yè)進(jìn)入新的發(fā)展階段。隨著多模態(tài)理解、深度推理和智能體能力的不斷提升，AI正在從簡單的工具向真正的合作伙伴演變。

"Gemini 3的誕生標(biāo)志著我們?cè)谕ㄍ鵄GI的道路上邁出了重要一步。它能夠幫助人們學(xué)習(xí)、構(gòu)建和規(guī)劃任何事物，為我們提供了理解信息和表達(dá)自我的新方式。"

未來智能實(shí)驗(yàn)室的主要工作包括：建立AI智能系統(tǒng)智商評(píng)測體系，開展世界人工智能智商評(píng)測；開展互聯(lián)網(wǎng)（城市）大腦研究計(jì)劃，構(gòu)建互聯(lián)網(wǎng)（城市）大腦技術(shù)和企業(yè)圖譜，為提升企業(yè)，行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來科技發(fā)展趨勢的學(xué)習(xí)型文章。目前線上平臺(tái)已收藏上千篇精華前沿科技文章和報(bào)告。

閱讀最新前沿科技趨勢報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫是“ 歐米伽未來研究所”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.