編碼新王登基！Gemini 3.1 Pro 血洗 Claude 與 GPT，12 項基準測試第一！

2026-02-20 09:13:24　來源: InfoQ

北京舉報

分享至

　　作者｜冬梅

　　1 核心能力全面下放，多端同步上線

　　在上周發(fā)布Gemini 3 Deep Think重大更新、面向科學研究與工程領(lǐng)域復雜問題之后，谷歌今日正式推出支撐這些突破的“核心智能”升級版本——Gemini 3.1 Pro。

　　Gemini 3.1 Pro 是一款采用混合專家架構(gòu)的 Transformer 模型，這意味著它在生成提示響應時僅激活部分參數(shù)。用戶可輸入包含高達 100 萬 token 數(shù)據(jù)量的提示詞，內(nèi)容不僅涵蓋文本，還包括視頻等多模態(tài)文件。Gemini 3.1 Pro 的響應輸出最多包含 6.4 萬 token。

　　這意味著，Gemini 3 系列的最新能力不再只停留在研究層面，而是開始全面進入開發(fā)者工具、企業(yè)服務以及普通用戶的日常應用場景。

　　根據(jù)官方披露，Gemini 3.1 Pro 已于今日開始分批上線，覆蓋對象包括開發(fā)者、企業(yè)客戶以及普通消費者：

　　開發(fā)者：可通過 Gemini API（Google AI Studio）、Gemini CLI、智能體開發(fā)平臺Google Antigravity以及 Android Studio 預覽使用；

　　企業(yè)用戶：通過Vertex AI和 Gemini Enterprise 接入；

　　消費者：可在 Gemini App 及NotebookLM中直接體驗。

　　谷歌方面表示，此次“全線鋪開”的策略，旨在將最新一代推理能力快速融入實際工作流與個人使用場景，而不僅僅停留在實驗室或演示階段。

　　2 推理表現(xiàn)翻倍、12 項基測排名第一

　　從技術(shù)定位來看，Gemini 3.1 Pro 并非簡單的性能微調(diào)，而是一次核心推理能力（core reasoning）的系統(tǒng)性升級。官方將其描述為“更聰明、更具能力的基礎(chǔ)模型”，尤其適用于復雜問題求解、跨領(lǐng)域分析以及需要抽象邏輯的任務。

　　這一進步也體現(xiàn)在權(quán)威評測成績上。在 ARC-AGI-2 基準測試中，Gemini 3.1 Pro 獲得了 77.1% 的經(jīng)驗證成績。該測試專門用于評估模型在從未見過的新邏輯模式下的泛化與推理能力。它包含多個視覺謎題，每個謎題均由一系列圖形組成。構(gòu)成謎題的圖形在設(shè)計上各不相同，但都遵循特定規(guī)律。大語言模型必須推斷出該規(guī)律，并利用其生成新的圖形。

　　這一分數(shù)是 Gemini 3 Pro 推理表現(xiàn)的兩倍以上。在當前大模型競爭格局中，ARC-AGI 系列被視為衡量“類通用智能推理能力”的重要指標之一，這一成績也意味著 Gemini 3.1 Pro 在抽象推理與新問題適應能力上邁出了關(guān)鍵一步。

　　值得注意的是，人類參與者在該測試中的平均正確率約為 60%。前陣子發(fā)布的 Gemini Deep Think 以 84.6% 的準確率遙遙領(lǐng)先其他模型。

　　雖然 Gemini 3.1 Pro 在得分上低于 Gemini Deep Think，但這是一款基礎(chǔ)模型，并且它向所有用戶免費開放。而具備“深度思考”能力的 Deep Think 模式屬于更高維度的技術(shù)突破，目前僅限 Google AI Ultra 訂閱用戶使用，且每日限用 10 次。

　　能讓開發(fā)者免費體驗能力如此強的 Gemini 3.1 Pro，谷歌已經(jīng)很大方了。

　　再來橫向比較下 Gemini 3.1 Pro 與其他模型：Claude Opus 4.6 達到 68.8%，Claude Sonnet 4.6 為 58.3%，GPT-5.2 獲得 52.9%，而上一代產(chǎn)品 Gemini 3 Pro 僅得到 31.1%。短短三個月時間，同一系列模型的閉卷推理能力就從 31.1% 躍升至 77.1%，實現(xiàn)了翻倍以上的跨越式提升。

　　谷歌官方公布了 16 項基準測試數(shù)據(jù)，Gemini 3 Pro 在其中12 項基測中均位列第一。

　　在評估 AI 模型使用第三方服務執(zhí)行任務能力的 MCP Atlas 測試中，Gemini 3 Pro 以 69.2% 的成績領(lǐng)先于最近剛發(fā)布的 Claude Sonnet 4.6，在編程測試 Terminal-Bench 2.0 中，Gemini 3 Pro 編碼能力高于 Opus 4.6、GPT-5.2。在另一項包含科學編程任務的代碼基準測試 SciCode 上，該模型的表現(xiàn)比 Claude Opus 4.6 高出 7%。

　　從發(fā)布節(jié)奏來看，谷歌正在嘗試將前沿研究成果更快轉(zhuǎn)化為“默認可用”的基礎(chǔ)能力。先通過 Deep Think 展示在科學與工程問題上的上限，再通過 3.1 Pro 將這些能力沉淀為更穩(wěn)定、更通用的底座模型，并迅速推向 API、企業(yè)平臺和消費級應用。

　　3 智能的實際應用

　　Gemini 3.1 Pro 面向那些“給出一個簡單答案遠遠不夠”的任務而設(shè)計，它將高級推理能力轉(zhuǎn)化為可用于解決最棘手問題的實用智能。升級后的智能水平能夠在多種現(xiàn)實場景中發(fā)揮作用——無論是將復雜主題以清晰、直觀的方式呈現(xiàn)出來，還是把分散的數(shù)據(jù)綜合成一個統(tǒng)一視圖，亦或是推動一個富有創(chuàng)造力的項目從構(gòu)想走向落地。

　　為了說明其潛在用途，Gemini 團隊指出，該模型可以創(chuàng)建可用于網(wǎng)站的 SVG 動畫，還可以將小說的文學風格轉(zhuǎn)化為個人作品集網(wǎng)站的設(shè)計。

　　基于代碼的動畫生成：Gemini 3.1 Pro 可以直接根據(jù)文本提示生成可直接用于網(wǎng)站的動態(tài) SVG 動畫。由于這些動畫完全由代碼構(gòu)建，而非像素渲染，因此在任何縮放比例下都能保持清晰銳利，同時相比傳統(tǒng)視頻格式，文件體積小得多，極大降低了加載和分發(fā)成本。

　　復雜系統(tǒng)綜合：利用先進的推理能力，彌合了復雜 API 與用戶友好型設(shè)計之間的鴻溝。在這一示例中，模型構(gòu)建了一個實時航天儀表盤，成功配置并接入了一條公共遙測數(shù)據(jù)流，用于可視化International Space Station的軌道運行情況。

　　交互式設(shè)計：Gemini 3.1 Pro 能夠編寫復雜的3D 椋鳥群舞（murmuration）模擬代碼。它不僅生成視覺層面的代碼，還構(gòu)建了一個沉浸式體驗：用戶可以通過手部追蹤來操控鳥群，同時聆聽一段會隨著鳥群運動而動態(tài)變化的生成式配樂。對于研究人員和設(shè)計師而言，這為原型化多感官、強交互的界面提供了一種極具潛力的方式。

　　創(chuàng)意編程：3.1 Pro 能夠?qū)⑽膶W主題轉(zhuǎn)化為功能性代碼。當被要求為艾米莉·勃朗特的《呼嘯山莊》構(gòu)建一個現(xiàn)代個人作品集網(wǎng)站時，該模型不僅概括了文本內(nèi)容，更通過推理小說中的陰郁基調(diào)，設(shè)計出時尚的當代界面，最終創(chuàng)建出能捕捉主角神韻的網(wǎng)站。

　　自去年 11 月推出 Gemini 3 Pro 以來，用戶反饋和技術(shù)進步共同推動了這一系列快速迭代。今天發(fā)布的 3.1 Pro 預覽版旨在驗證這些更新成果，并將在全面上線前繼續(xù)在智能體工作流等前沿領(lǐng)域進行深度優(yōu)化。

　　即日起，Gemini 應用中的 3.1 Pro 版本將向 Google AI Pro 和 Ultra 套餐用戶逐步開放，提供更優(yōu)使用權(quán)限。3.1 Pro 現(xiàn)已獨家登陸 NotebookLM 平臺，面向 Pro 及 Ultra 用戶開放。開發(fā)者和企業(yè)用戶可通過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 等渠道，在 Gemini API 中搶先體驗 3.1 Pro 預覽版。

　　去年 9 月加盟谷歌 DeepMind 的清華物理系知名研究者姚順宇（Shunyu Yao）在 x 上發(fā)帖稱，更強的模型也將很快亮相。

　　在公司 2025 年第四季度收益報告中，首席執(zhí)行官 Sundar Pichai 表示：“我們的第一方模型，如 Gemini，現(xiàn)在通過客戶直接使用 API，每分鐘處理超過 100 億個 token，Gemini App 的月活躍用戶已增長到超過 7.5 億?！?/p>

　　4 網(wǎng)友：谷歌重回巔峰

　　隨著 Gemini 3.1 Pro 正式上線，圍繞這次更新的討論迅速在技術(shù)社區(qū)中展開。與以往大模型發(fā)布時對“參數(shù)規(guī)?！薄澳Ｐ腕w量”的高度關(guān)注不同，不少網(wǎng)友認為，這一版本釋放出的關(guān)鍵信號，并不在于“更大”，而在于整體推理能力和復雜問題求解能力的持續(xù)上推。

　　有開發(fā)者指出，Gemini 3.1 Pro 的定位非常明確：不再單純追求模型規(guī)模的擴張，而是更強調(diào)在真實任務中的完成度和穩(wěn)定性。這也被視為當前頭部大模型競爭的一個重要轉(zhuǎn)折點——競爭焦點正在從“誰的參數(shù)更多”，轉(zhuǎn)向“誰能把問題真正做完、做好”。

　　在 x 上，該開發(fā)者表示：

“Gemini 3.1 Pro 上線了，重點不是更大，而是把整體推理和復雜問題求解能力繼續(xù)往上推。這波信號很明確：頭部模型競爭正在從參數(shù)規(guī)模，轉(zhuǎn)向真實任務完成率。”

　　與此同時，還有網(wǎng)友系統(tǒng)梳理了谷歌近年來模型更新的時間線，直言人工智能的發(fā)展節(jié)奏已經(jīng)進入“以月甚至以周計”的階段。在這樣的背景下，谷歌已難以承受過長的更新間隔。

　　Gemini 3.1 專業(yè)版在較短時間內(nèi)推出，被解讀為谷歌對這一現(xiàn)實壓力的直接回應：必須持續(xù)、快速地將核心能力推向市場。

　　成本與落地能力同樣成為討論的焦點。有網(wǎng)友特別提到，Gemini 3.1 Pro 在降低使用成本的同時提升智能水平，這種優(yōu)化路徑對于推動 AI 在生產(chǎn)環(huán)境中的應用尤為關(guān)鍵。在他們看來，人工智能的前沿價值并不僅體現(xiàn)在基準測試成績上，更體現(xiàn)在這些能力能否被開發(fā)者社區(qū)輕松獲取、快速部署，并穩(wěn)定運行于真實業(yè)務中。

　　綜合這些反饋可以看出，Gemini 3.1 Pro 的發(fā)布，已經(jīng)不只是一次常規(guī)的模型升級，而更像是一次方向性的表態(tài)：在大模型逐漸走向成熟的階段，真正決定勝負的，將是推理能力、工程可用性以及規(guī)?；涞氐木C合表現(xiàn)。

　　https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

　　https://www.ai.jp.net/article/google-s-gemini-3-1-pro-a-new-reasoning-champion-c710f5

　　https://x.com/ShunyuYao14

　　https://deepmind.google/models/gemini/pro/

　　聲明：本文為 InfoQ 整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.