網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，谷歌祭出迄今最前沿模型 Gemini 3 Flash！編程能力上反超 Gemini 3 Pro，且更快更便宜

2025-12-18 02:17:05　來源: AI前線

北京舉報(bào)

分享至

　　作者 | 冬梅

　　在大模型競(jìng)賽進(jìn)入“效率與規(guī)模并重”的新階段之際，谷歌正再次亮出王牌。

　　剛剛，谷歌發(fā)布最新模型 Gemini 3 Flash，據(jù)介紹，它擁有前沿智能，專為速度而生，可以幫助每個(gè)人更快地學(xué)習(xí)、構(gòu)建和規(guī)劃任何事物。

　　早在模型發(fā)布前，Google AI Studio 開發(fā)者平臺(tái) 和 Gemini API 產(chǎn)品負(fù)責(zé)人 Logan Kilpatrick 就在 X 上發(fā)布了一條只有三個(gè)閃電符號(hào)的推文，當(dāng)時(shí)就有大批網(wǎng)友猜測(cè)這意味著谷歌即將發(fā)布主打速度至上的 Flash 版本模型。

　　果然，今晚谷歌 Gemini 3 Flash 模型如約而至。

　　谷歌發(fā)布其迄今最快 AI 模型

　　過去一年，從 Gemini 1.5到3.0，谷歌持續(xù)強(qiáng)化其在多模態(tài)、長(zhǎng)上下文和推理能力上的技術(shù)縱深，同時(shí)也在不斷壓低模型調(diào)用成本，試圖在企業(yè)級(jí)應(yīng)用和開發(fā)者生態(tài)中建立更具性價(jià)比的護(hù)城河。在這一背景下，主打高性能與低延遲的 Flash 系列被視為 Gemini 體系中最貼近真實(shí)業(yè)務(wù)場(chǎng)景的一條產(chǎn)品線。

　　隨著外界對(duì)“更快、更便宜、更易部署”的模型呼聲不斷升高，谷歌今晚發(fā)布的 Gemini Flash 3，也被普遍認(rèn)為是其在推理效率和規(guī)模化落地層面的一次關(guān)鍵落子。

　　谷歌稱，從今天起，Gemini 3 Flash 將面向全球數(shù)百萬用戶推出：

　　適用于 Google AI Studio、Gemini CLI 和谷歌新的智能體開發(fā)平臺(tái) Google Antigravity 中的 Gemini API 開發(fā)者

　　所有用戶均可通過 Gemini 應(yīng)用和 AI 模式在搜索中使用。

　　適用于 Vertex AI 和 Gemini Enterprise 的企業(yè)

　　那么，這款模型性能到底怎樣呢？

　　谷歌在其官網(wǎng)介紹稱，Gemini 3 Flash 速度和規(guī)模無需以犧牲智能為代價(jià)。

　　它在博士級(jí)別的推理和知識(shí)基準(zhǔn)測(cè)試（例如 GPQA Diamond 90.4%) 和 Humanity's Last Exam (33.7%，不使用工具）中均展現(xiàn)出前沿性能，足以媲美規(guī)模更大的前沿模型，并且在多項(xiàng)基準(zhǔn)測(cè)試中顯著超越了目前最佳的2.5版本模型 Gemini 2.5 Pro。

　　具體而言，Gemini 3 Pro 在不使用任何工具的情況下獲得了33.7% 的分?jǐn)?shù)，Gemini 3 Pro 的得分為37.5%，Gemini 2.5 Flash 的得分為11%，而最新發(fā)布的 GPT-5.2的得分為34.5%。

Humanity's Last Exam 各模型得分排行情況

　　此外，它在 MMMU Pro 測(cè)試中也取得了令人矚目的81.2% 的成績(jī)，與 Gemini 3 Pro 的性能相當(dāng)。

　　
除了前沿的推理能力和多模態(tài)處理能力外，Gemini 3 Flash 的設(shè)計(jì)目標(biāo)是極高的效率，突破質(zhì)量、成本和速度之間的帕累托極限。在最高思維水平下進(jìn)行處理時(shí)，Gemini 3 Flash 能夠靈活調(diào)整其思考時(shí)間。

　　性能優(yōu)于 Gemini Pro 2.5，價(jià)格更低

　　對(duì)于更復(fù)雜的應(yīng)用場(chǎng)景，它可能需要更長(zhǎng)的思考時(shí)間，但根據(jù)典型流量的測(cè)試結(jié)果，它平均使用的 token 數(shù)量比2.5 Pro 少30%，從而以更高的性能更準(zhǔn)確地完成日常任務(wù)。

Gemini 3 Flash 在性能、成本和速度方面突破了帕累托極限。

　　Gemini 3 Flash 的優(yōu)勢(shì)在于其極快的速度，它基于 Flash 系列產(chǎn)品打造而成。其性能超越2.5 Pro，速度提升3倍（基于 Artificial Analysis 基準(zhǔn)測(cè)試），而價(jià)格卻低得多。

　　在定價(jià)方面，Gemini 3 Flash 相比前幾代模型更具性價(jià)比。Gemini 3 Flash 的定價(jià)為每百萬個(gè)輸入 token 0.50美元，每百萬個(gè)輸出 token 3美元（音頻輸入價(jià)格仍為每百萬個(gè)輸入 token 1美元）。

　　這比 Gemini Flash 2.5的每百萬個(gè)輸入 token 0.30美元和每百萬個(gè)輸出 token 2.50美元略貴。但谷歌聲稱，新模型的性能優(yōu)于 Gemini 2.5 Pro，速度更是其三倍。而且，在處理思維任務(wù)時(shí)，它平均比2.5 Pro 少用30% 的 token。這意味著，總體而言，在某些任務(wù)中，用戶可能會(huì)節(jié)省 token 數(shù)量。

　　在編程性能上，Gemini 3 Flash 擁有 Gemini 3專業(yè)級(jí)的編碼性能，同時(shí)延遲極低——能夠在高頻工作流程中快速推理和解決任務(wù)。

　　在用于評(píng)估編碼代理能力的基準(zhǔn)測(cè)試 SWE-bench Verified 中，Gemini 3 Flash 的得分高達(dá)78%，不僅超越了2.5系列，甚至超越了 Gemini 3 Pro。它在代理編碼、生產(chǎn)就緒系統(tǒng)和響應(yīng)式交互式應(yīng)用程序之間實(shí)現(xiàn)了理想的平衡。

　　Gemini 3 Flash 在推理、工具使用和多模態(tài)功能方面的強(qiáng)大性能，非常適合希望進(jìn)行更復(fù)雜的視頻分析、數(shù)據(jù)提取和視覺問答的開發(fā)人員，這意味著它可以實(shí)現(xiàn)更智能的應(yīng)用——例如游戲助手或 A/B 測(cè)試實(shí)驗(yàn)——這些應(yīng)用既需要快速的答案，也需要深入的推理。

Gemini 3 Flash 能夠在手部追蹤的“發(fā)射球益智游戲”中實(shí)現(xiàn)多模態(tài)推理，提供近乎實(shí)時(shí)的AI輔助。

Gemini 3 Flash 可以近乎實(shí)時(shí)地構(gòu)建和 A/B 測(cè)試新的加載旋轉(zhuǎn)器設(shè)計(jì)，從而簡(jiǎn)化從設(shè)計(jì)到編碼的過程。

Gemini 3 Flash 使用多模態(tài)推理來分析圖像并添加上下文 UI 疊加層，幾乎可以實(shí)時(shí)地將靜態(tài)圖像轉(zhuǎn)換為交互式體驗(yàn)。

Gemini3 Flash 接受一條指令提示，并編碼三種獨(dú)特的設(shè)計(jì)變體。

　　此外，值得一提的是，Gemini 3 Flash 也開始作為搜索中 AI 模式的默認(rèn)模型推出，全球用戶均可使用。

　　基于 Gemini 3 Pro 的推理能力，Gemini 3 Flash 的 AI 模式能夠更有效地解析用戶問題的細(xì)微差別。它會(huì)考慮用戶查詢的每一個(gè)方面，提供周全且易于理解的答案——從網(wǎng)絡(luò)各處提取實(shí)時(shí)本地信息和實(shí)用鏈接。最終，它能有效地將研究與即時(shí)行動(dòng)相結(jié)合：用戶將獲得一份條理清晰、條理分明的分析報(bào)告以及具體的建議——速度堪比搜索。

　　谷歌方面表示，其將 Gemini Flash 的定位更偏向于“主力機(jī)型”，而非高端展示型模型。

　　Gemini Models 高級(jí)總監(jiān)兼產(chǎn)品負(fù)責(zé)人 Tulsee Doshi 在接受 TechCrunch 簡(jiǎn)報(bào)時(shí)指出，如果對(duì)比價(jià)格表中輸入和輸出的定價(jià)，可以明顯看到 Flash 在成本上要低得多，這使其更適合承擔(dān)大規(guī)模、批量化的任務(wù)處理需求，能夠切實(shí)幫助企業(yè)降低使用門檻和整體成本。

　　自 Gemini 3發(fā)布以來，谷歌在其 API 上的處理規(guī)模迅速放大，目前每日處理的 token 數(shù)量已超過1萬億個(gè)。

　　同時(shí)，谷歌也正與 OpenAI 展開一場(chǎng)圍繞新品發(fā)布節(jié)奏和模型性能的正面競(jìng)爭(zhēng)。

　　有報(bào)道稱，本月初，隨著谷歌在消費(fèi)者市場(chǎng)的份額上升，ChatGPT 的整體訪問量出現(xiàn)下滑，OpenAI CEO Sam Altman 因此向內(nèi)部團(tuán)隊(duì)發(fā)出了一份被稱為“紅色警報(bào)”的備忘錄。

　　隨后，OpenAI 接連發(fā)布了 GPT-5.2以及一款新的圖像生成模型，并強(qiáng)調(diào)其企業(yè)級(jí)應(yīng)用需求持續(xù)增長(zhǎng)。OpenAI 還披露，自2024年11月以來，ChatGPT 的消息量已增長(zhǎng)約8倍。

　　盡管谷歌并未直接回應(yīng)與 OpenAI 之間的競(jìng)爭(zhēng)關(guān)系，但其認(rèn)為，新模型的密集發(fā)布正在推動(dòng)整個(gè)行業(yè)加速前進(jìn)。

　　“目前整個(gè)行業(yè)的狀態(tài)是，各類模型都在快速演進(jìn)，相互競(jìng)爭(zhēng)、不斷突破性能邊界，”Doshi 表示，“同樣令人印象深刻的是，各家公司都在非常積極地推出新模型?！?/p>

　　她同時(shí)提到，谷歌也在持續(xù)引入新的基準(zhǔn)測(cè)試體系和模型評(píng)估方法，這一趨勢(shì)本身也讓團(tuán)隊(duì)對(duì)行業(yè)的發(fā)展感到振奮。

　　網(wǎng)友評(píng)價(jià)如何？

　　谷歌新模型發(fā)布后在全球引發(fā)了熱烈討論。在 X 和 Reddit 等平臺(tái)上，大量開發(fā)者與技術(shù)愛好者對(duì) Gemini 系列模型，特別是 Flash 版本，表達(dá)了多元觀點(diǎn)。

　　在X上，有些用戶使用過Gemini 3 Flash后認(rèn)為Stagehand Agent 上它的準(zhǔn)確度幾乎與 Gemini 3 Pro 不相上下，但價(jià)格更低，速度更快。

　　Browserbase 創(chuàng)始人 Paul Klein IV 在 X 上發(fā)文稱，他們提前獲得了 Gemini Flash 的訪問權(quán)限，當(dāng)真正用起它的那一刻，我們就驚呆了。他感慨道：

　　“Stagehand Agent 的準(zhǔn)確度幾乎與 Gemini 3 Pro 不相上下，但價(jià)格更低，速度更快。“

　　在 Reddit 上，不禁有用戶感嘆，真是太瘋狂了！

　　還有用戶表示從沒見過能力這么強(qiáng)的輕量級(jí)模型。

　　但也有用戶指出，基準(zhǔn)測(cè)試的成績(jī)，并不能說明在真實(shí)場(chǎng)景中表現(xiàn)同樣出色。

“因?yàn)榛鶞?zhǔn)測(cè)試的成績(jī)，并不能很好地對(duì)應(yīng)真實(shí)使用場(chǎng)景。尤其是在實(shí)際應(yīng)用中，使用場(chǎng)景往往非常多樣，也遠(yuǎn)比那些單輪對(duì)話的基準(zhǔn)測(cè)試樣本復(fù)雜得多。坦率地說，看到 Flash 這種定位更輕量的模型在評(píng)分上“擊敗” Pro 版本，反而讓我對(duì)這種為了刷基準(zhǔn)分?jǐn)?shù)的做法產(chǎn)生了懷疑。尤其是最近幾周，我一直在同時(shí)使用 Gemini 3 Pro 和 Opus 4.5，這兩款模型本身都非常出色。但如果只看基準(zhǔn)測(cè)試，Gemini 理應(yīng)整體表現(xiàn)更強(qiáng)，可在實(shí)際使用中它卻一次次讓我失望；相反，Opus 4.5卻不斷帶來驚喜?！?/blockquote>
　　
　　還有用戶認(rèn)為，谷歌最近幾次發(fā)布已經(jīng)充分彰顯了行業(yè)領(lǐng)頭羊地位，OpenAI 似乎已經(jīng)被拍在沙灘上了。
　　
　　https://techcrunch.com/2025/12/17/google-launches-gemini-3-flash-makes-it-the-default-model-in-the-gemini-app/
　　https://blog.google/products/search/google-ai-mode-update-gemini-3-flash/
　　https://blog.google/products/gemini/gemini-3-flash/
　　聲明：本文為 AI前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。
　　AI 重塑組織的浪潮已至，Agentic 企業(yè)時(shí)代正式開啟！當(dāng) AI 不再是單純的輔助工具，而是深度融入業(yè)務(wù)核心、驅(qū)動(dòng)組織形態(tài)與運(yùn)作邏輯全面革新的核心力量。
　　把握行業(yè)變革關(guān)鍵節(jié)點(diǎn)，12月19日 - 20日，AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)（北京站）即將重磅啟幕！本屆大會(huì)精準(zhǔn)錨定行業(yè)前沿，聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新，邀您共同深入探討：如何構(gòu)建起可信賴、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng)，讓 AI 真正成為企業(yè)降本增效、突破增長(zhǎng)天花板的核心引擎。
　　今日薦文

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.