国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3 Flash 倒反天罡了:關(guān)鍵性能居然超過了 Pro!

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

12 月 17 日,Google 正式發(fā)布 Gemini 3 Flash。一個定價只有 Claude 1/5、GPT 1/4 的“輕量模型”,在編碼上超過 Claude Sonnet 4.5,在推理和多模態(tài)上全面碾壓,和 GPT-5.2 也互有勝負(fù)。


MMMU-Pro,多模態(tài)的評估效果:


更夸張的是,它甚至超過了自家旗艦:在 SWE-bench 上,Gemini 3 Flash 78%,Gemini 3 Pro 76.2%,這也是 Flash 系列誕生以來超過同代 Pro 模型的第一次。


數(shù)據(jù)可能還是有點抽象,直接看它能干什么:

Gemini 3 Flash 單次生成完整動畫 3D 程序化房間


用Gemini 3 Flash 一句話生成可玩游戲


Resemble AI 用Gemini 3 Flash 實時分析 deepfake 視頻:他們的產(chǎn)品需要把復(fù)雜的音視頻取證數(shù)據(jù)即時轉(zhuǎn)化為普通人能理解的分析結(jié)果。在測試中,他們發(fā)現(xiàn) 3 Flash 的多模態(tài)分析速度比 2.5 Pro 快了 4 倍,能夠在不拖慢關(guān)鍵工作流的情況下處理原始的技術(shù)輸出數(shù)據(jù)

一個月前,Gemini 3 Pro 和 Deep Think 的發(fā)布讓 Google 重新站回 AI 第一梯隊,Gemini 3 Pro 登頂 LMArena,Deep Think 在 ARC-AGI 上打出其他模型三倍的成績。發(fā)布以來,Gemini API 日均處理量突破 1 萬億 tokens?,F(xiàn)在,F(xiàn)lash 的到來補(bǔ)齊了 Gemini 3 家族的最后一塊拼圖。

但這次的 Gemini 3 Flash 和以往不一樣。過去我們對 Flash 的認(rèn)知很清晰,快、便宜、但能力打折。想要速度,就得接受智能上的妥協(xié)。然而Gemini 3 Flash 打破了這個慣例,它用輕量模型的價格,打出了旗艦級的能力。

1

1/5 的價格,憑什么打旗艦?

先說和其他家的對比。

在博士級科學(xué)推理基準(zhǔn) GPQA Diamond 上,Gemini 3 Flash 拿到 90.4%,大幅領(lǐng)先 Claude Sonnet 4.5 的 83.4%,接近 GPT-5.2 的 92.4%。在多模態(tài)理解基準(zhǔn) MMMU-Pro 上,F(xiàn)lash 81.2%,超過 GPT-5.2 的 79.5%,更是甩開 Claude Sonnet 4.5 十幾個百分點。

在人類最后考試 Humanity's Last Exam 上(無工具),Gemini 3 Flash 33.7%,Claude Sonnet 4.5 只有 13.7%——差距接近 20 個百分點。


編碼能力同樣亮眼。在 SWE-bench Verified 上,Gemini 3 Flash 78%,超過了 Claude Sonnet 4.5 的 77.2%,頭一次超過了自家 3 Pro 的 76.2%。

把價格因素放進(jìn)來看就更夸張了,F(xiàn)lash 的價格大約是 Claude 的 1/5、GPT 的 1/4,但在多項指標(biāo)上打平甚至領(lǐng)先。 如果說以前選 Flash 是快、省錢但有所妥協(xié),現(xiàn)在選 Flash 是省錢還省心。

么一個問題自然出現(xiàn),Gemini 3 Pro 還有什么用?

極限推理場景。GPQA Diamond 上 Pro 91.9% vs Flash 90.4%,Humanity's Last Exam 上 Pro 37.5% vs Flash 33.7%,加上只有Gemini 3 Pro才有的 Deep Think 模式。Pro 適合極限推理,F(xiàn)lash 適合高頻 agent 任務(wù),這是 Google 給出的新分工。

但對大多數(shù)場景來說,F(xiàn)lash 不僅夠用,而且性價比炸裂。

效率層面同樣顯著。根據(jù) Artificial Analysis 測試,Gemini 3 Flash 比 2.5 Pro 快 3 倍,處理日常任務(wù)平均節(jié)省 30% token 消耗。定價方面,輸入 $0.50/百萬 tokens,輸出 $3/百萬 tokens,只有 3 Pro 的四分之一。


Gemini 3 Flash 在性能、成本與速度的權(quán)衡關(guān)系上推進(jìn)了最優(yōu)邊界

Google 的官方說法是:“速度和規(guī)模,不必以犧牲智能為代價?!?/strong> 放在以前的 Flash 上可能是句口號,但這次數(shù)據(jù)確實撐得起來。

1

免費用戶,旗艦體驗

Gemini 3 Flash 的發(fā)布不只是 API 層面的事,它會直接改變普通用戶的日常體驗。

在 Gemini App 里,Gemini 3 Flash 會替代原來的 2.5 Flash,成為新的默認(rèn)模型。這意味全球所有的 Gemini 用戶,包括免費用戶,都將自動升級到 Gemini 3 級別的體驗,不需要付費,不需要做任何設(shè)置。

升級后的 App 會提供三種模式供用戶選擇:

  • Fast(極速):默認(rèn)由Gemini 3 Flash 驅(qū)動,秒回日常問題。

  • Thinking(思考):同樣由 Flash 3 驅(qū)動,但激活了它的“深度思考”能力,專門處理復(fù)雜邏輯。

  • Pro(專業(yè)):繼續(xù)保留 Gemini 3 Pro,作為處理高難度數(shù)學(xué)和代碼問題的首選。

在 Google Search 里,AI Mode 的默認(rèn)模型也會在全球范圍內(nèi)升級到 3 Flash。Google 表示,得益于 3 Flash 強(qiáng)大的推理和多模態(tài)能力,AI Mode 現(xiàn)在能更精準(zhǔn)地理解用戶意圖,處理更復(fù)雜、更有多重約束條件的問題,同時生成結(jié)構(gòu)清晰、易于消化的回答。

對于美國用戶,Google 還開放了更多選項,可以在 AI Mode 里選擇"Thinking with 3 Pro"來獲得更深度的幫助,圖像生成模型 Nano Banana Pro 也向更多美國用戶開放了。

對于普通用戶來說,這可能是感知最明顯的一次升級。你打開 Gemini,它已經(jīng)是前沿級別的模型了;你在 Google 搜索里問復(fù)雜問題,背后跑的是一個融入了頂級大模型能力的引擎。換句話說,免費用戶現(xiàn)在用的默認(rèn)模型,能力已經(jīng)不輸其他家的付費旗艦。

1

開發(fā)者:省錢還賺到

以前做 agentic 應(yīng)用,想用旗艦級模型就得付旗艦級價格。Gemini 3 Flash 改變了這個局面。

過去開發(fā)者面臨一個兩難選擇,要么用快但笨的小模型,犧牲任務(wù)完成質(zhì)量;要么用聰明但慢且貴的大模型,面對延遲和成本的雙重壓力。尤其是在需要多輪調(diào)用、高頻迭代的 agent 場景里,這個取舍幾乎是綁死的。Gemini 3 Flash 提供了一個新選項,足夠快、足夠聰明、成本可控。在 SWE-bench 上 78% 的成績說明它完全有能力處理復(fù)雜的編碼任務(wù),同時 3 倍于 2.5 Pro 的速度讓它能勝任對延遲敏感的實時場景,而 1/5 于競品的價格讓大規(guī)模部署成為可能。

目前,Gemini 3 Flash 已經(jīng)在以下平臺上線(preview):

  • Google AI Studio 和 Gemini API

  • Gemini CLI

  • Android Studio

  • Vertex AI(面向企業(yè))

  • Google Antigravity:這是 Google 新推出的 agentic 開發(fā)平臺,專門為 AI 主導(dǎo)的軟件開發(fā)流程設(shè)計,讓 AI Agent 可以直接操作編輯器、終端和瀏覽器

在高頻調(diào)用場景,Google 還提供了配套的成本優(yōu)化方案。Context Caching 功能可以在重復(fù) token 使用達(dá)到一定閾值時降低 90% 的成本;Batch API 支持異步批量處理,成本可以再降 50%,同時提供更高的調(diào)用配額。對那些需要在生產(chǎn)環(huán)境里大規(guī)模跑 agent 任務(wù)的團(tuán)隊,這套組合拳相當(dāng)有吸引力。

1

Flash 的含義變了

Gemini 3 Flash 的發(fā)布,某種程度上重新定義了“Flash”這個品類的含義。

Flash,終于不只是快速和效率了。

過去,F(xiàn)lash 或者說輕量級模型的定位非常明確:用能力換取速度和成本優(yōu)勢。你選擇 Flash,就意味著接受它在智能上的折扣。但 Gemini 3 Flash 證明了另一種可能,當(dāng)?shù)讓拥幕A(chǔ)模型足夠強(qiáng)大時,輕量版本不一定要做太多能力閹割,它可以只是“更高效的滿配版”。

Google 在博客里提到,Gemini 3 Flash 的核心模型能力已經(jīng)強(qiáng)到一個程度:在很多任務(wù)上,關(guān)掉思考模式的 3 Flash,比開著思考模式的 2.5 版本表現(xiàn)還好。 以前你需要犧牲速度來換準(zhǔn)確,現(xiàn)在不用了。

這次發(fā)布也讓 Gemini 3 家族陣容正式成型:Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash 三個版本,覆蓋了從輕度用戶到硬核開發(fā)者的完整需求譜系。想要極致推理深度,用 Deep Think;想要最強(qiáng)綜合能力,用 Pro;想要又快又好還便宜,用 Flash。各取所需,不再是單選題。

從數(shù)據(jù)來看,Google 在 AI 產(chǎn)品化這條路上跑得相當(dāng)穩(wěn)。Gemini App 的月活已經(jīng)突破 6.5 億,開發(fā)者數(shù)量達(dá)到 1300 萬,API 調(diào)用量同比增長 3 倍。上季度到這季度,用戶數(shù)從 4.5 億猛增到 6.5 億。

目前,普通用戶可以直接在 Gemini App 和 Google Search 的 AI Mode 中體驗新模型;開發(fā)者可以通過 Google AI Studio 和 Gemini API 開始構(gòu)建應(yīng)用。

當(dāng) Google 用 Flash 模型 1/5 的價格打出旗艦級能力,F(xiàn)lash 這個品類的想象空間被徹底打開了。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
在農(nóng)村見過最離譜的事情是什么?男女關(guān)系的開放程度讓人目瞪口呆

在農(nóng)村見過最離譜的事情是什么?男女關(guān)系的開放程度讓人目瞪口呆

夜深愛雜談
2026-01-06 20:51:44
-3分開局,切爾西新帥羅塞尼爾因超速行駛被扣三分并罰款

-3分開局,切爾西新帥羅塞尼爾因超速行駛被扣三分并罰款

懂球帝
2026-01-07 09:21:51
神權(quán)支柱動搖:哈梅內(nèi)伊密擬逃亡莫斯科預(yù)案,革命衛(wèi)隊陷忠誠危機(jī)

神權(quán)支柱動搖:哈梅內(nèi)伊密擬逃亡莫斯科預(yù)案,革命衛(wèi)隊陷忠誠危機(jī)

老馬拉車莫少裝
2026-01-05 23:23:48
新華社快訊:菲律賓巴庫林地區(qū)發(fā)生6.7級地震

新華社快訊:菲律賓巴庫林地區(qū)發(fā)生6.7級地震

新華社
2026-01-07 11:18:26
76年我冒死把一個被批斗的干部藏在地窖,23年后他成了省城大人物

76年我冒死把一個被批斗的干部藏在地窖,23年后他成了省城大人物

蕭竹輕語
2026-01-06 16:58:48
瘋了!切爾西新帥上任就下死命令 撬利物浦頭號獵物

瘋了!切爾西新帥上任就下死命令 撬利物浦頭號獵物

奶蓋熊本熊
2026-01-07 01:42:05
香煙熱度榜!煙民貢獻(xiàn)萬億稅收,年度銷冠竟是這個品牌…

香煙熱度榜!煙民貢獻(xiàn)萬億稅收,年度銷冠竟是這個品牌…

慧翔百科
2025-12-24 09:14:14
美智庫:美軍可在36小時內(nèi),精準(zhǔn)打擊中方50000個目標(biāo),令其癱瘓

美智庫:美軍可在36小時內(nèi),精準(zhǔn)打擊中方50000個目標(biāo),令其癱瘓

顧史
2026-01-06 20:20:22
13年后王石又做了一鍋紅燒肉,終究比不過胡歌的那鍋紅燒肉

13年后王石又做了一鍋紅燒肉,終究比不過胡歌的那鍋紅燒肉

阿訊說天下
2026-01-06 15:30:46
腐乳再次被關(guān)注!研究發(fā)現(xiàn):糖尿病患者常吃腐乳,或出現(xiàn)4種變化

腐乳再次被關(guān)注!研究發(fā)現(xiàn):糖尿病患者常吃腐乳,或出現(xiàn)4種變化

搖感軍事
2026-01-03 21:16:50
放假通知!2026中小學(xué)寒假時間確定了,家長吵翻:這安排太離譜!

放假通知!2026中小學(xué)寒假時間確定了,家長吵翻:這安排太離譜!

老特有話說
2026-01-05 11:58:45
廣東一廢棄水庫出現(xiàn)“冰川遺跡”?地質(zhì)專家回應(yīng)

廣東一廢棄水庫出現(xiàn)“冰川遺跡”?地質(zhì)專家回應(yīng)

環(huán)球網(wǎng)資訊
2026-01-07 09:41:32
建國后,博古妻子哭求楊尚昆幫襯生活困難,楊尚昆是如何回復(fù)的?

建國后,博古妻子哭求楊尚昆幫襯生活困難,楊尚昆是如何回復(fù)的?

嘮叨說歷史
2025-12-30 10:35:28
41歲演員白百何曬素顏上班照,并向網(wǎng)友發(fā)出“靈魂提問”,稱自己想找個膠帶把眼皮貼起來

41歲演員白百何曬素顏上班照,并向網(wǎng)友發(fā)出“靈魂提問”,稱自己想找個膠帶把眼皮貼起來

臺州交通廣播
2026-01-06 23:24:32
2026年春節(jié),要暖到離譜!大年初一撞上七九,老輩人:60年頭回見

2026年春節(jié),要暖到離譜!大年初一撞上七九,老輩人:60年頭回見

米果說識
2026-01-06 21:35:09
廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

每日一見
2026-01-02 12:21:28
皇馬TV記者:坎塞洛這筆賠錢轉(zhuǎn)會很可疑,有巴薩參與就更可疑

皇馬TV記者:坎塞洛這筆賠錢轉(zhuǎn)會很可疑,有巴薩參與就更可疑

懂球帝
2026-01-07 10:03:20
曝周定洋前往曼城體檢,即將加盟中超新貴,公認(rèn)最強(qiáng)內(nèi)援后腰

曝周定洋前往曼城體檢,即將加盟中超新貴,公認(rèn)最強(qiáng)內(nèi)援后腰

小金體壇大視野
2026-01-07 10:00:23
45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

嫹筆牂牂
2025-12-31 07:07:52
2026-01-07 12:27:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
2773文章數(shù) 10425關(guān)注度
往期回顧 全部

數(shù)碼要聞

?石頭科技CES 2026:首發(fā)爬樓機(jī)器人與皇馬官宣,引爆全球市場

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M最少8千元

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M最少8千元

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

茅臺為何要和分銷商徹底說拜拜?

科技要聞

馬斯克殺瘋了!xAI官宣200億美元融資

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復(fù)

態(tài)度原創(chuàng)

健康
房產(chǎn)
旅游
游戲
公開課

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

海珠雙冠王!中交天翠以強(qiáng)兌現(xiàn)力+生活溫度,筑就長期主義產(chǎn)品

旅游要聞

臨朐文旅新年“開門紅”,元旦假期接待游客超10萬人次

曾因暴力引爭議!賽車爽游新作上架PS5商店

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版