国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemma 4 全系列本地部署指南:Ollama / llama.cpp / MLX / vLLM,附 TurboQuant 顯存優(yōu)化

0
分享至

一句話總結:這是目前參數(shù)效率最高的開源模型家族,十分之一參數(shù)量,媲美旗艦模型


四款模型,各有定位

Gemma 4 一口氣發(fā)布了四個尺寸的模型:


來逐個看看它們的定位:

31B Dense —— 全密集架構,31B 參數(shù)全部激活,主打桌面工作站和單卡 H100。這是 Gemma 4 家族的當家花旦,在 Arena AI 開源模型排行榜文本賽道排名第三。不做量化的情況下,可以塞進一張 80GB 的 H100。

26B MoE(混合專家架構) —— 總參數(shù) 26B,單次推理只激活 3.8B 參數(shù)。在排行榜上排第六。MoE 的優(yōu)勢是推理速度快、延遲低,同一張卡上的 TPS 遠超 Dense 版本。如果你更在乎推理速度,MoE 是更好的選擇。

E4B —— 有效參數(shù) 4.5B(加上 embedding 約 8B),為移動端 + Jetson / 樹莓派設計。是跟 Google Pixel 團隊、高通、聯(lián)發(fā)科聯(lián)合開發(fā)的。

E2B —— 有效參數(shù) 2.3B(加上 embedding 約 5B),主打手機 / IoT / 邊緣設備。這是整個家族里最適合端側部署的版本。

這里解釋一下 E2B 和 E4B 的「E」代表什么。小模型采用了 Per-Layer Embeddings(PLE)技術來最大化參數(shù)效率——每個 decoder 層都有自己的小型 embedding 表,這些表雖然體積大但只用來做快速查找,所以實際激活的參數(shù)遠少于總參數(shù)?!窫」就是 Effective(有效)的意思。

全系列支持的能力統(tǒng)一且強悍:

  • 多模態(tài)輸入 :全系列原生支持圖像和視頻理解,小模型額外支持音頻輸入和語音識別

  • 超長上下文 :大模型 256K,小模型 128K

  • Agent 工作流 :原生函數(shù)調(diào)用(Function Call)、結構化 JSON 輸出、System Instruction

  • 140+ 語言 :原生訓練支持 140 多種語言

  • 代碼生成 :高質(zhì)量離線代碼生成,可以當本地代碼助手用

跑分表現(xiàn)

先看 Google 官方給出的基準測試數(shù)據(jù):



Gemma 4 31B 在 Arena AI 開源排行榜文本賽道排第三,26B MoE 排第六,Google 說它們超過了體量大 20 倍的模型。

再看第三方評測機構 Artificial Analysis 的測試。在科學推理評估 GPQA Diamond 上,Gemma 4 31B(Reasoning)拿到 85.7%,在 40B 以下的開權重模型中排第二,僅次于 Qwen3.5 27B(85.8%)。差距只有 0.1 個百分點,基本算打平。


更有意思的是 Token 效率,Gemma 4 31B 在同一個評估里只用了約 120 萬個輸出 token,比 Qwen3.5 27B 的 150 萬和 Qwen3.5 35B A3B 的 160 萬都少。也就是說,達到差不多的準確率,Gemma 4 用的 token 更少,推理成本更低。


正面對決 Qwen3.5 27B

說到開源模型,現(xiàn)在繞不開中國選手。來看 Gemma 4 和 Qwen3.5 27B 的細項對比:


坦率講,逐項看下來基本每一項都是 Qwen3.5 27B 領先。不過 Gemma 4 31B 在 Arena AI 排行榜的 Elo 分和 Qwen3.5 差不多打平,說明在人類偏好評估上兩者體驗接近。跑分和實際使用體感有時候就是兩碼事。

架構解析:為什么沒變還能起飛

知名 AI 博主 Sebastian Raschka 第一時間拆解了 Gemma 4 的架構。他的結論很有意思:


? 架構幾乎沒變——還是經(jīng)典的 Pre/Post-norm 設置 + 5:1 混合注意力機制(滑動窗口局部層 + 全注意力全局層) + 分組查詢注意力(GQA)

? 但性能直接起飛!基準測試里完勝 Gemma 3,和 Qwen3.5 27B 難分高下

? MoE 版本(26B 激活 4B 參數(shù))跑分只比 Dense 版本差一點點,性價比極高

? 終于換成標準 Apache 2.0 許可,沒那么多限制了

所以架構沒什么創(chuàng)新,但性能提升巨大,大概率是訓練數(shù)據(jù)和訓練方法的功勞。有時候不需要架構革命,數(shù)據(jù)和訓練配方做對了,效果就是質(zhì)的飛躍。

本地怎么跑

這才是大家最關心的部分。

Gemma 4 發(fā)布當天,主流推理框架全部跟進了適配,生態(tài)確實給力。

Ollama

Ollama 0.20+ 版本直接支持:

ollama run gemma4:e2b     # 2B 有效參數(shù),端側
ollama run gemma4:e4b # 4B 有效參數(shù),移動端
ollama run gemma4:26b # 26B MoE(激活 4B)
ollama run gemma4:31b # 31B Dense
llama.cpp

llama.cpp 同步跟進,可以用 Homebrew 安裝最新版:

brew install llama.cpp --HEAD
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
MLX(Mac 用戶看這里)

Mac 用戶的福音——mlx-vlm v0.4.3 發(fā)布當天就支持了 Gemma 4 全系列,包括視覺、音頻和 MoE 模型。社區(qū)大佬幾個小時內(nèi)上傳了 125 個量化模型。如果你是 Mac 開發(fā)者,現(xiàn)在就可以跑起來了:

uv pip install -U mlx-vlm

更猛的是,MLX-vlm 0.4.3 搭配 TurboQuant KV 緩存壓縮,Gemma 4 31B 在 128K 上下文下的內(nèi)存表現(xiàn)直接起飛:

  • KV 緩存內(nèi)存 :13.3 GB → 4.9 GB(減少 63%)

  • 峰值內(nèi)存 :75.2 GB → 65.8 GB(直接省了 9.4 GB)

  • 質(zhì)量保持 :壓縮后幾乎無損

TurboQuant 的壓縮效果跟序列長度成正比,上下文越長省得越多。想在 Mac 上體驗的話,一行命令搞定:

uv run mlx_vlm.generate --model google/gemma-4-31b-it --kv-bits 3.5 --kv-quant-scheme turboquant

目前已知解碼速度會有約 1.5 倍的下降(內(nèi)核啟動開銷導致),官方說后續(xù)版本會修復。但光是內(nèi)存省下來的這些空間,對于 Mac 用戶來說已經(jīng)很值了——本來跑不下的上下文長度,現(xiàn)在能跑了。

Unsloth 量化版

我之前介紹過的 Unsloth 也第一時間出了量化版。E2B 和 E4B 大約只需要 6GB 內(nèi)存就能跑,26B MoE 和 31B 大約需要 18GB。


有個好玩的演示:Gemma 4 E4B 在 Unsloth Studio 里只用 6GB 內(nèi)存就能搜索并引用 10+ 個網(wǎng)站、執(zhí)行代碼來找最佳答案。用 6GB 內(nèi)存跑一個能搜網(wǎng)頁、寫代碼的 AI Agent,放兩年前說出來沒人信。

GGUFs 下載:https://huggingface.co/collections/unsloth/gemma-4

vLLM

vLLM 同步支持,原生多模態(tài)(視覺 + 音頻),支持 256K 上下文,跨主流 GPU 架構和 TPU。


已經(jīng)有人用 vLLM v0.18.2 + transformers v5.5.0 跑通了 Gemma 4 31B 的工具調(diào)用:


工具調(diào)用能力測試

ToolCall-15 是一個專門測試大模型工具調(diào)用能力的基準,我之前介紹過。來看 Gemma 4 全家族的成績:


關鍵發(fā)現(xiàn):Gemma 4 31B 和 Qwen3.5 27B 都拿到了滿分 15/15。在工具調(diào)用這個維度上兩者完全打平。

但差距在小模型上就明顯了:Qwen3.5 9B 就能拿到 13/15,Gemma 4 需要上到 26B 才能匹配這個水平。在小模型的工具調(diào)用能力上,Qwen3.5 還是有優(yōu)勢。

實際運行性能

別光看跑分了,來看實際跑起來的速度。有人在單張 RTX 4090 上測試了 Gemma 4 26B MoE:

  • 解碼速度:162 token/s

  • 預填充:8,400 token/s

  • 完整 262K 原生上下文

  • 顯存占用:19.5 GB

  • Elo 分只比 31B Dense 低 10 分

雙卡配置(RTX 4090 + RTX 3090)跑 Q8_0 量化的 31B Dense:

  • 預填充 10K token:9,024 token/s

  • 全 262K 上下文:2,537 token/s —— 一部小說大約 100 秒就能處理完

配合 TurboQuant 分支做 KV cache 量化,還能再省 1.8 GB 顯存,幾乎沒有性能損失。

單卡 4090 跑滿 262K 上下文的命令(MoE Q4_K_M 量化版):

llama-server -m gemma-4-26B-A4B-it-UD-Q4_K_M.gguf \
-c 262144 -np 1 -ctk q8_0 -ctv turbo3 \
-fa on --fit off --cache-ram 0 -dev CUDA0

MoE 版本的解碼速度是 Dense 版本的 3.7 倍。單張 4090 就能跑滿 262K 上下文,這個數(shù)據(jù)對于想本地部署長上下文 Agent 的開發(fā)者來說,非常有吸引力。

TurboQuant+ 權重壓縮(實驗性)

TurboQuant 不只是壓 KV 緩存,最新的 TurboQuant+ 分支還支持模型權重壓縮。原理是對模型權重施加 WHT 旋轉(zhuǎn) + Lloyd-Max 極化量化,屬于訓練后量化,不需要重新訓練或校準,直接對 Q8_0 的 GGUF 模型操作就行。

Gemma 4 31B 的效果:30.4 GB 壓縮至 18.9 GB,全系列模型都能享受 TurboQuant+ KV 緩存同樣的好處。

目前支持 Apple Silicon(Metal)、NVIDIA(CUDA)和 AMD(ROCm/HIP)三大平臺。想嘗鮮的話,從實驗分支開始:

git clone https://github.com/TheTom/llama-cpp-turboquant.git
cd llama-cpp-turboquant
git checkout pr/tq4-weight-compression

# Apple Silicon
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

# NVIDIA
cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j

詳細文檔:https://github.com/TheTom/turboquant_plus/blob/main/docs/getting-started.md-compression-tq4_1s--experimental

對于顯存敏感的本地部署場景,30.4→18.9 GB 的壓縮意味著原來需要雙卡的配置,現(xiàn)在可能單卡就夠了。這個實驗分支值得關注。

英偉達優(yōu)化

NVIDIA 這次也沒缺席。Google 和 NVIDIA 聯(lián)合對 Gemma 4 做了針對性優(yōu)化,覆蓋了從數(shù)據(jù)中心到桌面再到邊緣的全棧場景——RTX GPU、DGX Spark 個人 AI 超算、甚至 Jetson Orin Nano 邊緣模塊都能跑。

NVIDIA 官方給出了性能基準:所有配置使用 Q4_K_M 量化,BS=1,ISL=4096,OSL=128,在 RTX 5090 和 Mac M3 Ultra 上用 llama.cpp 的 llama-bench 工具測試。

具體來說:

  • E2B / E4B :為邊緣場景而生,在 Jetson Nano 上也能完全離線運行,延遲接近零

  • 26B / 31B :針對 RTX GPU 和 DGX Spark 做了優(yōu)化,主打 Agent 開發(fā)工作流——代碼助手、推理引擎、函數(shù)調(diào)用都是強項

  • OpenClaw 兼容 :Gemma 4 全系列兼容 NVIDIA 的 OpenClaw 本地 AI Agent 框架,可以直接從個人文件、應用和工作流中提取上下文來自動化任務

NVIDIA Tensor Core 對 AI 推理的加速在這里體現(xiàn)得很明顯——更高的吞吐、更低的延遲,加上 CUDA 生態(tài)的廣泛兼容性,新模型基本都是 Day-1 就能高效運行。

想了解完整部署指南,可以看 NVIDIA 的技術博客:https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/

Simon Willison 的評價

知名開發(fā)者 Simon Willison 第一時間測試了 Gemma 4。他用 LM Studio 跑了 GGUF 版本,2B、4B 和 26B MoE 都運行正常,但 31B Dense 出了問題——對每個 prompt 都輸出 "---\n" 死循環(huán)。這種早期 bug 后續(xù)應該會修復。

他還發(fā)現(xiàn)了一個有趣的點:E2B 和 E4B 雖然支持音頻輸入,但目前 LM Studio 和 Ollama 都還沒實現(xiàn)這個功能。想在本地跑音頻理解,可能還得等等。

Google 特別強調(diào)了「前所未有的參數(shù)效率」。Simon Willison 認為這說明在當前 AI 研究中,如何做出好用的小模型正在成為最熱門的方向之一。

總結

Gemma 4 的核心價值:

優(yōu)勢:

  • Apache 2.0 開源許可,商用無障礙,這是最大的進步

  • 參數(shù)效率極高,31B 模型能和大幾倍的模型掰手腕

  • MoE 版本性價比炸裂,單卡 4090 就能跑滿 262K 上下文

  • 原生多模態(tài) + 工具調(diào)用 + 超長上下文,Agent 開發(fā)直接可用

  • 端側模型能跑在手機和樹莓派上,6GB 內(nèi)存就能跑 Agent

  • 生態(tài)完善,Ollama、llama.cpp、vLLM、MLX 全部 Day-1 支持

  • TurboQuant+ 加持下,31B 權重從 30.4 GB 壓到 18.9 GB,MLX 上 128K 上下文 KV 緩存省 63%

不足:

  • 跟 Qwen3.5 27B 正面比,多數(shù)跑分項目略遜

  • 小模型的工具調(diào)用能力不如同參數(shù)量級的 Qwen

  • 31B Dense 在部分推理框架上還有早期 bug

  • 音頻輸入功能暫時只能通過 Google AI Studio 體驗,本地工具還沒適配

我的建議:

  • 如果你需要商業(yè)部署開源模型,Gemma 4 的 Apache 2.0 許可證是一個很重要的加分項

  • 本地跑推薦 26B MoE 版本,速度快、顯存占用相對小,性能只比 Dense 差一點點

  • 有條件上 Dense 就上 Dense,畢竟是質(zhì)量天花板

  • Mac 用戶直接走 MLX,體驗最佳

  • 端側開發(fā)者可以重點關注 E2B 和 E4B,6GB 內(nèi)存跑 Agent 的未來已經(jīng)來了

官方博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

GGUFs 下載:https://huggingface.co/collections/unsloth/gemma-4

Unsloth 指南:https://unsloth.ai/docs/models/gemma-4

.0

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭麗文回應“大陸武統(tǒng)”,作出滿分回答,還給民進黨指了一條明路

鄭麗文回應“大陸武統(tǒng)”,作出滿分回答,還給民進黨指了一條明路

頭條爆料007
2026-04-19 20:27:52
7.5級地震, 海嘯抵達日本! 日媒提醒: 立即逃生

7.5級地震, 海嘯抵達日本! 日媒提醒: 立即逃生

每日經(jīng)濟新聞
2026-04-20 17:47:38
為什么全國人民都在拒接電話?

為什么全國人民都在拒接電話?

黯泉
2026-04-18 17:00:56
到底得有多壞,才能做出這么喪盡天良的事!

到底得有多壞,才能做出這么喪盡天良的事!

胖胖說他不胖
2026-04-19 09:00:30
“最難對付的敵人”:周末,真主黨消滅以軍超過一個排!

“最難對付的敵人”:周末,真主黨消滅以軍超過一個排!

勝研集
2026-04-20 18:04:11
特朗普:如未能達成協(xié)議“幾無可能”再延長停火

界面新聞
2026-04-20 23:21:47

空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實的行業(yè)現(xiàn)狀

空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實的行業(yè)現(xiàn)狀

千秋文化
2026-04-17 20:01:45
MVP選票結果流出?。∷尤徊?票?。。。?>
    </a>
        <h3>
      <a href=柚子說球
2026-04-20 22:29:11
052D穿過日本橫當水道!這步棋有多狠?

052D穿過日本橫當水道!這步棋有多狠?

牲產(chǎn)隊
2026-04-20 22:21:15
世錦賽:希金斯逆轉(zhuǎn)卡特晉級,吳宜澤大勝晉級16強

世錦賽:希金斯逆轉(zhuǎn)卡特晉級,吳宜澤大勝晉級16強

余蹮搞笑段子
2026-04-21 01:25:36
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

項鵬飛
2026-04-20 20:13:15
ASML總裁炮轟中國:若再繼續(xù)自主研究光刻機,將會破壞全球產(chǎn)業(yè)鏈

ASML總裁炮轟中國:若再繼續(xù)自主研究光刻機,將會破壞全球產(chǎn)業(yè)鏈

泠泠說史
2026-04-20 17:52:42
《我在故宮修文物》導演去世,享年43歲

《我在故宮修文物》導演去世,享年43歲

界面新聞
2026-04-20 12:37:14
國際油價飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

國際油價飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

21世紀經(jīng)濟報道
2026-04-20 06:46:08
官宣!臺州兩大知名景區(qū)免費開放,取消門票收費

官宣!臺州兩大知名景區(qū)免費開放,取消門票收費

臺州交通廣播
2026-04-20 19:26:23
李亞鵬,官宣了!4月17日晚,嫣然天使兒童醫(yī)院告別14年租房模式

李亞鵬,官宣了!4月17日晚,嫣然天使兒童醫(yī)院告別14年租房模式

一盅情懷
2026-04-20 14:38:27
55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

股經(jīng)縱橫談
2026-04-19 19:03:09
伊朗媒體:伊朗不參加談判的決定尚未改變

伊朗媒體:伊朗不參加談判的決定尚未改變

財聯(lián)社
2026-04-20 23:03:06
臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

老范談史
2026-04-20 22:13:51
5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

另子維愛讀史
2026-04-19 19:37:43
2026-04-21 05:56:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3339文章數(shù) 11138關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

藝術
時尚
游戲
數(shù)碼
本地

藝術要聞

春天最適合小住三五天的地方

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風光背后心酸現(xiàn)狀

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗:電競利器 桌面上的“小鋼炮”

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

無障礙瀏覽 進入關懷版