網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Ollama 0.19 來(lái)了

2026-04-06 23:01:12　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

Ollama 0.19 版來(lái)了，直接在 Apple Silicon 上用 MLX 重寫了推理引擎，速度飆到了一個(gè)讓人難以忽視的水平。

還有英偉達(dá) NVPF4 傍身，強(qiáng)強(qiáng)聯(lián)合，贏麻了。

Ollama 0.19：MLX 駕到

Ollama 一直是 Mac 用戶跑本地大模型的首選

但說(shuō)實(shí)話，之前的速度只能算"能用"，跟云端推理比起來(lái)還是差了點(diǎn)意思。

這次 0.19 版本，Ollama 做了一個(gè)根本性的改變：底層推理引擎直接換成了 Apple 的 MLX 框架。

MLX 是 Apple 專門為自家芯片的統(tǒng)一內(nèi)存架構(gòu)（Unified Memory Architecture）打造的機(jī)器學(xué)習(xí)框架。

簡(jiǎn)單說(shuō)，CPU 和 GPU 共享同一塊內(nèi)存，數(shù)據(jù)不用來(lái)回拷貝，天然就快。之前 Ollama 用的是 llama.cpp 的推理后端，現(xiàn)在直接上了 MLX，等于換了個(gè)渦輪增壓。

效果有多猛？來(lái)看官方數(shù)據(jù)（基于 M5 芯片 + Qwen3.5-35B-A3B 模型）：

指標(biāo)

Ollama 0.19 (MLX + NVFP4)

Ollama 0.18 (llama.cpp + Q4_K_M)

提升

Prefill（預(yù)填充）

1810 tokens/s

1154 tokens/s

+57%Decode（生成）

112 tokens/s

58 tokens/s

+93%

Prefill 速度提了 57%，生成速度幾乎翻倍

跑 Coding Agent 的時(shí)候，那種"嗖嗖嗖"往外吐代碼的感覺(jué)，爽。

而且 Ollama 還透露，用 int4 量化時(shí)數(shù)據(jù)更好看：prefill 能到 1851 token/s，decode 到 134 token/s。

在 M5、M5 Pro 和 M5 Max 上，Ollama 還能利用新的GPU Neural Accelerators來(lái)同時(shí)加速首 token 延遲（TTFT）和生成速度。

NVFP4：英偉達(dá)的 4 位浮點(diǎn)量化格式

這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4，這個(gè)值得多聊兩句。

你可能會(huì)問(wèn)：Mac 上跑大模型，跟英偉達(dá)有什么關(guān)系？

關(guān)系大了

NVFP4 是英偉達(dá)基于 Blackwell GPU 架構(gòu)推出的一種 4 位浮點(diǎn)數(shù)格式，最大的特點(diǎn)就是在極低精度下仍然保持很高的模型準(zhǔn)確率。

Ollama 把它引入到 MLX 推理中，目的是讓本地用戶跑出來(lái)的結(jié)果和云端生產(chǎn)環(huán)境盡量一致。

傳統(tǒng)量化（比如之前的 Q4_K_M）雖然也是 4 位，但精度損失比較明顯。NVFP4 的兩個(gè)核心設(shè)計(jì)讓它脫穎而出：

1. 高精度縮放因子

每 16 個(gè)值組成一個(gè)"微塊"（micro-block），共享一個(gè) FP8（E4M3）格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放，NVFP4 的分組更細(xì)、縮放更準(zhǔn)。

2. 雙層縮放策略

在微塊級(jí)別 FP8 縮放之上，還有一個(gè)張量級(jí)別的 FP32 二級(jí)縮放因子，兩層一起工作，大幅降低量化誤差。

英偉達(dá)官方給出的 DeepSeek-R1-0528 測(cè)試數(shù)據(jù)很有說(shuō)服力：

評(píng)測(cè)

FP8

NVFP4

精度差異

MMLU-PRO

85%

84%

GPQA Diamond

81%

80%

Math-500

98%

AIME 2024

89%

91%

在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒(méi)看錯(cuò)，4 位量化比 8 位的分還高。

對(duì) Ollama 用戶來(lái)說(shuō)，NVFP4 意味著你本地跑的模型和云端推理服務(wù)（用 TensorRT-LLM、vLLM 部署的）結(jié)果幾乎一致。以前本地量化和云端之間總有一條"質(zhì)量鴻溝"，現(xiàn)在這條溝被大幅填平了。

更多關(guān)于 NVFP4 的技術(shù)細(xì)節(jié)，可以看英偉達(dá)官方博客：https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

緩存升級(jí)：Agent 場(chǎng)景更絲滑

除了推理引擎大換血，0.19 在緩存機(jī)制上也做了三項(xiàng)重要改進(jìn)，主要面向 Coding Agent 和多輪對(duì)話場(chǎng)景：

更低的內(nèi)存占用：跨會(huì)話復(fù)用緩存。跑 Claude Code 這類工具時(shí)，多個(gè)分支會(huì)話共享系統(tǒng)提示的緩存，內(nèi)存利用率更高。
智能檢查點(diǎn)：Ollama 會(huì)在 prompt 的關(guān)鍵位置保存緩存快照，后續(xù)請(qǐng)求命中緩存的概率更高，prompt 處理更快。
更聰明的淘汰策略：共享前綴的緩存不會(huì)因?yàn)榕f分支被清理而丟失，存活時(shí)間更長(zhǎng)。

這三點(diǎn)對(duì) Agent 場(chǎng)景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具，底下都是不停地發(fā) prompt 給大模型，緩存命中率高了，整體響應(yīng)就快了。

快速上手

下載 Ollama 0.19 預(yù)覽版：https://ollama.com/download

?? 目前需要 32GB 以上統(tǒng)一內(nèi)存的 Mac

目前優(yōu)先支持的是 Qwen3.5-35B-A3B 模型（Alibaba 最新的 MoE 模型，35B 參數(shù)但只激活 3B），采樣參數(shù)已經(jīng)針對(duì)編程任務(wù)做了優(yōu)化。

Claude Code 用戶：

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw 用戶：

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接跑模型聊天：

ollama run qwen3.5:35b-a3b-coding-nvfp4

模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續(xù)會(huì)支持更多模型和架構(gòu)，同時(shí)也會(huì)跟 NVIDIA 的 Model Optimizer 打通，讓你可以導(dǎo)入更多 NVFP4 優(yōu)化的模型。

社區(qū)實(shí)測(cè)：M5 Max vs M4 Max

說(shuō)到 Apple Silicon 上的推理性能，這里推薦一個(gè)開(kāi)源的MLX 推理速度測(cè)試工具：

inference-speed-tests：https://github.com/itsmostafa/inference-speed-tests

這個(gè)項(xiàng)目和 Ollama 無(wú)關(guān)，它用的是mlx-lm直接跑推理基準(zhǔn)測(cè)試。但對(duì)于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來(lái)說(shuō)，它太有用了。

有網(wǎng)友用它對(duì)比了M5 Max和M4 Max（都是 16 寸、128GB、40 核 GPU 的頂配），結(jié)論很有參考價(jià)值：

短 prompt（512 tokens 輸出上限）：

Prompt 處理速度：M5 Max 提升14%~42%
生成吞吐量：M5 Max 提升14%~17%

長(zhǎng) prompt（~21K tokens 的摘要任務(wù)，壓力測(cè)試內(nèi)存帶寬）：

生成速度提升類似
Prompt 處理差距巨大：M5 Max快了 2~3 倍

長(zhǎng)上下文處理快 2~3 倍，這個(gè)數(shù)據(jù)對(duì)實(shí)際使用影響很大。你想想，跑 Agent 的時(shí)候動(dòng)不動(dòng)就是幾萬(wàn) token 的上下文，prompt 處理快了就意味著首 token 來(lái)得更快，整個(gè)交互體驗(yàn)就上了一個(gè)臺(tái)階。

怎么用這個(gè)工具：

# 安裝
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

 # 跑個(gè)基準(zhǔn)測(cè)試
uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

 # 跑多個(gè)模型對(duì)比
uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

 # 長(zhǎng)文本壓力測(cè)試
uv run src/main.py mlx-community/Qwen3-8B-4bit \
  --dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

結(jié)果會(huì)自動(dòng)按你的機(jī)器型號(hào)保存到results/目錄下，包含 prompt tps、generation tps、TTFT、峰值內(nèi)存、總時(shí)間等詳細(xì)指標(biāo)。如果你有新機(jī)器，跑完提個(gè) PR 到倉(cāng)庫(kù)，就能給社區(qū)貢獻(xiàn)你的數(shù)據(jù)。

總結(jié)

Ollama 0.19 這次更新的核心就三件事：

MLX 引擎替換：Apple Silicon 上推理速度翻倍級(jí)提升
NVFP4 量化格式：英偉達(dá)的 4 位精度方案，精度損失極小，本地推理結(jié)果跟云端一致
緩存大升級(jí)：Agent 和多輪對(duì)話場(chǎng)景更流暢

對(duì) Mac 用戶來(lái)說(shuō)，這是 Ollama 有史以來(lái)最重要的一次更新。之前那種"本地跑模型就是慢"的印象，現(xiàn)在該更新了。M4/M5 芯片 + 128GB 統(tǒng)一內(nèi)存 + MLX + NVFP4，這套組合拳打下來(lái)，本地推理的體驗(yàn)已經(jīng)逼近可用的門檻。

Ollama 博客原文：https://ollama.com/blog/mlx
Ollama 下載：https://ollama.com/download
NVFP4 技術(shù)詳解（英偉達(dá)官方）：https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
社區(qū)推理速度測(cè)試工具：https://github.com/itsmostafa/inference-speed-tests

制作不易，如果這篇文章覺(jué)得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見(jiàn)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.