国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Ollama 0.19 來(lái)了

0
分享至


Ollama 0.19 版來(lái)了,直接在 Apple Silicon 上用 MLX 重寫了推理引擎,速度飆到了一個(gè)讓人難以忽視的水平。

還有英偉達(dá) NVPF4 傍身,強(qiáng)強(qiáng)聯(lián)合,贏麻了。

Ollama 0.19:MLX 駕到

Ollama 一直是 Mac 用戶跑本地大模型的首選

但說(shuō)實(shí)話,之前的速度只能算"能用",跟云端推理比起來(lái)還是差了點(diǎn)意思。

這次 0.19 版本,Ollama 做了一個(gè)根本性的改變:底層推理引擎直接換成了 Apple 的 MLX 框架。

MLX 是 Apple 專門為自家芯片的統(tǒng)一內(nèi)存架構(gòu)(Unified Memory Architecture)打造的機(jī)器學(xué)習(xí)框架。

簡(jiǎn)單說(shuō),CPU 和 GPU 共享同一塊內(nèi)存,數(shù)據(jù)不用來(lái)回拷貝,天然就快。之前 Ollama 用的是 llama.cpp 的推理后端,現(xiàn)在直接上了 MLX,等于換了個(gè)渦輪增壓。

效果有多猛?來(lái)看官方數(shù)據(jù)(基于 M5 芯片 + Qwen3.5-35B-A3B 模型):

指標(biāo)

Ollama 0.19 (MLX + NVFP4)

Ollama 0.18 (llama.cpp + Q4_K_M)

提升

Prefill(預(yù)填充)

1810 tokens/s

1154 tokens/s

+57%Decode(生成)

112 tokens/s

58 tokens/s

+93%

Prefill 速度提了 57%,生成速度幾乎翻倍

跑 Coding Agent 的時(shí)候,那種"嗖嗖嗖"往外吐代碼的感覺(jué),爽。

而且 Ollama 還透露,用 int4 量化時(shí)數(shù)據(jù)更好看:prefill 能到 1851 token/s,decode 到 134 token/s。

在 M5、M5 Pro 和 M5 Max 上,Ollama 還能利用新的GPU Neural Accelerators來(lái)同時(shí)加速首 token 延遲(TTFT)和生成速度。

NVFP4:英偉達(dá)的 4 位浮點(diǎn)量化格式

這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4,這個(gè)值得多聊兩句。

你可能會(huì)問(wèn):Mac 上跑大模型,跟英偉達(dá)有什么關(guān)系?

關(guān)系大了

NVFP4 是英偉達(dá)基于 Blackwell GPU 架構(gòu)推出的一種 4 位浮點(diǎn)數(shù)格式,最大的特點(diǎn)就是在極低精度下仍然保持很高的模型準(zhǔn)確率。

Ollama 把它引入到 MLX 推理中,目的是讓本地用戶跑出來(lái)的結(jié)果和云端生產(chǎn)環(huán)境盡量一致。

傳統(tǒng)量化(比如之前的 Q4_K_M)雖然也是 4 位,但精度損失比較明顯。NVFP4 的兩個(gè)核心設(shè)計(jì)讓它脫穎而出:

1. 高精度縮放因子

每 16 個(gè)值組成一個(gè)"微塊"(micro-block),共享一個(gè) FP8(E4M3)格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放,NVFP4 的分組更細(xì)、縮放更準(zhǔn)。

2. 雙層縮放策略

在微塊級(jí)別 FP8 縮放之上,還有一個(gè)張量級(jí)別的 FP32 二級(jí)縮放因子,兩層一起工作,大幅降低量化誤差。

英偉達(dá)官方給出的 DeepSeek-R1-0528 測(cè)試數(shù)據(jù)很有說(shuō)服力:

評(píng)測(cè)

FP8

NVFP4

精度差異

MMLU-PRO

85%

84%

GPQA Diamond

81%

80%

Math-500

98%

98%

0

AIME 2024

89%

91%

在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒(méi)看錯(cuò),4 位量化比 8 位的分還高。

對(duì) Ollama 用戶來(lái)說(shuō),NVFP4 意味著你本地跑的模型和云端推理服務(wù)(用 TensorRT-LLM、vLLM 部署的)結(jié)果幾乎一致。以前本地量化和云端之間總有一條"質(zhì)量鴻溝",現(xiàn)在這條溝被大幅填平了。

更多關(guān)于 NVFP4 的技術(shù)細(xì)節(jié),可以看英偉達(dá)官方博客:https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

緩存升級(jí):Agent 場(chǎng)景更絲滑

除了推理引擎大換血,0.19 在緩存機(jī)制上也做了三項(xiàng)重要改進(jìn),主要面向 Coding Agent 和多輪對(duì)話場(chǎng)景:

  • 更低的內(nèi)存占用:跨會(huì)話復(fù)用緩存。跑 Claude Code 這類工具時(shí),多個(gè)分支會(huì)話共享系統(tǒng)提示的緩存,內(nèi)存利用率更高。

  • 智能檢查點(diǎn):Ollama 會(huì)在 prompt 的關(guān)鍵位置保存緩存快照,后續(xù)請(qǐng)求命中緩存的概率更高,prompt 處理更快。

  • 更聰明的淘汰策略:共享前綴的緩存不會(huì)因?yàn)榕f分支被清理而丟失,存活時(shí)間更長(zhǎng)。

這三點(diǎn)對(duì) Agent 場(chǎng)景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具,底下都是不停地發(fā) prompt 給大模型,緩存命中率高了,整體響應(yīng)就快了。

快速上手

下載 Ollama 0.19 預(yù)覽版:https://ollama.com/download

?? 目前需要 32GB 以上統(tǒng)一內(nèi)存的 Mac

目前優(yōu)先支持的是 Qwen3.5-35B-A3B 模型(Alibaba 最新的 MoE 模型,35B 參數(shù)但只激活 3B),采樣參數(shù)已經(jīng)針對(duì)編程任務(wù)做了優(yōu)化。

Claude Code 用戶:

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw 用戶:

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接跑模型聊天:

ollama run qwen3.5:35b-a3b-coding-nvfp4

模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續(xù)會(huì)支持更多模型和架構(gòu),同時(shí)也會(huì)跟 NVIDIA 的 Model Optimizer 打通,讓你可以導(dǎo)入更多 NVFP4 優(yōu)化的模型。

社區(qū)實(shí)測(cè):M5 Max vs M4 Max

說(shuō)到 Apple Silicon 上的推理性能,這里推薦一個(gè)開(kāi)源的MLX 推理速度測(cè)試工具

inference-speed-tests:https://github.com/itsmostafa/inference-speed-tests

這個(gè)項(xiàng)目和 Ollama 無(wú)關(guān),它用的是mlx-lm直接跑推理基準(zhǔn)測(cè)試。但對(duì)于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來(lái)說(shuō),它太有用了。

有網(wǎng)友用它對(duì)比了M5 MaxM4 Max(都是 16 寸、128GB、40 核 GPU 的頂配),結(jié)論很有參考價(jià)值:

短 prompt(512 tokens 輸出上限):

  • Prompt 處理速度:M5 Max 提升14%~42%

  • 生成吞吐量:M5 Max 提升14%~17%

長(zhǎng) prompt(~21K tokens 的摘要任務(wù),壓力測(cè)試內(nèi)存帶寬):

  • 生成速度提升類似

  • Prompt 處理差距巨大:M5 Max快了 2~3 倍

長(zhǎng)上下文處理快 2~3 倍,這個(gè)數(shù)據(jù)對(duì)實(shí)際使用影響很大。你想想,跑 Agent 的時(shí)候動(dòng)不動(dòng)就是幾萬(wàn) token 的上下文,prompt 處理快了就意味著首 token 來(lái)得更快,整個(gè)交互體驗(yàn)就上了一個(gè)臺(tái)階。

怎么用這個(gè)工具:

# 安裝
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

# 跑個(gè)基準(zhǔn)測(cè)試
uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

# 跑多個(gè)模型對(duì)比
uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

# 長(zhǎng)文本壓力測(cè)試
uv run src/main.py mlx-community/Qwen3-8B-4bit \
--dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

結(jié)果會(huì)自動(dòng)按你的機(jī)器型號(hào)保存到results/目錄下,包含 prompt tps、generation tps、TTFT、峰值內(nèi)存、總時(shí)間等詳細(xì)指標(biāo)。如果你有新機(jī)器,跑完提個(gè) PR 到倉(cāng)庫(kù),就能給社區(qū)貢獻(xiàn)你的數(shù)據(jù)。

總結(jié)

Ollama 0.19 這次更新的核心就三件事:

  1. MLX 引擎替換:Apple Silicon 上推理速度翻倍級(jí)提升

  2. NVFP4 量化格式:英偉達(dá)的 4 位精度方案,精度損失極小,本地推理結(jié)果跟云端一致

  3. 緩存大升級(jí):Agent 和多輪對(duì)話場(chǎng)景更流暢

對(duì) Mac 用戶來(lái)說(shuō),這是 Ollama 有史以來(lái)最重要的一次更新。之前那種"本地跑模型就是慢"的印象,現(xiàn)在該更新了。M4/M5 芯片 + 128GB 統(tǒng)一內(nèi)存 + MLX + NVFP4,這套組合拳打下來(lái),本地推理的體驗(yàn)已經(jīng)逼近可用的門檻。

  • Ollama 博客原文:https://ollama.com/blog/mlx

  • Ollama 下載:https://ollama.com/download

  • NVFP4 技術(shù)詳解(英偉達(dá)官方):https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

  • 社區(qū)推理速度測(cè)試工具:https://github.com/itsmostafa/inference-speed-tests

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說(shuō)生活
2026-04-19 15:52:53
澆小麥的地下水變成血紅色,誰(shuí)來(lái)守護(hù)我們的生存底線?

澆小麥的地下水變成血紅色,誰(shuí)來(lái)守護(hù)我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
伊朗籍中國(guó)貨輪!在公海被美軍扣押后,不到24小時(shí),中方表態(tài)

伊朗籍中國(guó)貨輪!在公海被美軍扣押后,不到24小時(shí),中方表態(tài)

離離言幾許
2026-04-20 22:15:30
19歲女孩挪用自家1700萬(wàn)當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

19歲女孩挪用自家1700萬(wàn)當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

封面新聞
2026-04-20 17:48:14
日本將地震震級(jí)調(diào)整至7.5級(jí)

日本將地震震級(jí)調(diào)整至7.5級(jí)

界面新聞
2026-04-20 16:30:33
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

天天熱點(diǎn)見(jiàn)聞
2026-04-18 08:09:59
將對(duì)決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

將對(duì)決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

風(fēng)過(guò)鄉(xiāng)
2026-04-20 19:41:28
伊朗萬(wàn)噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點(diǎn)中國(guó)的名

伊朗萬(wàn)噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點(diǎn)中國(guó)的名

二大爺觀世界
2026-04-20 20:36:50
被蘋果、華為干倒的諾基亞,又殺回來(lái)了!

被蘋果、華為干倒的諾基亞,又殺回來(lái)了!

大佬灼見(jiàn)
2026-04-19 10:28:53
余承東:我們成本扛不住了,希望大家早點(diǎn)購(gòu)買

余承東:我們成本扛不住了,希望大家早點(diǎn)購(gòu)買

映射生活的身影
2026-04-20 21:53:17
歐爾班下臺(tái),這個(gè)歐洲國(guó)家卻可能再次擁抱一位親俄領(lǐng)導(dǎo)人

歐爾班下臺(tái),這個(gè)歐洲國(guó)家卻可能再次擁抱一位親俄領(lǐng)導(dǎo)人

上觀新聞
2026-04-20 15:58:42
狂跌90%!造假成風(fēng),中產(chǎn)追捧的網(wǎng)紅飲品淪為“智商稅”!

狂跌90%!造假成風(fēng),中產(chǎn)追捧的網(wǎng)紅飲品淪為“智商稅”!

青眼財(cái)經(jīng)
2026-04-20 15:03:39
“按按鈕就行”:官媒的“大國(guó)工匠”是如何失誤的?

“按按鈕就行”:官媒的“大國(guó)工匠”是如何失誤的?

虔青
2026-04-20 13:25:48
人心散了!34分慘敗引發(fā)內(nèi)訌,趙繼偉發(fā)社媒表達(dá)不滿,怒噴隊(duì)友

人心散了!34分慘敗引發(fā)內(nèi)訌,趙繼偉發(fā)社媒表達(dá)不滿,怒噴隊(duì)友

南海浪花
2026-04-20 23:37:05
“愛(ài)奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

“愛(ài)奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

第一財(cái)經(jīng)資訊
2026-04-20 17:24:18
4月21日精選熱點(diǎn):光纖價(jià)格暴漲650%  這3家處于底部龍頭要起爆

4月21日精選熱點(diǎn):光纖價(jià)格暴漲650% 這3家處于底部龍頭要起爆

元芳說(shuō)投資
2026-04-20 21:31:20
為什么全國(guó)人民都在拒接電話?

為什么全國(guó)人民都在拒接電話?

黯泉
2026-04-18 17:00:56
77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國(guó)畢業(yè)的兒子悉心照料

77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國(guó)畢業(yè)的兒子悉心照料

她時(shí)尚丫
2026-04-19 21:41:30
日本一觀光直升機(jī)墜入火山口,2名中國(guó)臺(tái)灣游客與1名日本機(jī)長(zhǎng)失蹤已3月,日媒稱生還可能性極低,擬動(dòng)用無(wú)人機(jī)重機(jī)具進(jìn)入火口作業(yè)

日本一觀光直升機(jī)墜入火山口,2名中國(guó)臺(tái)灣游客與1名日本機(jī)長(zhǎng)失蹤已3月,日媒稱生還可能性極低,擬動(dòng)用無(wú)人機(jī)重機(jī)具進(jìn)入火口作業(yè)

大風(fēng)新聞
2026-04-20 15:11:31
小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長(zhǎng)上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長(zhǎng)上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

極目新聞
2026-04-20 16:20:59
2026-04-21 06:03:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
時(shí)尚
家居
教育
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實(shí)用又不過(guò)時(shí)

家居要聞

自然慢調(diào) 慢享時(shí)光

教育要聞

“真大方,還拍給外人看”,女兒蹭枕頭,家長(zhǎng)放網(wǎng)上,網(wǎng)友卻毛了

軍事要聞

特朗普:美艦向伊朗貨船開(kāi)火炸出個(gè)洞

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版