国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Mac 用戶本地跑大模型,這可能是目前最能打的方案

0
分享至

關(guān)于本地部署和量化,我之前寫過不少:

今天聊一套讓我眼前一亮的東西——來自同一個團隊的三件套:JANG + vMLX + MLX Studio,這可能是目前最能打的方案

它們仨是啥關(guān)系?

先別被三個名字搞暈了

如果你玩過 PC 端的 GGUF + llama.cpp + Open WebUI,這三個的關(guān)系你一眼就懂:

層次

PC 端類比

Mac 端(這套)

量化格式

GGUF

JANG

推理引擎

llama.cpp

vMLX

桌面應(yīng)用

Open WebUI

MLX Studio

簡單說:JANG 把大模型壓小,vMLX 把它跑快,MLX Studio 給你一個漂亮的界面。三件套,一條龍。

JANG:MLX 的量化救星

先聊最底層的 JANG,官方管自己叫"The GGUF for MLX"

說白了,就是一種混合精度量化方案

普通量化對所有參數(shù)一刀切,但模型里的 Attention 層對精度極其敏感,切太狠直接出 NaN(無效數(shù)值),模型就廢了

JANG 的聰明之處在于:對不同層給不同精度

  • Attention 層:保留 5~8 bit(不敢動)

  • MLP 層:壓到 2~4 bit(這里水分多,使勁壓)

  • 平均額外開銷:只多 0.3 bit

效果有多猛?看這組數(shù)據(jù)——230B 參數(shù)的 MiniMax M2.5 為例:

量化方式

大小

MMLU(200 題)

JANG_2L(2bit 混合)82.5 GB74%

MLX 4-bit

119.8 GB

26.5%

MLX 3-bit

93 GB

24.5%

MLX 2-bit

68 GB

25%

MLX 在各種 bit 下都只有 25% 左右——純隨機猜測水平,模型等于報廢了。JANG 的 2bit 混合版不但活得好好的,還拿了 74%,體積反而更小。

這差距也太離譜了


更夸張的是 397B 參數(shù)的 Qwen3.5:

  • JANG_1L:112 GB,塞進 128 GB MacBook Pro,MMLU 86.5%

  • MLX 2-bit / 3-bit:NaN,直接寄

  • MLX 4-bit:需要約 280 GB,地球上沒幾臺 Mac 裝得下

397B 模型在筆記本上跑起來了——這句話放兩年前說出來怕是要被當成瘋子。


所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下載即用。想自己量化的話,代碼在 github.com/jjang-ai/jangq,Apache 2.0 開源。

vMLX:100K 上下文快 224 倍

有了好的量化模型,還得有個快引擎

vMLX 就是干這個的

安裝極簡:

pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

啟動后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 這些客戶端都能直接接


vMLX 最硬核的賣點是它的五層緩存棧——其他 Mac 端引擎最多有一兩層,vMLX 全給你堆滿了:

  1. 前綴緩存:對話中重復(fù)的部分只算一次

  2. 分頁 KV 緩存:多個對話同時駐留,切換不驅(qū)逐

  3. KV 緩存量化:q4/q8 壓縮,節(jié)省 4~8 倍內(nèi)存

  4. 持續(xù)批處理:最多 256 個并發(fā)序列

  5. 磁盤緩存:重啟后立即恢復(fù),不用重新算

五層疊加的結(jié)果就是,首個 Token 的響應(yīng)速度碾壓同類:

上下文長度

vMLX

其他引擎

快多少

2.5K

0.05s

0.49s

9.7×

10K

0.08s

6.12s

76×

100K

0.65s

131s

224×

100K 上下文,別的引擎要等兩分多鐘,vMLX 不到一秒。我第一反應(yīng)是"不可能",但這是實測的 TTFT(Time to First Token),五層緩存疊加確實恐怖。

除了緩存,還有幾個值得一提的特性:

  • 推測解碼:小模型打草稿 + 大模型驗證,提速 20~90%

  • Mamba / SSM 混合架構(gòu)支持:Nemotron-H 這些奇葩架構(gòu)只有 vMLX 能跑

  • 20+ 內(nèi)置 Agent 工具:文件讀寫、代碼搜索、Shell 執(zhí)行、Git 操作、網(wǎng)頁搜索——全部本地運行

最后這點很有意思。vMLX 是目前唯一把 Agentic 工具內(nèi)置到本地引擎里的方案,不用額外配 MCP 服務(wù)器,模型直接就能讀文件、執(zhí)行命令、搜索代碼庫。這個思路比 Ollama、LM Studio 激進得多。


項目地址:github.com/jjang-ai/vmlx,Apache 2.0 開源。

MLX Studio:不碰命令行也能玩

如果你覺得命令行太折騰,MLX Studio就是給你準備的——vMLX 引擎的完整 GUI 應(yīng)用,永久免費。


MLX Studio 主界面——聊天、Agent 工具、圖像生成一體化

該有的全有了:

對話:流式多輪對話、折疊式思維鏈展示(DeepSeek R1、Qwen3、GLM)、拖拽圖片做視覺分析、語音朗讀回復(fù)。

圖像生成:5 個生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 個編輯模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 費用。

模型管理:內(nèi)置 HuggingFace 瀏覽器一鍵下載、GGUF → MLX 轉(zhuǎn)換器(支持 JANG 混合精度)、菜單欄快捷切換模型。

API 集成:同時提供 OpenAI 和 Anthropic 端點,支持 Claude Code 等客戶端直接對接。原生 MCP 支持,可以掛外部工具。


老實說,從功能完整度來看,MLX Studio 比之前我試過的 oMLX 豐富不少,尤其是圖像生成和 Agent 工具這塊,oMLX 是沒有的。不過 oMLX 勝在輕量簡潔,兩者定位不太一樣。

官網(wǎng):mlx.studio

總結(jié)

這三件套解決的核心問題就一個:在 Apple Silicon Mac 上把本地 AI 的體驗拉滿。

  • JANG解決"裝不下"——128GB Mac 跑 397B 模型,MLX 標準量化做不到

  • vMLX解決"跑不快"——五層緩存棧,100K 上下文快 224 倍

  • MLX Studio解決"用不了"——圖文生成、語音對話、Agent 編程,一個 App 搞定

三個項目全部 Apache 2.0 開源,全部免費。

有 Mac 跑本地模型需求的朋友,真的值得試試。

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
被志愿軍生生嚇跑的歐洲強國,離勝利僅剩30米,突然全軍撤退逃離

被志愿軍生生嚇跑的歐洲強國,離勝利僅剩30米,突然全軍撤退逃離

浩渺青史
2026-04-20 18:21:45
一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

另子維愛讀史
2026-04-20 09:36:56
車窗告別貼膜時代!京東方光幕技術(shù)上車小鵬、蔚來:0.16秒從透明變黑墻

車窗告別貼膜時代!京東方光幕技術(shù)上車小鵬、蔚來:0.16秒從透明變黑墻

快科技
2026-04-20 19:39:18
1940年陳嘉庚到延安考察,悄悄問店主:這里有共產(chǎn)黨大官的產(chǎn)業(yè)嗎

1940年陳嘉庚到延安考察,悄悄問店主:這里有共產(chǎn)黨大官的產(chǎn)業(yè)嗎

老謝談史
2026-04-18 16:11:37
不知道張凌赫好看在哪?看看路人拍的沒有濾鏡的生圖你就知道了!

不知道張凌赫好看在哪?看看路人拍的沒有濾鏡的生圖你就知道了!

草莓解說體育
2026-04-20 18:48:02
不是齊達內(nèi)!姆巴佩反對克洛普上任,力薦阿根廷名帥執(zhí)掌皇馬!

不是齊達內(nèi)!姆巴佩反對克洛普上任,力薦阿根廷名帥執(zhí)掌皇馬!

瀾歸序
2026-04-21 05:37:29
曼聯(lián)6000萬可簽利馬阿根廷搭檔!兩確定存疑,賽季報銷可踢世界杯

曼聯(lián)6000萬可簽利馬阿根廷搭檔!兩確定存疑,賽季報銷可踢世界杯

羅米的曼聯(lián)博客
2026-04-21 07:07:19
連續(xù)兩個月從中國進口鎵鍺為零后,日本宣布:無人機要做世界第一

連續(xù)兩個月從中國進口鎵鍺為零后,日本宣布:無人機要做世界第一

丁丁鯉史紀
2026-04-20 16:54:16
祥鵬航空回應(yīng)“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

祥鵬航空回應(yīng)“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

南方都市報
2026-04-20 17:16:09
無牌老頭樂路上狂飆,車窗貼有“急救送血車”字樣!天津血液中心:非中心車輛,在找車

無牌老頭樂路上狂飆,車窗貼有“急救送血車”字樣!天津血液中心:非中心車輛,在找車

瀟湘晨報
2026-04-20 11:23:12
同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

張道陵秘話
2026-04-11 16:37:21
美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

古事尋蹤記
2026-04-21 07:21:56
12輛房車組隊穿越歐亞30個國家,組織者:已經(jīng)是第8次了,全程4萬多公里全靠自駕,準備9月返回

12輛房車組隊穿越歐亞30個國家,組織者:已經(jīng)是第8次了,全程4萬多公里全靠自駕,準備9月返回

極目新聞
2026-04-20 21:05:29
鹿晗生日傳好消息,眾星發(fā)聲,關(guān)曉彤態(tài)度變了,懸著的心終于放下

鹿晗生日傳好消息,眾星發(fā)聲,關(guān)曉彤態(tài)度變了,懸著的心終于放下

手工制作阿殲
2026-04-20 18:17:06
4.21股市早8點丨春夏之交必再創(chuàng)11年新高

4.21股市早8點丨春夏之交必再創(chuàng)11年新高

沙黽農(nóng)
2026-04-21 06:26:29
馬伊琍官宣喜訊!文章開面館求團圓,真實目的曝光,姚笛成贏家

馬伊琍官宣喜訊!文章開面館求團圓,真實目的曝光,姚笛成贏家

橙星文娛
2026-04-19 14:47:43
女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
查到問題根源上 改到群眾心坎里(樹立和踐行正確政績觀)

查到問題根源上 改到群眾心坎里(樹立和踐行正確政績觀)

人民網(wǎng)
2026-04-20 08:45:09
十大起義總指揮都是誰

十大起義總指揮都是誰

祁州校尉
2026-04-17 11:00:28
2026-04-21 08:03:00
Ai學(xué)習的老章 incentive-icons
Ai學(xué)習的老章
Ai學(xué)習的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

時尚
教育
游戲
旅游
藝術(shù)

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

教育要聞

加權(quán)費馬點模型,一個視頻學(xué)明白!

簡直就是欺詐!玩家怒批索尼PS商店明目張膽割韭菜

旅游要聞

閻錫山故居:一座都督府,半部民國史

藝術(shù)要聞

春天最適合小住三五天的地方

無障礙瀏覽 進入關(guān)懷版