国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

24小時90次實驗,全程AI寫代碼,他獨自復(fù)現(xiàn)蘋果三年前的論文成果

0
分享至

內(nèi)存墻是計算機體系結(jié)構(gòu)中的一個經(jīng)典瓶頸,簡單來說,就是處理器的運算速度飛快,但內(nèi)存的容量和傳輸速度卻遠遠跟不上需求。

尤其是像 Qwen3.5-397B 這樣擁有 3,970 億參數(shù)的巨型模型,即使經(jīng)過 4 比特壓縮,其體積也高達 209 GB,是頂級消費級筆記本內(nèi)存容量的 4 倍以上。在傳統(tǒng)的推理模式下,這意味著你必須擁有數(shù)張價值不菲的專業(yè)顯卡集群才能勉強運行。

近日,來自美國最大的醫(yī)療保健和藥房連鎖公司之一 CVS Health 的人工智能平臺副總裁丹·伍茲(Dan Woods)完成了一項看似不可能的挑戰(zhàn):他運行了一個名為 Flash-MoE的項目,成功在一臺僅有 48GB 內(nèi)存的 MacBook Pro 上離線運行了擁有 3,970 億參數(shù)的 Qwen3.5-397B,運行速度達到約 5.7 tokens/秒,峰值可到 7.07 tokens/秒。


圖 | 伍茲(來源:社交媒體 X)

對伍茲而言,在本地設(shè)備上運行頂級規(guī)模的大模型,是他多年來的愿望。早在三年前,蘋果就發(fā)布過一篇名為“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的論文,明確指出通過從閃存流式傳輸權(quán)重,運行超出內(nèi)存容量的大模型完全可行。他一直期待這一天的到來,但即便蘋果的硬件架構(gòu)似乎為這一技術(shù)量身定制,官方卻始終沒有推出對應(yīng)的落地方案。

伍茲深知,編寫底層 Metal 著色器、Objective-C 推理引擎以及復(fù)雜的 I/O 優(yōu)化并不在自己的專業(yè)領(lǐng)域內(nèi)。但隨著 Claude Opus 4.6 的進化和 Claude Code 智能體化工程的成熟,時機終于來了。

他將研究思路和論文交給 Claude Code,并采用安德烈·卡帕西(Andrej Karpathy)“自動研究”模式的變體,讓 Claude 在 24 小時內(nèi)運行了 90 個實驗,以確定最佳推理策略、量化方法和架構(gòu)選擇。從 5,000 行的 Objective-C 推理引擎到 1,100 行的 Metal 著色器,再到 2 比特重分配量化管線及全部測試代碼,沒有一行是由他親手編寫的,全部出自 Claude 之手。

在相關(guān)論文中,伍茲還將 Claude Opus 4.6 列為第一作者。


(來源:GitHub)

在傳統(tǒng)的稠密模型中,每生成一個字,模型中的每一個參數(shù)都必須參與計算。Qwen3.5-397B 是一款極具代表性的超大規(guī)?;旌蠈<夷P停∕oE)。這類模型并非所有參數(shù)同時工作,而是被拆分成為數(shù)百個“專家”模塊,每個 Token 只激活少數(shù)專家,其余模塊均處于閑置,天生具備極高的權(quán)重稀疏性。Qwen3.5-397B,總參數(shù)量為 3,970 億,但每個 token 僅激活 17B 參數(shù)。

Qwen3.5-397B 擁有 512 個專家,但在處理每個 Token 時,默認只會激活 10 個專家。伍茲進一步發(fā)現(xiàn),即使只激活 4 個專家,模型的邏輯推理、數(shù)學和編程能力依然保持卓越,而一旦激活數(shù)量少于 3 個,模型輸出會直接崩潰。這意味著在任何一個計算瞬間,只有不到 2% 的專家權(quán)重是真正需要的。

因此,伍茲的想法是:如果能把這部分需要的權(quán)重從高速 NVMe 固態(tài)硬盤(SSD)快速傳輸?shù)絻?nèi)存/顯卡,就不用把整個模型塞進內(nèi)存,相當于讓固態(tài)硬盤成為模型的“外部內(nèi)存”,流式給模型供能。

蘋果 M3 Max 的統(tǒng)一內(nèi)存架構(gòu)(CPU、GPU、SSD 共享一個地址空間,內(nèi)存帶寬達 400GB/s)和 3 倍于前代的 NVMe 速度,剛好提供了硬件基礎(chǔ),能在模型計算的時間內(nèi),把需要的專家權(quán)重傳過來。


(來源:GitHub)

為了實現(xiàn)這一想法,伍茲做了一些創(chuàng)新改進。

首先是給模型權(quán)重“瘦身”,在原有 4 比特量化的基礎(chǔ)上,對專家權(quán)重做 2 比特二次量化,單個專家大小從 7.08MB 降至 3.93MB,總存儲需求從 209GB 降到 120GB,數(shù)據(jù)傳輸量直接減少 44%,且每層量化誤差僅 0.001-0.003,模型輸出質(zhì)量幾乎沒有損失。

其次,在 MacBook Pro M3 Max 上,NVMe SSD 的順序讀取速度高達 17.5 GB/s。伍茲利用這一特性,開發(fā)了一套基于 C 語言和 Metal 指令集的管線,核心路徑上完全沒有 Python,也沒有使用任何現(xiàn)成的 ML 框架,把計算分成三個命令緩沖區(qū),讓 CPU 準備下一層的同時,GPU 在算當前層,實現(xiàn)重疊執(zhí)行,減少等待。

最令人意外的是緩存策略的反常識優(yōu)化。研究人員最初為提升速度搭建了 9.8GB 的應(yīng)用層緩存,結(jié)果卻發(fā)現(xiàn)速度不升反降。深入研究后發(fā)現(xiàn),蘋果硅芯片的硬件內(nèi)存壓縮器會因這類 GPU 可見緩存瘋狂工作,每秒數(shù)萬次的解壓縮消耗了大量 CPU 資源和內(nèi)存帶寬,反而擠占了數(shù)據(jù)傳輸和計算的資源。最終研究人員果斷刪掉所有應(yīng)用層緩存,讓 macOS 系統(tǒng)的頁緩存完全接管,這一調(diào)整直接讓模型運行速度提升 38%,解壓縮操作幾乎降至零。

一系列優(yōu)化下來,這款 3,970 億參數(shù)的大模型在 48GB 內(nèi)存的筆記本上,僅占用 6.5GB 內(nèi)存就能穩(wěn)定運行,每層計算耗時僅 2.9 毫秒,其中固態(tài)硬盤的數(shù)據(jù)傳輸是最大瓶頸,占比近 50%。經(jīng)測試,模型在 2 比特量化下的輸出質(zhì)量與 4 比特幾乎無差別,能正確完成數(shù)字因式分解、編寫規(guī)范 Python 代碼、用通俗類比解釋科學概念等任務(wù),完全達到實用標準。

伍茲指出,當前系統(tǒng)僅受限于 SSD 帶寬,理論吞吐量底線可達 18.6 tokens/秒,而目前的 5.74 tokens/秒僅利用了硬件的部分潛能,仍有巨大提升空間。隨著蘋果 SSD 帶寬每代約 20% 的穩(wěn)步增長,預(yù)計在未來 2 到 3 代硬件更迭內(nèi),在個人筆記本上以 10 tokens/秒以上速度運行 4,000 億參數(shù)模型將成為常態(tài)。

他還表示,這種方法同樣適用于 DeepSeek-V3 等其他以專家權(quán)重為主導的 MoE 模型。

1https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗發(fā)現(xiàn)一個重大驚喜,打向以色列的導彈,竟然一顆都沒有被攔截

伊朗發(fā)現(xiàn)一個重大驚喜,打向以色列的導彈,竟然一顆都沒有被攔截

書紀文譚
2026-04-08 18:04:34
陪玩陪睡注射風波再傳噩耗,肖戰(zhàn)意外被牽連

陪玩陪睡注射風波再傳噩耗,肖戰(zhàn)意外被牽連

曉肂愛八卦
2026-04-13 04:22:20
警告拉塞爾和安東內(nèi)利?沃爾夫曝考慮同時開除漢密爾頓與羅斯伯格

警告拉塞爾和安東內(nèi)利?沃爾夫曝考慮同時開除漢密爾頓與羅斯伯格

體育妞世界
2026-04-13 13:57:58
38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

云景侃記
2026-02-12 22:21:30
文班麻了!給機會不中用:雷霆成西部頭號贏家!

文班麻了!給機會不中用:雷霆成西部頭號贏家!

運籌帷幄的籃球
2026-04-13 14:29:49
換奧巴馬,這兩名美軍F-15飛行員幾乎必死

換奧巴馬,這兩名美軍F-15飛行員幾乎必死

民間胡扯老哥
2026-04-11 10:30:51
具俊曄瘦的不成樣子!去玫瑰園看望大S被偶遇,背影就像干巴老頭

具俊曄瘦的不成樣子!去玫瑰園看望大S被偶遇,背影就像干巴老頭

以茶帶書
2026-04-12 16:59:16
弱者著相,強者破相,智者無相(深度好文)

弱者著相,強者破相,智者無相(深度好文)

洞見
2026-04-12 15:24:55
姚敏學同志逝世

姚敏學同志逝世

新京報政事兒
2026-04-13 09:24:06
越鬧越大!奧迪加油站逃單后續(xù),不到一天就落網(wǎng),司機身份被公開

越鬧越大!奧迪加油站逃單后續(xù),不到一天就落網(wǎng),司機身份被公開

離離言幾許
2026-04-13 12:18:54
美伊談判破裂24小時內(nèi)遭導彈襲擊,中方態(tài)度堅決

美伊談判破裂24小時內(nèi)遭導彈襲擊,中方態(tài)度堅決

何嗀愛捕漁
2026-04-13 12:51:45
鄭麗文訪大陸結(jié)束前,為國捐款的張明敏,憑一個舉動實現(xiàn)口碑暴增

鄭麗文訪大陸結(jié)束前,為國捐款的張明敏,憑一個舉動實現(xiàn)口碑暴增

小娛樂悠悠
2026-04-12 10:34:17
斷油即斷命?日韓工廠停工、交通癱瘓,中國用實力給世界上了一課

斷油即斷命?日韓工廠停工、交通癱瘓,中國用實力給世界上了一課

安珈使者啊
2026-04-13 14:46:38
瓜帥:下周對陣阿森納很重要,如果我們贏不了那基本就結(jié)束了

瓜帥:下周對陣阿森納很重要,如果我們贏不了那基本就結(jié)束了

懂球帝
2026-04-13 03:25:12
時隔57天,追覓科技創(chuàng)始人俞浩宣布回歸

時隔57天,追覓科技創(chuàng)始人俞浩宣布回歸

三言科技
2026-04-12 16:05:29
準備存錢的抓緊看!國家放出靠譜存款,利息更高,普通人都可買

準備存錢的抓緊看!國家放出靠譜存款,利息更高,普通人都可買

牛鍋巴小釩
2026-04-13 11:50:12
75年,毛主席得知一中將在蕪湖當?shù)匚睍?,大怒:必須重新分?>
    </a>
        <h3>
      <a href=老范談史
2026-04-10 13:59:38
重慶摩幫三巨頭倒下了兩個,只有左宗申笑到最后?張雪給出答案

重慶摩幫三巨頭倒下了兩個,只有左宗申笑到最后?張雪給出答案

叮當當科技
2026-04-13 09:52:27
38歲已婚女與37歲情人,在石凳子上發(fā)生關(guān)系,溫存后被殘忍殺害

38歲已婚女與37歲情人,在石凳子上發(fā)生關(guān)系,溫存后被殘忍殺害

胖胖侃咖
2024-06-08 08:00:08
萬科走向深淵的最大推手——郁亮

萬科走向深淵的最大推手——郁亮

地產(chǎn)微資訊
2026-02-06 10:15:49
2026-04-13 15:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16572文章數(shù) 514868關(guān)注度
往期回顧 全部

科技要聞

傳榮耀與字節(jié)跳動接洽“豆包手機”合作

頭條要聞

牛彈琴:談判失敗美國不惜自殘 用的招夠狠夠損也夠蠢

頭條要聞

牛彈琴:談判失敗美國不惜自殘 用的招夠狠夠損也夠蠢

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財經(jīng)要聞

封鎖,還是收費站?

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

家居
旅游
手機
公開課
軍事航空

家居要聞

復(fù)古風格 自然簡約

旅游要聞

文水縣:五萬畝梨園花海絢爛迷人

手機要聞

猛料!字節(jié)豆包手機最早找的是榮耀,現(xiàn)在終于談攏了?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:今晚10點封鎖伊朗 對北約非常失望

無障礙瀏覽 進入關(guān)懷版