国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Mac mini不止養(yǎng)AI龍蝦!蘋果M4算力機密被曝光,Claude立新功

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】Claude立大功!開發(fā)者靠它剖析MIL語言與E5二進制,繞過CoreML直達硬件,證明NPU訓練從來不是硬件不行,而是蘋果不讓用。

AI界再迎地震,LLM訓練未來或從此改變!

OpenClaw引起全球AI龍蝦熱潮,意外讓蘋果Mac mini賣爆——

美國百強連鎖店之一的microCenter,本來主打的個人消費級PC,最近甚至宣稱「Mac mini和OpenClaw天生一對」!


還有好消息:MAC mini養(yǎng)完小龍蝦,不用吃灰了——

剛剛,蘋果神經(jīng)引擎(Apple Neural Engine,ANE)被破解,可能引爆AI訓練革命!

工程師Manjeet Singh用Claude逆向工程Apple Neural Engine了,還訓練了一個單層Transformer。

想象一下:不用GPU,不用TPU,就在M4芯片上完成的。

這并不意味著現(xiàn)在任何人都能構(gòu)建LLM。還沒到那一步。但現(xiàn)在你已經(jīng)可以在自己的MacBook上用一個小數(shù)據(jù)集做家庭實驗了。

無需CoreML,無需Metal,無需GPU。純粹利用高速運行的ANE芯片。

如果屬實,這無疑意義重大——



而且Claude深度參與了破解全程,包括整個逆向工程、基準測試以及訓練代碼的開發(fā)——由人類的直覺引領(lǐng)探索方向,由AI進行數(shù)據(jù)推理并撰寫分析報告。

Manjeet Singh直言一切都靠Claude,他只是引導方向:

我們認為,這種人機協(xié)作是進行系統(tǒng)研究的一種新穎且自然的方式:

一個伙伴扮演富有直覺的架構(gòu)師,另一個則充當編寫代碼和設(shè)計實驗的工程師。



鏈接:http://github.com/maderix/ANE

Mac就能訓單層Transformer!

Claude在這里扮演了關(guān)鍵角色。

通過Claude的智能分析,開發(fā)者鉤住了私有方法、剖析了MIL語言的秘密,并拆解了E5二進制的迷霧,最終繞過CoreML框架,直接操控ANE硬件實現(xiàn)前向和反向傳播。


一個單層Transformer(dim=768, seq=512)僅需9.3毫秒一步,峰值效率高達6.6 TFLOPS/W——

這是A100的80倍,H100的50倍以上。

這一發(fā)現(xiàn)讓無數(shù)人的算力賬單顯得像個笑話。

更驚人的是,最新更新已實現(xiàn)完整Stories110M模型(109百萬參數(shù),12層Llama-2架構(gòu))在TinyStories數(shù)據(jù)集上的訓練,損失實時下降,功耗低到「小于一瓦特」。

你的桌面Mac,從此不再是消費工具,而是AI訓練的超級電腦,成本暴降至電費的零頭。

這將改變世界。

首次,任何擁有Mac的人都可以在本地、私密地以遠低于云GPU的成本微調(diào)、訓練或迭代大規(guī)模模型。

不再租用4萬美元的A100集群。不再排隊等待。不再留下巨大的碳足跡。

過去動輒數(shù)萬甚至數(shù)十萬美元的訓練成本?如今暴跌至幾乎只需幾美分——基本就是你那臺閑置Mac本就在消耗的電費。

AI革命剛剛從耗資數(shù)十億美元的數(shù)據(jù)中心轉(zhuǎn)移到了你的桌面。

我們才剛剛起步,但大門已經(jīng)敞開——今天是單層,明天就是完整模型。

超低成本的設(shè)備端訓練時代已經(jīng)到來。

未來不是即將來臨,它已經(jīng)在你的Mac上運行。不過,我們西岸看一下什么是ANE?

什么是蘋果神經(jīng)引擎ANE?

大多數(shù)新款iPhone和iPad都配備了神經(jīng)引擎,這是一種能極大加速機器學習模型的特殊處理器,但關(guān)于這款處理器實際工作原理的公開信息并不多。

蘋果神經(jīng)引擎(簡稱 ANE)是一種NPU,即神經(jīng)網(wǎng)絡(luò)處理單元。

NPU類似于GPU,但GPU加速圖形處理,而NPU則加速卷積、矩陣乘法等神經(jīng)網(wǎng)絡(luò)運算,是一種定制化的固定功能加速器。

它接收的是已經(jīng)編譯好的神經(jīng)網(wǎng)絡(luò)計算圖,然后將整張圖作為一個原子操作一次性執(zhí)行完畢。

你無法像操作CPU或GPU那樣逐條發(fā)出乘加指令(multiply-accumulate)。你提交的是一份描述完整計算圖的編譯程序,而硬件會從頭到尾一次性跑完。

ANE并非唯一的NPU——

除了神經(jīng)引擎,最著名的NPU當屬谷歌的TPU(張量處理單元)。

2017年,Apple在A11 芯片中首次引入Neural Engine,當時是雙核心設(shè)計。


此后每一代都在擴展規(guī)模。


此次研究的對象,是蘋果M4芯片的ANE(代號H16G):

16核心,支持127條評估請求的隊列深度;

具備獨立的DVFS(動態(tài)電壓/頻率調(diào)節(jié));

并且擁有嚴格的電源門控機制,空閑時功耗精確降至0毫瓦。

推理芯片竟能用于訓練,能效還很高!

ANE本身性能極其強大,但蘋果通過CoreM將它限制在「僅推理」用途。

真正的障礙,從來不是硬件能力,而是軟件支持。

以下是完整的ANE軟件堆棧的樣子,從公共的CoreML API到硬件:


關(guān)鍵洞察:CoreML不是唯一的入口。AppleNeuralEngine.framework中的_ANEClient類提供了對編譯→加載→評估流程的直接訪問。CoreML只是頂部的一個便利層。

而Manjeet Singh想證明在Apple Neural Engine(ANE)上進行訓練——以及在其他NPU上進行訓練——是可行的。


起因是他買了一臺Mac mini M4,想利用它的算力來完成他的編譯器項目。

這個項目通過逆向私有API,繞過了這一限制,展示了當你真正釋放硬件能力時,它能做到什么。

這款NPU宣稱擁有38 TFLOPS的INT8算力(但它實際是FP16處理器,所以實際算力減半)。

最終,他搭建了一個定制化的訓練流水線,成功訓練了一個1.1億參數(shù)的微型GPT模型。

實際上,目前無法用單芯片訓練更大的模型,但理論上,通過集群或許可以訓練更大規(guī)模的模型。不過即使單臺設(shè)備,也應(yīng)該能對30億或70億參數(shù)的模型進行LoRA微調(diào)。

再次強調(diào),為什么要在NPU上訓練?

因為能效極高。

ANE在峰值算力下功耗僅2.8W,19 TFLOPS能效比高達6.6 TFLOPS/瓦,堪稱瘋狂!

對比之下,Metal GPU只有為1 TFLOPS/瓦,H100為1.4 TFLOPS/瓦)

需要明確的是:

  • 訓練是可行的,但利用率很低(約峰值的 2-3%),并且還存在重大的工程挑戰(zhàn)。

  • 許多逐元素運算仍然會回退到 CPU 執(zhí)行。

  • 目前,這除了用于小型研究模型外,還不能替代GPU訓練。


測試結(jié)果令人驚訝

最后的發(fā)現(xiàn)令人驚訝:

雖然「38 TOPS」這個數(shù)字在技術(shù)層面沒有錯誤,但卻極具誤導性。

蘋果從未公開過關(guān)于如何榨取ANE最大吞吐量的優(yōu)化模式。

這里多解釋一下——

TOPS是Tera Operations Per Second的縮寫,1TOPS代表處理器每秒鐘可進行一萬億次(10^12)操作。

它主要衡量理論最大吞吐量,而非實際吞吐量。由于大多數(shù)運算都是乘加運算(MAC),因此TOPS的計算公式為:(乘積累加運算MAC單元數(shù)量)x(MAC操作頻率)x 2。

這是決定AI運行速度的最重要的參數(shù)。

矩陣乘法擴展:基礎(chǔ)測試

他們從最簡單的基準測試開始:對遞增尺寸的方陣執(zhí)行乘法運算。


測試結(jié)果揭示兩大關(guān)鍵現(xiàn)象:

  1. 256×256矩陣受限于調(diào)度開銷:在0.101毫秒的運行時間中,大部分(約0.095毫秒)消耗于XPC和IOKit框架的通信,真正的計算僅占約0.006毫秒。

  2. 性能在4096尺寸時顯著下降:從2048尺寸時的5.7 TFLOPS降至4096尺寸時的4.0 TFLOPS,這表明存在資源溢出問題。


SRAM性能懸崖

2048到4096尺寸的性能驟降正是SRAM性能懸崖的體現(xiàn)。

一次矩陣乘法的計算集包含三個矩陣(A、B、C)。


以FP16精度計算:

  • 當尺寸為2048×2048時,24 MB的計算集完全適配芯片上的SRAM,因此能達到峰值單次運算吞吐量(5.7 TFLOPS)。

  • 當尺寸增至4096×4096時,96 MB的計算集遠超SRAM容量(約3倍),迫使數(shù)據(jù)頻繁交換至DRAM,導致吞吐量銳減30%。

這一性能在24MB(快速)和96MB(慢速)之間的劇烈變化,表明ANE的片上SRAM容量約為32 MB。


性能并非在達到界限時突然崩潰,而是逐漸下降,這暗示其采用了一種類似緩存的分層架構(gòu),而非固定的便簽式存儲器。

卷積運算優(yōu)于矩陣乘法

蘋果文檔中并未明確的一點是:ANE本質(zhì)上是一個為卷積設(shè)計的引擎。將相同的計算任務(wù)表達為1×1卷積,而非矩陣乘法,能獲得顯著提升的吞吐量。

一個矩陣乘法運算 C[M,N] = A[M,K] @ B[K,N] 可以通過重塑數(shù)據(jù),完美轉(zhuǎn)化為一個1×1卷積:

  • 輸入重塑為:(1, K, 1, M)

  • 權(quán)重重塑為:(N, K, 1, 1)

  • 輸出重塑為:(1, N, 1, M)

運算量和最終結(jié)果完全相同,但ANE的卷積數(shù)據(jù)通路能以高得多的效率處理這種形式。

深度圖網(wǎng)絡(luò)能填滿流水線

單個矩陣乘法操作僅能利用ANE約30%的峰值能力。


該硬件專為處理圖網(wǎng)絡(luò)而設(shè)計——即能夠持續(xù)讓全部16個核心保持忙碌狀態(tài)的運算鏈條。

鏈接的運算越多,就越接近理論上的峰值性能。


最大化ANE吞吐量的黃金法則:

  1. 構(gòu)建深度圖,而非廣度圖:在一個MIL程序中鏈接16至64個運算。孤立的單次運算會浪費70%的硬件能力。

  2. 優(yōu)先使用卷積而非矩陣乘法:1×1卷積能利用快速數(shù)據(jù)通路,而矩陣乘法的速度要慢3倍。

  3. 嚴格控制數(shù)據(jù)在32MB以內(nèi):確保每個張量的內(nèi)存占用不超過SRAM容量。數(shù)據(jù)溢出到DRAM會嚴重損害吞吐量。

  4. 避免受限于調(diào)度的微小運算:任何執(zhí)行時間低于約1毫秒的操作,其主要耗時都來自于約0.095毫秒的調(diào)度開銷。

CoreML vs _ANEClient:難以忽視的開銷稅

CoreML究竟損失了多少性能?

可以通過兩條路徑測量相同的運算,來計算性能損失:


對于小型運算,CoreML增加了2-4倍的開銷。

在高吞吐量配置下,由于ANE計算時間占主導,這一差距會縮小。但對于延遲敏感型的工作負載(如大語言模型的token解碼、實時推理),CoreML帶來的性能損失相當嚴重。


INT8 = FP16:「38 TOPS」的現(xiàn)實含義

蘋果宣稱M4神經(jīng)引擎擁有「38 TOPS」的算力。以下是這一數(shù)字的真實含義。

在FP16和INT8兩種精度下,測量了完全相同的運算:


最后發(fā)現(xiàn):

INT8并未帶來預期的2倍速度提升。

INT8和FP16的吞吐量幾乎相同。ANE在執(zhí)行計算前,會將INT8權(quán)重反量化為FP16格式。

INT8僅節(jié)省了內(nèi)存帶寬(從DRAM內(nèi)存加載更小的權(quán)重),并未節(jié)省計算周期。

蘋果的「38 TOPS INT8」是這樣計算出來的:19 TFLOPS FP16 × 2。

這符合行業(yè)慣例,即將INT8操作數(shù)視為FP16的兩倍。但硬件實際上并不能以兩倍的速度執(zhí)行INT8運算。

真正的峰值性能是19 TFLOPS FP16,無論你使用何種量化精度,所獲得的最高性能就是如此。

這恰好是根據(jù)硬件配置(16核心×約 1.2 TFLOPS/核心)計算出的理論峰值的100%。

在32層以上的深度網(wǎng)絡(luò)中達到94%的利用率,意味著幾乎測量了硬件的原始極限能力。

能效:ANE隱藏的王者

如果只看吞吐量,GPU穩(wěn)贏。

但ANE真正的優(yōu)勢在于其驚人的效率。



零功耗待機。ANE 采用了硬性電源門控技術(shù)——它不僅關(guān)閉時鐘,而是在閑置時完全切斷電源。這消除了任何泄漏電流和待機電量消耗。

在峰值負載下,它能實現(xiàn) 6.6 TFLOPS/瓦的能效,遙遙領(lǐng)先GPU:


這意味著,ANE在執(zhí)行每個浮點運算時的能效,能效大約是A100的80倍。當然,A100擁有50倍于ANE的總吞吐量。但對于依賴電池供電的設(shè)備端推理而言,ANE性能非凡。

ANE與SME:何時選擇使用哪種

M4的CPU核心還配備了蘋果的SME(可擴展矩陣擴展)功能。

以下是兩者的對比:


  • 適合使用ANE的場景:大批量推理、包含16層以上的深度圖網(wǎng)絡(luò)、對能耗有嚴格限制的場景、需要持續(xù)高吞吐量的任務(wù)。

  • 適合使用SME的場景:單token解碼(零調(diào)度開銷)、ANE不支持的自定義運算、小矩陣運算、任何需要FP32+精度的計算。

在M4上進行理想的大語言模型推理策略是混合模式:預填充階段(大批量、高吞吐量)使用ANE,解碼階段(單token、對延遲敏感)使用SME。


這次挖掘了ANE的真實能力:在2.8W功耗下,配合正確的網(wǎng)絡(luò)結(jié)構(gòu),可實現(xiàn)19 TFLOPS FP16的性能。

而接下來,Manjeet Singh還將詳細演示蘋果明確不支持的功能:在神經(jīng)引擎上訓練神經(jīng)網(wǎng)絡(luò)。

參考資料:

https://www.reddit.com/r/LocalLLaMA/comments/1rhx5pc/reverse_engineered_apple_neural_engineane_to/

https://x.com/ronaldmannak/status/2028560995875168292

https://maderix.substack.com/p/inside-the-m4-apple-neural-engine

https://maderix.substack.com/p/inside-the-m4-apple-neural-engine-615

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
踢了23分鐘就掛靴!瓦拉內(nèi)退役后首發(fā)聲:身體零件已散架,不硬撐

踢了23分鐘就掛靴!瓦拉內(nèi)退役后首發(fā)聲:身體零件已散架,不硬撐

仰臥撐FTUer
2026-03-06 13:38:03
雕和鷹誰更厲害?看完才知道,根本不是一個量級!

雕和鷹誰更厲害?看完才知道,根本不是一個量級!

心中的麥田
2026-03-07 19:20:54
廖三寧籃球路:順極了!爺爺是體校校長,爸爸開體育公司為他鋪路

廖三寧籃球路:順極了!爺爺是體校校長,爸爸開體育公司為他鋪路

秋楓凋零
2026-03-08 14:31:28
我的 OpenClaw 干了一件事,它真的嚇到我了

我的 OpenClaw 干了一件事,它真的嚇到我了

唐韌
2026-03-05 13:08:42
汽車圈“大地震”!比亞迪大將投奔行業(yè)巨頭,叫囂:三年內(nèi)沒對手

汽車圈“大地震”!比亞迪大將投奔行業(yè)巨頭,叫囂:三年內(nèi)沒對手

長星寄明月
2026-01-20 21:00:46
股民系好安全帶,下一周,股市或?qū)⒃俣戎匮?020年歷史行情?

股民系好安全帶,下一周,股市或?qū)⒃俣戎匮?020年歷史行情?

股市皆大事
2026-03-08 11:27:53
數(shù)名美軍被俘,特朗普突然對戰(zhàn)爭改口,但自始至終沒打算放過伊朗

數(shù)名美軍被俘,特朗普突然對戰(zhàn)爭改口,但自始至終沒打算放過伊朗

咣當?shù)厍?/span>
2026-03-08 16:55:24
男子下高速顯示高速費用83990元,收費員震驚:你有沒有繞路!

男子下高速顯示高速費用83990元,收費員震驚:你有沒有繞路!

張曉磊
2026-03-08 11:07:09
四川省委書記、省人大常委會主任王曉暉:牢記領(lǐng)袖囑托 勇?lián)鷷r代使命 努力在服務(wù)國家戰(zhàn)略全局中展現(xiàn)四川作為

四川省委書記、省人大常委會主任王曉暉:牢記領(lǐng)袖囑托 勇?lián)鷷r代使命 努力在服務(wù)國家戰(zhàn)略全局中展現(xiàn)四川作為

中國能源網(wǎng)
2026-03-08 11:08:08
集體下挫!美聯(lián)儲降息,突傳大消息!

集體下挫!美聯(lián)儲降息,突傳大消息!

證券時報e公司
2026-03-07 22:27:40
1955年他只是團級干部,授銜時,周恩來卻說道:授予你少將軍銜

1955年他只是團級干部,授銜時,周恩來卻說道:授予你少將軍銜

史之銘
2026-03-08 15:52:45
伊朗外長宣布革命衛(wèi)隊已經(jīng)事實獨立

伊朗外長宣布革命衛(wèi)隊已經(jīng)事實獨立

遠方青木
2026-03-04 00:29:55
安徽美女程雨婷睡夢中去世,原因公開,母親幾天白頭男友靈堂長跪

安徽美女程雨婷睡夢中去世,原因公開,母親幾天白頭男友靈堂長跪

青梅侃史啊
2026-03-07 07:10:08
李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環(huán)境中成長

李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環(huán)境中成長

談古論今歷史有道
2026-03-07 10:20:03
原來他已去世7年,中國第3位世乒賽男單冠軍,妻子也是乒乓國手

原來他已去世7年,中國第3位世乒賽男單冠軍,妻子也是乒乓國手

白面書誏
2026-02-20 23:42:54
荸薺立大功?研究發(fā)現(xiàn):荸薺可在24小時清除47%炎癥因子?

荸薺立大功?研究發(fā)現(xiàn):荸薺可在24小時清除47%炎癥因子?

醫(yī)學科普匯
2026-03-04 19:35:03
反攻7天后,伊朗重武器上場,中俄歐美全部行動,聯(lián)合國通報全球

反攻7天后,伊朗重武器上場,中俄歐美全部行動,聯(lián)合國通報全球

小丸說故事
2026-03-08 15:37:15
房東突然說要漲租3千,我口頭答應(yīng)連夜跑路,3天后她腸子悔青

房東突然說要漲租3千,我口頭答應(yīng)連夜跑路,3天后她腸子悔青

奶茶麥子
2026-03-07 22:26:32
卷來卷去,工資重回3000元時代!為什么這次大家不再抱怨了?

卷來卷去,工資重回3000元時代!為什么這次大家不再抱怨了?

另子維愛讀史
2026-01-26 20:08:00
與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

小熊侃史
2026-02-16 07:10:12
2026-03-08 17:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14669文章數(shù) 66667關(guān)注度
往期回顧 全部

數(shù)碼要聞

金山WPS for Pad正式版上架蘋果App Store港區(qū) 完美復刻桌面體驗

頭條要聞

美軍精銳空降師4000余人進入待命 被指或要推地面戰(zhàn)

頭條要聞

美軍精銳空降師4000余人進入待命 被指或要推地面戰(zhàn)

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

科技要聞

OpenClaw最大的推手是閑魚和小紅書

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

房產(chǎn)
教育
游戲
時尚
本地

房產(chǎn)要聞

傳統(tǒng)學區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

教育要聞

全國政協(xié)委員孔維克:建議學制縮短至10年,逐步取消中考。(新黃河)

PS亂刷白金現(xiàn)象遭抵制!知名網(wǎng)站剔除劣質(zhì)游戲數(shù)據(jù)

2026春夏一定要擁有的6只包,好看又百搭

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

無障礙瀏覽 進入關(guān)懷版