国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

三星研究院發(fā)布手機端側(cè)大模型MeKi:基于Memory的LLM擴展新范式,支持旗艦手機端側(cè)部署

0
分享至


三星發(fā)布MeKi,用手機ROM擴容大模型,性能媲美更大模型。

隨著三星最新一代旗艦手機 Samsung Galaxy S26 的正式發(fā)布,移動端AI體驗迎來了質(zhì)的飛躍。新機集成了多種創(chuàng)新AI功能以及多款A(yù)I智能體。這些AI應(yīng)用極大地豐富了用戶的日常體驗,也標志著智能手機正逐步轉(zhuǎn)型為高度智能化的個人助理平臺。然而,支撐這些復(fù)雜功能的背后,是對端側(cè)大模型性能與效率的極致追求。

最近,三星研究院在上月發(fā)布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側(cè)大模型架構(gòu),提出一種全新的大模型擴展思路——通過存儲空間來擴展模型容量、提升LLM的性能,而非依賴激活參數(shù)量和計算量的提升,這種新范式為在邊緣設(shè)備部署高性能LLM提供了新的解決方案。

與傳統(tǒng)的部署方式不同,MeKi架構(gòu)巧妙地利用了手機上豐富的ROM存儲空間,而非僅僅受限于RAM。在移動端 SoC 上,從ROM進行查找讀取的操作相對廉價且能效高,且ROM帶寬在大模型推理期間通常處于閑置狀態(tài),MeKi利用這一特性將ROM轉(zhuǎn)化為模型知識的擴展存儲庫,從而緩解了內(nèi)存(RAM)的壓力。這種設(shè)計在不增加計算量(FLOPs)和推理時延的前提下,實現(xiàn)了模型容量與性能的顯著提升。

文章地址:https://www.arxiv.org/pdf/2602.03359

項目主頁:https://github.com/ningding-o/MeKi


01


核心痛點:邊緣部署的計算與內(nèi)存困境

當前大模型的主流擴展路徑(增大參數(shù)量、提升推理時計算量)在數(shù)據(jù)中心表現(xiàn)優(yōu)異,但在智能手機等邊緣設(shè)備上面臨致命瓶頸:

- 稠密模型參數(shù)量增加會導(dǎo)致浮點運算(FLOPs)激增,帶來不可接受的延遲和功耗;

- 混合專家(MoE)架構(gòu)雖通過稀疏激活降低單token計算量,但頻繁加載離散專家權(quán)重會造成嚴重的內(nèi)存訪問延遲,成為邊緣設(shè)備的主要性能瓶頸;

- 邊緣設(shè)備的RAM和NPU資源有限,而ROM帶寬在推理過程中大量閑置,現(xiàn)有方案未充分利用這一資源優(yōu)勢。

據(jù)此,研究團隊提出了本文的核心動機:能否在不增加推理延遲和計算量的前提下,通過利用存儲空間實現(xiàn)模型容量的有效擴展?


02


MeKi:將存儲內(nèi)容注入推理過程的LLM架構(gòu)

MeKi(Memory-based Expert Knowledge Injection)通過"存儲替代計算"的設(shè)計思路,實現(xiàn)模型容量與計算成本的解耦,其核心架構(gòu)包含三大關(guān)鍵組件:

1. token級專家知識:靜態(tài)與動態(tài)知識融合

MeKi為每個Transformer層配備專屬的知識庫,將其視為token級專家的集合,用來存儲在預(yù)訓(xùn)練階段學(xué)習到的語義知識。每個token的專家向量由兩部分融合而成:

- 靜態(tài)知識:通過token ID從一個靜態(tài)的詞嵌入矩陣中直接查詢,存儲基礎(chǔ)語義知識;

- 動態(tài)知識:在訓(xùn)練階段通過非線性投影從全局詞嵌入中合成特定的特征向量,增強表示能力;

兩者經(jīng)過歸一化處理后,由逐層可學(xué)習的系數(shù)進行加權(quán)調(diào)節(jié),形成最終的專家知識向量。

模型每層所用的專家知識庫的大小為 ,為了控制ROM空間的占用,我們控制知識向量的維度 遠小于模型的hidden size ( )。

2. 低秩門控融合:高效的知識注入機制

為了將專家知識高效率的注入到Transformer的前向傳播過程中,MeKi采用了一種低秩空間下的加法門控融合策略:

首先利用低秩線性投影和激活函數(shù)利用輸入FFN模塊的token hidden state來生成與上下文相關(guān)的低維門控信號(維度為 ),門控信號與檢索到的專家知識向量相加,從而實現(xiàn)了hidden state與知識的動態(tài)融合;融合后的embedding(維度為 )經(jīng)過升維的線性投影被映射回模型維度( ),最終通過殘差連接融入主數(shù)據(jù)流。

該設(shè)計使得MeKi模塊可以與FFN模塊并行運行,實現(xiàn)模型容量的隱式擴展,且低秩空間下的融合操作擁有很少的FLOPs開銷,幾乎不會增加額外計算量。

3. 重參數(shù)化策略:訓(xùn)練復(fù)雜度與推理效率的平衡

為解決訓(xùn)練階段的計算復(fù)雜與推理階段需要高效部署的矛盾,MeKi提出使用重參數(shù)化技術(shù)來進一步降低推理階段的FLOPs開銷。

在訓(xùn)練階段,MeKi保留動態(tài)的非線性投影等復(fù)雜結(jié)構(gòu),最大化模型的表征學(xué)習能力;部署之前,將MeKi模塊中的動態(tài)投影和歸一化層等操作進行預(yù)先計算、并融合成為統(tǒng)一的靜態(tài)查找表,形成緊湊的ROM存儲結(jié)構(gòu);在推理時,MeKi僅需通過token ID進行查找,其I/O過程以及輕量級特征融合可以實現(xiàn)幾乎零延遲的極低額外開銷。

03


實驗驗證:端側(cè)性能與推理效率的雙重突破

研究團隊在基于Qualcomm Snapdragon 8 Elite的安卓移動平臺上,對激活參數(shù)量為0.6B、1.7B、4B三個規(guī)模的MeKi模型進行了全面驗證,核心結(jié)果如下:

1.性能對標更大參數(shù)量的模型:MeKi-1.7B模型在10個下游基準測試中平均得分59.7,與4B稠密模型(60.5)性能相當;

2.推理效率保持最優(yōu)水平:MeKi通過將知識權(quán)重卸載到ROM空間,保持與同參數(shù)量稠密模型一致的推理速度:MeKi-1.7B模型在端側(cè)的解碼速度達13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;


3.極低的ROM帶寬需求:重參數(shù)化之后的推理階段僅需少量的內(nèi)存查找操作,對于28層的Transformer模型,每個token所需的ROM數(shù)據(jù)傳輸量僅為14KB,完全適配移動設(shè)備的存儲帶寬。

4.超越同期其他基于存儲的LLM架構(gòu): MeKi-1.7B在10項下游任務(wù)上的平均得分為59.7,與DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM擴展方案相比,分別超出了2.7和1.8個百分點,驗證了本方法在融合ROM知識的機制上的優(yōu)越性。


04


關(guān)鍵洞察:架構(gòu)設(shè)計消融分析

研究團隊通過一系列的消融實驗進一步揭示了MeKi架構(gòu)性能優(yōu)勢的核心來源:

?靜態(tài)知識+動態(tài)知識的融合:作者在0.6B參數(shù)量的模型上實驗了兩種知識來源的協(xié)同作用,與只使用單一知識來源的變體相比,兩種知識互補之后分別提升了0.7和0.8個點,驗證了知識互補的價值;


?最優(yōu)的知識注入位置:作者實驗了將MeKi模塊插入到模型中的不同位置上,其中MeKi與FFN并行的部署方式效果最佳,較其他位置(例如與Attention并行、放在FFN之后)平均提升0.4-0.8個百分點;



?最優(yōu)的融合方式:在對token 的hidden state和ROM專家知識進行融合時,作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略,其中相加后Sigmoid方案的Training Loss最低,實驗得到的模型性能最優(yōu);



?知識庫容量的擴展定律:作者通過實驗證明了MeKi架構(gòu)的模型性能會隨著ROM中存儲的知識容量呈對數(shù)線性增長,通過改變預(yù)訓(xùn)練階段的知識向量維度( )即可調(diào)整模型的知識容量。為了實現(xiàn)性能與存儲成本的平衡,作者將MeKi-0.6B模型的 設(shè)置為128,MeKi-1.7B模型的 設(shè)置為256。


05


總結(jié)與展望

MeKi架構(gòu)打破了"性能提升依賴計算量增加"的傳統(tǒng)認知,通過"ROM替代RAM"的內(nèi)存化擴展范式,首次實現(xiàn)了邊緣設(shè)備上"零延遲開銷+大模型性能"的雙重目標。,為智能手機、物聯(lián)網(wǎng)設(shè)備等邊緣場景部署高性能LLM提供了全新思路。

對于深度集成AI功能的手機產(chǎn)品,MeKi架構(gòu)意味著用戶可以運行性能更強大的本地大模型,在保護隱私的前提下,享受更精準的智能體服務(wù)和更流暢的影像處理體驗,而無需擔心網(wǎng)絡(luò)延遲導(dǎo)致的體驗割裂,這手機真正地成為了懂知識、懂場景的“私人口袋專家”。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
駐韓美軍部分“薩德”反導(dǎo)系統(tǒng)轉(zhuǎn)往中東

駐韓美軍部分“薩德”反導(dǎo)系統(tǒng)轉(zhuǎn)往中東

環(huán)球網(wǎng)資訊
2026-03-10 13:06:08
人在庫姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

人在庫姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

老馬拉車莫少裝
2026-03-09 19:03:45
新歡上位成功?買超又曝喜當?shù)職g似是當年那個女大學(xué)生

新歡上位成功?買超又曝喜當?shù)?,新歡似是當年那個女大學(xué)生

悅君兮君不知
2026-03-09 21:42:31
A股:不出意外 明天周三 牛市很有可能會迎大級別的反彈!

A股:不出意外 明天周三 牛市很有可能會迎大級別的反彈!

夜深愛雜談
2026-03-10 20:50:27
只有一個女兒的父母千萬記住:女婿對你啥樣,都別交這五樣底

只有一個女兒的父母千萬記住:女婿對你啥樣,都別交這五樣底

楓紅染山徑
2026-03-06 00:41:37
為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

侃神評故事
2026-03-09 11:15:03
粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

浩渺青史
2026-03-10 18:31:00
眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說不出話

眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說不出話

萌神木木
2026-03-10 11:43:57
滅國級絞殺!伊朗新領(lǐng)袖剛上臺,美軍基地全面開放,這要徹底亡國

滅國級絞殺!伊朗新領(lǐng)袖剛上臺,美軍基地全面開放,這要徹底亡國

東極妙嚴
2026-03-09 17:19:50
伊各方誓言贏得戰(zhàn)爭,美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當選伊朗最高領(lǐng)袖

伊各方誓言贏得戰(zhàn)爭,美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當選伊朗最高領(lǐng)袖

環(huán)球網(wǎng)資訊
2026-03-10 06:43:10
身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊瀕臨降級區(qū)

身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊瀕臨降級區(qū)

葉青足球世界
2026-03-10 15:18:17
48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

博士觀察
2026-03-09 16:22:08
追覓手機外觀確認:奢華設(shè)計叫板華為小米 三分天下

追覓手機外觀確認:奢華設(shè)計叫板華為小米 三分天下

快科技
2026-03-09 16:32:10
48小時生成500萬字小說?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來自AI

48小時生成500萬字小說?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來自AI

藍鯨新聞
2026-03-09 12:14:45
為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

心靈的觸動a
2026-03-09 22:33:30
伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計難奏效

伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計難奏效

深度財線
2026-03-10 15:46:07
2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

PChome電腦之家
2026-03-09 15:16:03
外媒:法國要求聯(lián)合國安理會召開緊急會議,討論黎巴嫩當前局勢

外媒:法國要求聯(lián)合國安理會召開緊急會議,討論黎巴嫩當前局勢

環(huán)球網(wǎng)資訊
2026-03-09 19:57:22
巴薩棄將巴甲閃耀 計劃世界杯后離開帕爾梅拉斯 標價超5000萬歐

巴薩棄將巴甲閃耀 計劃世界杯后離開帕爾梅拉斯 標價超5000萬歐

智道足球
2026-03-10 19:16:51
寶馬銷售直播狂踩小米汽車!小米高管回應(yīng)

寶馬銷售直播狂踩小米汽車!小米高管回應(yīng)

鞭牛士
2026-03-10 14:32:06
2026-03-10 23:15:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

數(shù)碼要聞

蘋果iPhone17e體驗:加量不加價,值不值得入手呢?

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

游戲
教育
旅游
數(shù)碼
軍事航空

羨慕嗎?國外圖書館都能借上3A大作了

教育要聞

近10年,全國普通高校畢業(yè)生規(guī)模連年增長!

旅游要聞

瀘溪縣大陂流村油菜花綻放 滿目金黃迎客來

數(shù)碼要聞

羅德R?DE新推一體化音視頻方案,功能超強大!

軍事要聞

剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

無障礙瀏覽 進入關(guān)懷版