国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

IEEE論文:用HBF重塑HBM

0
分享至

SK 海力士近期發(fā)表一篇 IEEE 論文,提出一種全新架構:在同一中介層(interposer)上,將高帶寬內(nèi)存(HBM)的速度高帶寬閃存(HBF)的容量相結合,并直連 GPU,用以加速 AI 大模型與智能體的推理處理。

目前的 GPU,以及即將推出的英偉達 Rubin 架構,均通過中介層連接 HBM,為 GPU 核心提供高速、高帶寬的數(shù)據(jù)供給。但隨著 AI 大語言模型(LLM)規(guī)模不斷擴大,HBM 容量不足的問題愈發(fā)突出,數(shù)據(jù)不得不從速度更慢的本地 SSD 中調(diào)取,顯著拉長了推理耗時。

HBF 的訪問速度雖慢于 HBM,但遠快于普通本地 SSD,且容量更大。SK 海力士的H3 設計將其與 HBM 置于同一片中介層上,可讓 HBF 充當 HBM 的高速緩存,大幅縮短超大模型的處理時間。

我們可以這樣理解這一思路:


框圖展示HBM、HBF 與 GPU 基于中介層的互聯(lián)結構

未來幾代 HBM 會繼續(xù)提升容量與帶寬,但遠水難解近渴,無法及時解決當前推理延遲問題 —— 這會讓 GPU 陷入顯存瓶頸(memory-bound),持續(xù)等待數(shù)據(jù)。

該論文指出,H3 架構非常適合解決推理過程中KV 緩存環(huán)節(jié)的痛點。AI 模型推理時,會將上下文記憶序列(詞元與向量)以鍵值(KV)緩存的形式存放在 HBM 中。H3 論文提到:


“最新的 Llama 4 大模型支持最長達
1000 萬詞元
的序列長度。

這一規(guī)模需要高達5.4TB 的緩存,“僅存儲這些數(shù)據(jù)就需要數(shù)十張 GPU”。

英偉達的 ICMSP 軟件可將 KV 緩存擴展至本地 NVMe SSD,相比 HBM 容量耗盡后重新計算詞元與向量,能顯著加快處理速度。

而 HBF 的優(yōu)勢在于:將 KV 緩存部署在更靠近 GPU的位置,省去 SSD 經(jīng)由 PCIe 總線的傳輸延遲,提供比本地 SSD 更低的延遲、更高的帶寬訪問能力。

論文總結了HBF 的預期優(yōu)缺點:

優(yōu)勢:

1.容量最高可達 HBM 的16 倍

2.帶寬與 HBM 接近

劣勢:

1.訪問速度更慢(納秒級 vs 微秒級)

2.寫入壽命更低

3.功耗最高比 HBM 高4 倍

由于 HBF 寫入壽命有限(僅約10 萬次擦寫循環(huán)),它最適合讀密集型負載。H3 論文摘要明確指出:


“搭載 H3 的系統(tǒng),在相同 GPU 數(shù)量下,能比純 HBM 系統(tǒng)同時處理更多請求,使其非常適合 LLM 推理中的
大規(guī)模只讀場景
,尤其是使用
共享預計算鍵值緩存
的場景。

緩存增強生成(CAG)就是典型的這類負載:


“當大語言模型接收到查詢時,會讀取龐大的共享預計算 KV 緩存,完成計算后輸出結果。換言之,共享預計算 KV 緩存本質(zhì)就是
只讀
的。

H3 架構結構詳解


論文中的示意圖展示了完整設計:

·D2D:裸片間直連傳輸

·HBM 與 HBF 控制器分別位于各自的基底裸片上

·模型權重與共享預計算 KV 緩存存放在HBF

·生成式 KV 緩存及其他數(shù)據(jù)存放在HBM

為彌補 NAND 閃存延遲較高的問題,設計在 HBM 基底裸片中集成了延遲隱藏緩存(LHB),本質(zhì)是一種預取緩沖。

H3 設計思路:GPU 邊緣(周邊)搭載 HBM 堆疊,GPU 與 HBM 均置于中介層上(對應圖 a);HBM 與 HBF 以菊花鏈方式連接。


“在 HBM 基底裸片內(nèi)部,通過地址解碼器與路由單元將內(nèi)存訪問分為兩路:一路訪問 HBM,另一路訪問 HBF。如此一來,GPU 可
通過
HBM 基底裸片直接訪問 HBF

簡單說:HBM 與 HBF 共同作為 GPU 的主存。示意圖中的全局統(tǒng)一編址方案顯示:


“GPU 主機使用統(tǒng)一地址空間,劃分不同區(qū)域分別訪問 HBM 與 HBF?!?/blockquote>
性能測試數(shù)據(jù)

SK 海力士 H3 架構仿真測試環(huán)境:英偉達 Blackwell GPU(B200)+ 8 顆 HBM3E 堆疊 + 8 顆 HBF 堆疊。

性能對比純 HBM 方案:

·100 萬詞元場景:吞吐量提升1.25 倍

·1000 萬詞元場景:吞吐量提升6.14 倍

能效表現(xiàn):相比僅配備 8 顆 HBM、無 HBF 的 Blackwell GPU,每瓦性能提升 2.69 倍。

在 1000 萬詞元 KV 緩存測試中:HBM+HBF 方案可同時處理的查詢數(shù)(批次大?。?,是純 HBM 方案的18.8 倍。原本需要 32 張 GPU+HBM 才能完成的負載,借助 HBF 僅需2 張 GPU即可實現(xiàn),大幅降低功耗。

文末摘要(論文官方摘要)

大語言模型(LLM)推理需要海量內(nèi)存來處理長序列,而高帶寬內(nèi)存(HBM)的容量限制帶來了巨大挑戰(zhàn)。高帶寬閃存(HBF)是一種基于 NAND 閃存的新型存儲器件,擁有接近 HBM 的帶寬與遠超 HBM 的容量,但同時存在訪問延遲更高、寫入壽命更短、功耗更大等缺點。

本文提出H3 混合架構,旨在充分發(fā)揮 HBM 與 HBF 各自的優(yōu)勢:將只讀數(shù)據(jù)存放在 HBF,其他數(shù)據(jù)存放在 HBM。

搭載 H3 的系統(tǒng),在相同 GPU 數(shù)量下可處理更多并發(fā)請求,非常適合 LLM 推理中大規(guī)模只讀場景,尤其是使用共享預計算鍵值緩存的場景。

仿真結果表明:采用 H3 的 GPU 系統(tǒng),每瓦吞吐量最高提升 2.69 倍,驗證了 H3 在處理超大只讀數(shù)據(jù) LLM 推理時的高性價比。

西門子EDA直播報名(4月2日)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準定位?

外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準定位?

之乎者也小魚兒
2026-03-01 11:44:00
17天14跌!開普云暴跌54%,重組告吹股民深套

17天14跌!開普云暴跌54%,重組告吹股民深套

財經(jīng)智多星
2026-03-01 11:15:50
死了白死?俄方絕口不提貝加爾湖慘劇賠償 中日美此類案例都有賠款

死了白死?俄方絕口不提貝加爾湖慘劇賠償 中日美此類案例都有賠款

勁爆體壇
2026-02-28 18:30:13
全軍啟用預備役人員證

全軍啟用預備役人員證

界面新聞
2026-03-01 10:34:50
住建部放話:凡是樓齡滿25年以上的房子,都按新規(guī)處理

住建部放話:凡是樓齡滿25年以上的房子,都按新規(guī)處理

巢客HOME
2026-03-01 09:30:03
特朗普稱他心中已有可執(zhí)掌伊朗政權的“合適人選”

特朗普稱他心中已有可執(zhí)掌伊朗政權的“合適人選”

臺州交通廣播
2026-03-01 10:54:31
美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

知法而形
2026-03-01 10:21:49
伊朗確認哈梅內(nèi)伊遇害,有指定的接班人嗎?對伊朗局勢有何影響?

伊朗確認哈梅內(nèi)伊遇害,有指定的接班人嗎?對伊朗局勢有何影響?

之乎者也小魚兒
2026-03-01 10:28:33
突發(fā)重磅!周末黑天鵝突襲,影響哪些板塊?下周又該何去何從?

突發(fā)重磅!周末黑天鵝突襲,影響哪些板塊?下周又該何去何從?

虎哥閑聊
2026-03-01 08:37:38
回顧:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長后怕不已

回顧:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長后怕不已

談史論天地
2026-03-01 09:49:38
“反詐老陳”賬號被封,本人回應:問心無愧!MCN機構:即刻解除所有合約,雙方合作立即終止

“反詐老陳”賬號被封,本人回應:問心無愧!MCN機構:即刻解除所有合約,雙方合作立即終止

都市快報橙柿互動
2026-03-01 07:15:47
不宣而戰(zhàn)!美以精準斬首,哈梅內(nèi)伊身亡,伊朗進入權力真空

不宣而戰(zhàn)!美以精準斬首,哈梅內(nèi)伊身亡,伊朗進入權力真空

林子說事
2026-03-01 10:55:50
51死60傷!美以為何空襲伊朗小學?專家:或為全面威懾伊朗,或?qū)佟罢`傷”,未來幾天三方行動是關鍵

51死60傷!美以為何空襲伊朗小學?專家:或為全面威懾伊朗,或?qū)佟罢`傷”,未來幾天三方行動是關鍵

極目新聞
2026-02-28 22:09:29
伊朗足協(xié)主席親承:世界杯或棄賽!亞洲2隊按規(guī)將遞補,國足無緣

伊朗足協(xié)主席親承:世界杯或棄賽!亞洲2隊按規(guī)將遞補,國足無緣

我愛英超
2026-03-01 06:49:59
上海:中小學不得以寒假作業(yè)完成情況作為新學期注冊依據(jù)

上海:中小學不得以寒假作業(yè)完成情況作為新學期注冊依據(jù)

上觀新聞
2026-03-01 13:32:08
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當事人:馬桶晝夜不停自動工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當事人:馬桶晝夜不停自動工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
伊朗足協(xié)主席:“很難期待世界杯了”;伊朗已拿到2026世界杯正賽門票,3場小組賽都在美國的球場踢

伊朗足協(xié)主席:“很難期待世界杯了”;伊朗已拿到2026世界杯正賽門票,3場小組賽都在美國的球場踢

都市快報橙柿互動
2026-03-01 10:38:54
“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟新聞
2026-02-28 14:37:58
被美以轟炸后,伊朗民眾為何不慌?甚至在跳舞歡呼慶祝

被美以轟炸后,伊朗民眾為何不慌?甚至在跳舞歡呼慶祝

老馬拉車莫少裝
2026-02-28 22:43:52
哈梅內(nèi)伊遇襲身亡,全球30%海運命懸一線,油價、黃金如何走?

哈梅內(nèi)伊遇襲身亡,全球30%海運命懸一線,油價、黃金如何走?

雪球
2026-03-01 13:37:51
2026-03-01 14:24:49
EETOP半導體社區(qū) incentive-icons
EETOP半導體社區(qū)
國內(nèi)著名的電子工程師社區(qū)
7308文章數(shù) 15590關注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

哈梅內(nèi)伊生前已安排好"后事" 總統(tǒng)佩澤希齊揚被邊緣化

頭條要聞

哈梅內(nèi)伊生前已安排好"后事" 總統(tǒng)佩澤希齊揚被邊緣化

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準備

態(tài)度原創(chuàng)

藝術
家居
旅游
公開課
軍事航空

藝術要聞

2025第四屆“精神·圖式”——中國寫意油畫雙年展 | 入選油畫選刊

家居要聞

素色肌理 品意式格調(diào)

旅游要聞

來松江 過大年|賞非遺、赴雅集、觀花燈,來泗涇古鎮(zhèn)鬧元宵

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關懷版