網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

下一個(gè)HBM：HBF，能行嗎？

2026-02-20 11:47:59　來(lái)源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

前言

高帶寬閃存 (HBF：High Bandwidth Flash) 的出現(xiàn)，旨在解決人工智能的內(nèi)存瓶頸問(wèn)題。其理念是將 NAND 閃存像 HBM 一樣堆疊起來(lái)，從而在提供 HBM 級(jí)別帶寬的同時(shí)，實(shí)現(xiàn) 16 倍的容量提升。SK 海力士和閃迪正在聯(lián)合開發(fā)這項(xiàng)技術(shù)，目標(biāo)是在 2026 年底推出樣品。從表面上看，它似乎是解決 LLM 推理內(nèi)存容量問(wèn)題的完美方案。

然而，對(duì)SK海力士研究人員發(fā)表的H3論文（論文名稱：H3: Hybrid Architecture using High Bandwidth Memory and High Bandwidth Flash for Cost-Efficient LLM Inference）進(jìn)行深入分析后發(fā)現(xiàn)，HBF在實(shí)際應(yīng)用中面臨的障礙遠(yuǎn)比最初預(yù)想的要大得多。本文從半導(dǎo)體工程師的角度出發(fā)，探討了H3架構(gòu)的假設(shè)和局限性，回顧了HBF在商業(yè)化過(guò)程中將面臨的技術(shù)和經(jīng)濟(jì)挑戰(zhàn)，并考察了業(yè)界目前正在開發(fā)的替代技術(shù)方案。

H3 中只讀工作負(fù)載的假設(shè)在實(shí)際的 LLM 推理場(chǎng)景中非常有限。克服 NAND 閃存的根本物理限制（延遲相差 1-2 個(gè)數(shù)量級(jí)）需要 40MB 的 SRAM 緩沖區(qū)、DRAM 和復(fù)雜的控制器，這削弱了最初“廉價(jià) NAND”的承諾。生產(chǎn)良率、散熱管理和可靠性驗(yàn)證等實(shí)際障礙比預(yù)期更高。CXL 內(nèi)存、HBM4 和軟件優(yōu)化等替代方案正在更快地走向成熟。

為了方便大家了解HBF，在文章最后我們還將附上SK海力士這篇文章的翻譯參考。

HBF 的背景

人工智能引發(fā)的內(nèi)存容量危機(jī)

AI工作負(fù)載的瓶頸不再是計(jì)算性能。為了跟上NVIDIA H100 989 TFLOPS的計(jì)算能力，內(nèi)存必須以同樣快的速度提供數(shù)據(jù)。HBM3以819GB/s的帶寬和100ns的訪問(wèn)延遲滿足了這一要求，但它存在一個(gè)關(guān)鍵弱點(diǎn)：容量。每個(gè)GPU（B200）的最大容量?jī)H為192GB，對(duì)于在單個(gè)GPU上運(yùn)行像Llama 3.1 405B（FP8模式下約為405GB）這樣的大型模型來(lái)說(shuō)，HBM的容量遠(yuǎn)遠(yuǎn)不夠。

更大的問(wèn)題在于鍵值緩存（KV cache）。對(duì)于擁有 100 萬(wàn)個(gè)token上下文（context）的 Llama 3.1 405B 版本，僅預(yù)計(jì)算的鍵值緩存就需要約 540GB。如果擴(kuò)展到 1000 萬(wàn)個(gè)令牌，則需要 5.4TB。僅使用 HBM 來(lái)處理如此龐大的緩存需要數(shù)十個(gè) GPU，這將導(dǎo)致成本和功耗成比例地增加。

這就是 SanDisk 和 SK 海力士所稱的“內(nèi)存墻”及其提出的 HBF 方案的背景。

HBF的優(yōu)勢(shì)顯而易見(jiàn)：將NAND閃存與類似HBM的TSV（硅通孔）技術(shù)堆疊，即可在相同帶寬（8TB/s）下提供HBM 16倍的容量（約3TB）。由于NAND的成本約為HBM的五分之一，因此經(jīng)濟(jì)效益也相當(dāng)可觀。表面上看，這似乎是一個(gè)完美的解決方案。但我們需要更深入地分析。

H3論文的方法

混合架構(gòu)和核心假設(shè)

H3 架構(gòu)概述

SK海力士的研究人員提出的H3（采用HBM和HBF的混合架構(gòu)）承認(rèn)HBF單獨(dú)使用時(shí)的局限性，并采用了一種結(jié)合HBM和HBF的混合方法。其核心設(shè)計(jì)工作原理如下：

HBM 直接連接到 GPU 的底層，以實(shí)現(xiàn)最大帶寬。HBF 通過(guò) HBM 基片以菊花鏈方式連接。HBM 基片內(nèi)部的地址解碼器和路由器將 HBM 和 HBF 的訪問(wèn)隔離。一個(gè) 40MB 的基于 SRAM 的延遲隱藏緩沖區(qū) (LHB) 可以緩解 NAND 閃存的訪問(wèn)延遲。

在這種架構(gòu)中，GPU 通過(guò)統(tǒng)一的地址空間將 HBM 和 HBF 都視為主內(nèi)存。只讀數(shù)據(jù)（模型權(quán)重、預(yù)計(jì)算的鍵值緩存）存儲(chǔ)在 HBF 中，而動(dòng)態(tài)生成的鍵值緩存則保存在 HBM 中。

核心假設(shè)

一、H3 的性能聲明基于幾個(gè)重要的假設(shè)：

工作負(fù)載假設(shè)：大多數(shù)LLM推理數(shù)據(jù)是只讀的。模型權(quán)重和共享的預(yù)計(jì)算KV緩存在整個(gè)推理期間不會(huì)改變。

訪問(wèn)模式假設(shè)：LLM推理是確定性的、順序的。因此，所需數(shù)據(jù)可以被準(zhǔn)確預(yù)測(cè)并提前預(yù)取。

性能假設(shè)：40MB SRAM 緩沖區(qū)達(dá)到足夠高的命中率（論文中沒(méi)有明確說(shuō)明，但隱含地要求 80% 以上），使得 HBF 的 20μs 延遲大部分時(shí)間都不會(huì)被察覺(jué)。

延遲隱藏假設(shè)：由于 LLM 推理受限于內(nèi)存帶寬，因此 HBF 訪問(wèn)的跳延遲可以充分隱藏。

成本假設(shè)：由于 NAND 芯片價(jià)格低廉，即使加上額外的組件（SRAM、DRAM、控制器、TSV），整個(gè)系統(tǒng)與僅使用 HBM 的系統(tǒng)相比仍然經(jīng)濟(jì)。

該論文的仿真結(jié)果令人印象深刻。在 100 萬(wàn)個(gè)token的情況下，吞吐量提升了 1.25 倍；在 1000 萬(wàn)個(gè)令牌的情況下，吞吐量提升了 6.14 倍。每功耗吞吐量最高可達(dá) 2.69 倍。即使將 HBF 帶寬減半，其性能仍然優(yōu)于僅使用 HBM 的架構(gòu)。

但只有在滿足上述所有假設(shè)的前提下，才能取得這些結(jié)果。而問(wèn)題就出在這里。

假設(shè)的局限性和技術(shù)可行性問(wèn)題

只讀工作負(fù)載假設(shè)的局限性

該論文將模型權(quán)重和共享的預(yù)計(jì)算 KV cache歸類為“只讀”（read-only），但這種假設(shè)在實(shí)際生產(chǎn) LLM 服務(wù)中有多有效？

一、模型權(quán)重的現(xiàn)實(shí)意義：

微調(diào)和 PEFT：在生產(chǎn)環(huán)境中，像 LoRA 和 QLoRA 這樣的參數(shù)高效微調(diào)方法很常見(jiàn)。適配器權(quán)重雖然很小，但更新頻繁。

模型版本控制：A/B 測(cè)試或逐步推廣方案涉及同時(shí)提供多個(gè)模型版本。HBF 如何處理模型切換？

量化變化：在 INT8、FP8 和 FP16 之間動(dòng)態(tài)切換是一種常見(jiàn)的生產(chǎn)優(yōu)化技術(shù)。

二、KV Cache的現(xiàn)實(shí)情況：

預(yù)計(jì)算緩存的范圍：本文提出的緩存增強(qiáng)生成（CAG）是一個(gè)有效的用例，但它僅涵蓋了整個(gè)LLM推理的一小部分。像ChatGPT和Claude這樣的通用對(duì)話服務(wù)會(huì)為每個(gè)請(qǐng)求生成新的KV Cache。

緩存失效：當(dāng)共享文檔更新時(shí)，如何刷新預(yù)先計(jì)算的緩存？鑒于 HBF 的寫入耐久性較低，這是一個(gè)關(guān)鍵問(wèn)題。

緩存淘汰：管理數(shù)百 GB 的共享緩存池需要 LRU 等替換策略，這涉及到寫入操作。

二、NAND的物理極限：一道無(wú)法逾越的障礙

即使只讀假設(shè)成立，仍然存在一個(gè)更根本的問(wèn)題。NAND 單元和 DRAM 單元之間的延遲差異并非架構(gòu)技巧可以解決的問(wèn)題。這源于物理定律的差異：

DRAM單元：讀取和寫入電容器中的電荷。僅需電開關(guān)操作。10-20納秒。

NAND單元：通過(guò)隧穿效應(yīng)將電子移動(dòng)到浮柵。需要高電壓和較長(zhǎng)時(shí)間，耗時(shí)25-100微秒。

這可是1到2個(gè)數(shù)量級(jí)的差距。這也是英特爾傲騰（3D XPoint）無(wú)法取代DRAM的根本原因。即使傲騰的延遲只有約100納秒，也無(wú)法與DRAM的10-20納秒相媲美。而HBF的延遲只有20微秒？這可是1000倍的差距。

40MB 的 SRAM 緩沖區(qū)可以“緩解”這種差異，但并不能“解決”它。一旦發(fā)生 SRAM 未命中，這種差異就會(huì)完全暴露出來(lái)。

換句話說(shuō)，“純只讀”工作負(fù)載在實(shí)踐中非常有限，即使保證只讀，也無(wú)法克服NAND閃存的物理延遲限制。本文的仿真代表的是一種理想化的場(chǎng)景。

成本結(jié)構(gòu)真相

“廉價(jià)NAND”陷阱

HBF的支持者強(qiáng)調(diào)“NAND晶圓的成本遠(yuǎn)低于HBM晶圓”。沒(méi)錯(cuò)。單就NAND芯片本身而言，它肯定比HBM芯片便宜。但總成本呢？

對(duì)于HBM而言，主要成本在于內(nèi)存芯片、TSV堆疊和封裝。控制器集成在GPU內(nèi)部，無(wú)需單獨(dú)的緩沖區(qū)或中間層。其結(jié)構(gòu)相對(duì)簡(jiǎn)單。

HBF技術(shù)以廉價(jià)的NAND閃存芯片為基礎(chǔ)，但這并非終點(diǎn)。為了彌補(bǔ)NAND閃存的低延遲，它需要40MB的SRAM緩存。這并非小型緩存，而是容量巨大的高速內(nèi)存。SRAM的單位面積成本遠(yuǎn)高于NAND閃存。

此外，還需要單獨(dú)的DRAM來(lái)運(yùn)行FTL（閃存轉(zhuǎn)換層）。就像SSD控制器存儲(chǔ)元數(shù)據(jù)一樣，HBF需要工作內(nèi)存來(lái)進(jìn)行地址映射和損耗均衡。這部分DRAM會(huì)增加成本。

TSV堆疊和鍵合本身就是一個(gè)成本高昂的工藝。TSV需要在硅片上垂直鉆出微小的孔，然后用金屬填充。這需要昂貴的設(shè)備和精確的工藝控制，任何一個(gè)錯(cuò)誤都可能導(dǎo)致整個(gè)芯片缺陷。HBM采用相同存儲(chǔ)芯片的同質(zhì)堆疊，因此工藝相對(duì)標(biāo)準(zhǔn)化。HBF采用異質(zhì)堆疊，混合使用NAND、SRAM和控制器邏輯芯片。

對(duì)具有不同特性的芯片進(jìn)行對(duì)準(zhǔn)和鍵合要困難得多。它們的膨脹系數(shù)、電性能和可靠性要求各不相同。這顯著增加了工藝復(fù)雜性，直接導(dǎo)致良率降低和成本上升。諸如鉆孔硅通孔 (TSV) 時(shí)芯片開裂、鍵合過(guò)程中錯(cuò)位或熱應(yīng)力導(dǎo)致的分層等問(wèn)題發(fā)生的可能性也隨之增加。

封裝和測(cè)試也變得更加復(fù)雜。對(duì)于HBM來(lái)說(shuō)，內(nèi)存訪問(wèn)測(cè)試是主要的驗(yàn)證項(xiàng)目。對(duì)于HBF來(lái)說(shuō)，則需要驗(yàn)證SRAM緩沖區(qū)命中率、FTL精度、損耗均衡算法、ECC（糾錯(cuò)碼）運(yùn)行情況、垃圾回收效率等等。這本質(zhì)上是SSD控制器級(jí)別的復(fù)雜性。

管理所有這些功能的控制器邏輯本身的成本也不容忽視。HBM 只是一個(gè)簡(jiǎn)單的內(nèi)存接口，但 HBF 需要一個(gè)復(fù)雜的控制器來(lái)執(zhí)行復(fù)雜的地址轉(zhuǎn)換、預(yù)取、緩存管理、損耗均衡和垃圾回收等操作。

更重要的是， HBF 架構(gòu)存在開發(fā)成本和風(fēng)險(xiǎn)。它是一種全新的架構(gòu)，需要大量的研發(fā)投入和時(shí)間，包括標(biāo)準(zhǔn)化工作、軟件生態(tài)系統(tǒng)構(gòu)建和客戶驗(yàn)證。HBM 架構(gòu)已經(jīng)完成了所有這些步驟，產(chǎn)量穩(wěn)定，生態(tài)系統(tǒng)也已成熟。而 HBF 架構(gòu)則必須從零開始。

早期生產(chǎn)的低良率也至關(guān)重要。HBM 最初良率低，單位成本高，但經(jīng)過(guò)幾代改進(jìn)后逐漸提高。HBF 采用比 HBM 更復(fù)雜的異構(gòu)堆疊結(jié)構(gòu)，因此初始良率可能更低。如果良率減半，成本實(shí)際上會(huì)翻倍。

軟件集成成本也不容忽視。PyTorch、TensorFlow、CUDA 以及所有 AI 框架的設(shè)計(jì)都基于 HBM 和 DRAM。要高效利用 HBF 的 SRAM 緩沖區(qū)，需要在軟件層面優(yōu)化內(nèi)存分配策略、數(shù)據(jù)放置、預(yù)取提示等。這需要大量的工程資源。

因此，“NAND閃存價(jià)格低廉”的說(shuō)法固然沒(méi)錯(cuò)，但“HBF系統(tǒng)價(jià)格低廉”的說(shuō)法仍需驗(yàn)證。從廉價(jià)的材料開始，所有使其成為實(shí)用產(chǎn)品的因素都會(huì)推高總成本。HBF要證明其經(jīng)濟(jì)優(yōu)勢(shì)，不僅需要證明其每GB的價(jià)格優(yōu)勢(shì)，還需要證明其在實(shí)際工作負(fù)載下的總擁有成本（TCO）。

替代技術(shù)解決方案和市場(chǎng)動(dòng)態(tài)

HBF計(jì)劃在2026-2027年進(jìn)行樣品測(cè)試，而其他技術(shù)已經(jīng)在快速成熟。業(yè)界正以不同的方式解決內(nèi)存容量擴(kuò)展的同一問(wèn)題。

HBM4：常規(guī)進(jìn)化的力量

SK海力士、三星和美光正集中精力研發(fā)HBM4。預(yù)計(jì)量產(chǎn)時(shí)間：2026年。

帶寬：每立方體 1.5TB/s（比 HBM3e 提升 50%）

容量：每塊 32-48GB（采用改進(jìn)的堆疊技術(shù)）

可靠性：保持已驗(yàn)證的 HBM 可靠性

生態(tài)系統(tǒng)：與現(xiàn)有軟件棧完美兼容

如果單GPU容量達(dá)到384GB（8個(gè)48GB顯存單元）成為可能，HBF的“容量?jī)?yōu)勢(shì)”就會(huì)縮小。此外，HBM4在延遲、可靠性和生態(tài)系統(tǒng)方面都已得到驗(yàn)證。

HBM-PIM（內(nèi)存內(nèi)處理）：三星的 HBM-PIM 技術(shù)在內(nèi)存內(nèi)部執(zhí)行簡(jiǎn)單的操作（向量加法、激活），從而減少數(shù)據(jù)傳輸，提高有效帶寬。它比 HBF 技術(shù)更具創(chuàng)新性，同時(shí)又依托于現(xiàn)有的 HBM 生態(tài)系統(tǒng)。

CXL 內(nèi)存：可擴(kuò)展性的新范式

Compute Express Link (CXL) 是一種通過(guò) PCIe 連接 CPU/GPU 和內(nèi)存的標(biāo)準(zhǔn)。CXL 2.0/3.0 支持內(nèi)存池化：

容量擴(kuò)展：多臺(tái)服務(wù)器訪問(wèn)共享內(nèi)存池。可實(shí)現(xiàn)TB級(jí)擴(kuò)展。

靈活性：只分配所需資源。提高資源利用率。

帶寬：CXL 3.0 基于 PCIe 6.0，傳輸速度為 256GB/s（x16 通道）。雖然低于 HBF，但其容量擴(kuò)展性遠(yuǎn)勝于 HBF。

生態(tài)系統(tǒng)：英特爾、AMD、英偉達(dá)均支持。行業(yè)標(biāo)準(zhǔn)。

三星、SK海力士和美光已經(jīng)開始量產(chǎn)CXL內(nèi)存模塊。這滿足了HBF所針對(duì)的“大容量?jī)?nèi)存擴(kuò)展”需求，但方式有所不同。

軟件優(yōu)化：減少問(wèn)題本身

除了通過(guò)硬件增加內(nèi)存外，通過(guò)軟件減少內(nèi)存使用量的方法也在快速發(fā)展：

FlashAttention-3：優(yōu)化鍵值緩存訪問(wèn)模式，降低內(nèi)存帶寬需求。FlashDecoding++ 將長(zhǎng)上下文推理的延遲降低至原來(lái)的三分之一。

分組查詢注意力（GQA）：被 Llama 3 等最新型號(hào)采用。在保持性能的同時(shí)，將 KV 緩存大小減少 4-8 倍。

量化：FP8 和 INT4 量化可將內(nèi)存占用減少一半甚至更少。NVIDIA H100/B200 原生支持 FP8。

vLLM、TensorRT-LLM：優(yōu)化內(nèi)存管理的推理引擎。分頁(yè)注意力機(jī)制減少內(nèi)存浪費(fèi)，連續(xù)批處理提高內(nèi)存利用率。

這些軟件優(yōu)化無(wú)需硬件投資即可降低內(nèi)存壓力。等到 HBF 投入生產(chǎn)時(shí)，我們可能根本就不需要那么多內(nèi)存了。

市場(chǎng)中的不同戰(zhàn)略選擇

SanDisk 和 SK 海力士在 HBF 技術(shù)研發(fā)方面處于領(lǐng)先地位。有趣的是，其他主要內(nèi)存廠商選擇了不同的技術(shù)路線：

三星：專注于HBM4和HBM-PIM的研發(fā)。尚未發(fā)布HBF官方公告。

美光：開始供應(yīng)HBM3e內(nèi)存。擴(kuò)大CXL內(nèi)存產(chǎn)品線。未提及HBF內(nèi)存。

NVIDIA：B200、GB200路線圖采用基于HBM3e和NVLink的內(nèi)存擴(kuò)展策略。

AMD、英特爾：專注于構(gòu)建CXL生態(tài)系統(tǒng)。

這表明業(yè)界正試圖通過(guò)不同的技術(shù)途徑解決同一個(gè)“大容量?jī)?nèi)存擴(kuò)展”問(wèn)題。HBF 是一種基于 NAND 的創(chuàng)新方案，HBM4 是對(duì)成熟技術(shù)的逐步改進(jìn)，而 CXL 則專注于系統(tǒng)級(jí)可擴(kuò)展性。每家公司似乎都根據(jù)自身的技術(shù)能力和市場(chǎng)定位選擇了最佳策略。

最終哪種方法能在市場(chǎng)上勝出，將取決于實(shí)際的生產(chǎn)績(jī)效、經(jīng)濟(jì)效益和客戶接受度。

HBF 為何依然重要

存儲(chǔ)器公司的平臺(tái)戰(zhàn)略

盡管HBF面臨諸多挑戰(zhàn)，但這項(xiàng)技術(shù)之所以備受關(guān)注，背后是存儲(chǔ)器行業(yè)根本性的商業(yè)戰(zhàn)略轉(zhuǎn)變。傳統(tǒng)上，存儲(chǔ)器公司是商品供應(yīng)商。無(wú)論是DRAM還是NAND，它們都按照標(biāo)準(zhǔn)化規(guī)格生產(chǎn)，并通過(guò)價(jià)格競(jìng)爭(zhēng)來(lái)獲取市場(chǎng)份額。這種模式的問(wèn)題在于難以實(shí)現(xiàn)差異化和利潤(rùn)率低。

HBM的出現(xiàn)開始改變這種格局。HBM不僅僅是一種內(nèi)存芯片，而是一個(gè)需要與GPU緊密集成的系統(tǒng)組件。它需要復(fù)雜的工程設(shè)計(jì)，包括TSV堆疊、散熱管理、電源管理以及與GPU的接口優(yōu)化。這為內(nèi)存公司提供了提供更高價(jià)值產(chǎn)品和獲得更高利潤(rùn)的機(jī)會(huì)。

HBF是這一趨勢(shì)的延伸。它不僅提供內(nèi)存，還提出了一種重新設(shè)計(jì)整個(gè)內(nèi)存層次結(jié)構(gòu)的解決方案。HBF系統(tǒng)是一個(gè)復(fù)雜的平臺(tái)，集成了NAND閃存、SRAM緩沖器、DRAM、控制器和接口邏輯。這使得內(nèi)存公司能夠：

在系統(tǒng)架構(gòu)層面與客戶協(xié)作

將影響力擴(kuò)展到軟件棧（預(yù)取提示、數(shù)據(jù)放置優(yōu)化等）

除了簡(jiǎn)單的價(jià)格競(jìng)爭(zhēng)之外，還要?jiǎng)?chuàng)造技術(shù)差異化。

積累知識(shí)產(chǎn)權(quán)和技術(shù)訣竅以提高準(zhǔn)入門檻

三星的HBM-PIM也遵循同樣的理念。通過(guò)在內(nèi)存內(nèi)部添加計(jì)算功能，內(nèi)存公司從單純的存儲(chǔ)設(shè)備供應(yīng)商轉(zhuǎn)型為計(jì)算架構(gòu)的一部分。美光的CXL內(nèi)存與之類似，它是一種平臺(tái)解決方案，改變了服務(wù)器系統(tǒng)管理內(nèi)存的方式。

從這個(gè)角度來(lái)看，HBF 的技術(shù)挑戰(zhàn)并不一定意味著項(xiàng)目失敗。即使 HBF 最終未能取代 HBM 在通用 AI 加速器市場(chǎng)的地位，內(nèi)存公司也能從中獲益：

異構(gòu)存儲(chǔ)器堆疊技術(shù)

使用NAND作為存儲(chǔ)器的專業(yè)知識(shí)

與GPU/AI加速器供應(yīng)商的系統(tǒng)級(jí)協(xié)作經(jīng)驗(yàn)

可用于未來(lái)平臺(tái)產(chǎn)品開發(fā)的知識(shí)產(chǎn)權(quán)積累

SK海力士與閃迪合作開發(fā)HBF技術(shù)，正是在此背景下展開的。SK海力士在DRAM和HBM領(lǐng)域占據(jù)主導(dǎo)地位，而閃迪則在NAND領(lǐng)域遙遙領(lǐng)先。此次合作是一項(xiàng)戰(zhàn)略舉措，旨在探索存儲(chǔ)技術(shù)融合和平臺(tái)化，超越單一產(chǎn)品的成功模式。

歸根結(jié)底，HBF 不僅僅是“容量比 HBM 更大的內(nèi)存”，它更是內(nèi)存行業(yè)從商品化業(yè)務(wù)向平臺(tái)化業(yè)務(wù)轉(zhuǎn)型的一個(gè)例證。無(wú)論這款產(chǎn)品最終能否在市場(chǎng)上取得成功，這一轉(zhuǎn)型方向本身對(duì)于內(nèi)存行業(yè)的長(zhǎng)期生存戰(zhàn)略都至關(guān)重要。

科技的承諾與現(xiàn)實(shí)的壁壘

高帶寬閃存最初帶來(lái)了一個(gè)極具吸引力的承諾：擁有 HBM 級(jí)別的帶寬、16 倍的容量以及低廉的 NAND 成本。它看起來(lái)似乎能夠一舉解決人工智能的內(nèi)存瓶頸問(wèn)題。

但深入分析SK海力士研究人員撰寫的H3論文，就會(huì)發(fā)現(xiàn)要兌現(xiàn)這一承諾需要付出怎樣的代價(jià)：

物理限制：NAND 單元 1-2 個(gè)數(shù)量級(jí)的延遲差異無(wú)法通過(guò)架構(gòu)設(shè)計(jì)來(lái)克服。40MB 的 SRAM 緩沖區(qū)只是權(quán)宜之計(jì)，并非根本解決方案。

復(fù)雜性爆炸：在“廉價(jià)的 NAND”上添加 40MB SRAM、數(shù)十 GB DRAM、復(fù)雜的 FTL 控制器和困難的 TSV 堆疊，使得整個(gè)系統(tǒng)一點(diǎn)也不廉價(jià)。

脆弱的假設(shè)：H3 假設(shè)的純只讀工作負(fù)載和確定性訪問(wèn)模式在實(shí)際生產(chǎn)中極其有限。

可靠性問(wèn)題：NAND 閃存在 GPU 熱環(huán)境下的老化、讀取干擾和耐久性問(wèn)題能否滿足生產(chǎn)要求，目前尚不清楚。

市場(chǎng)冷漠：由于主要參與者保持沉默，而替代技術(shù)正在迅速成熟，HBF 的市場(chǎng)定位看起來(lái)不明朗。

這是否意味著HBF會(huì)失??？

不。SanDisk和 SK 海力士的技術(shù)能力毋庸置疑。他們會(huì)在 2026-2027 年的樣品階段證明這項(xiàng)技術(shù)有效。但“有效”和“成功”是兩個(gè)不同的問(wèn)題。

HBF的未來(lái)很可能是：

針對(duì)高度專業(yè)化的CAG工作負(fù)載，提供有效的利基解決方案

在一些對(duì)功率和容量平衡要求極高的特殊市場(chǎng)，例如邊緣人工智能設(shè)備。

這是旨在彌補(bǔ)“HBM 和 SSD 之間的差距”的補(bǔ)充方案，而不是 HBM 的替代品。

技術(shù)始于美好的愿景，但必須克服現(xiàn)實(shí)的重重阻礙才能走向市場(chǎng)。HBF 目前就正面臨著這道障礙。

H3：面向低成本大語(yǔ)言模型推理的 HBM+HBF 混合架構(gòu)

摘要

大語(yǔ)言模型（LLM）推理需要海量?jī)?nèi)存來(lái)處理長(zhǎng)序列，而高帶寬內(nèi)存（HBM）的容量限制成為一大挑戰(zhàn)。高帶寬閃存（HBF）是一種基于 NAND 閃存的新型存儲(chǔ)器件，其帶寬可與 HBM 媲美，且容量大幅提升，但同時(shí)存在訪問(wèn)延遲更高、寫入耐久性更差、功耗更大等缺點(diǎn)。本文提出一種混合架構(gòu) H3，旨在充分發(fā)揮 HBM 與 HBF 各自的優(yōu)勢(shì)，實(shí)現(xiàn)高效協(xié)同利用。

該架構(gòu)將只讀數(shù)據(jù)存儲(chǔ)在 HBF 中，其余數(shù)據(jù)存放在 HBM 中。在相同 GPU 數(shù)量下，搭載 H3 的系統(tǒng)可同時(shí)處理更多請(qǐng)求，使其非常適用于大語(yǔ)言模型推理中的海量只讀場(chǎng)景，尤其是采用共享預(yù)計(jì)算鍵值緩存的場(chǎng)景。仿真結(jié)果表明，搭載 H3 的 GPU 系統(tǒng)，其單位功耗吞吐量最高可達(dá)純 HBM 系統(tǒng)的 2.69 倍。該結(jié)果驗(yàn)證了 H3 在處理含海量只讀數(shù)據(jù)的 LLM 推理時(shí)所具備的成本效益。

引言

大語(yǔ)言模型（LLM）持續(xù)發(fā)展，已從簡(jiǎn)單的聊天機(jī)器人逐步演進(jìn)為科研助手、智能體 AI 與多模態(tài) AI 。在這一發(fā)展過(guò)程中，大語(yǔ)言模型推理所需的序列長(zhǎng)度急劇增長(zhǎng)，例如最新的 Llama 4 已支持最長(zhǎng)達(dá) 10M 量級(jí)的序列長(zhǎng)度。目前已有大量研究致力于高效處理這類超長(zhǎng)序列，以及面向多請(qǐng)求共享的長(zhǎng)序列數(shù)據(jù)設(shè)計(jì)預(yù)計(jì)算鍵值緩存（KV cache）。當(dāng)請(qǐng)求到達(dá)時(shí)，這些預(yù)計(jì)算的 KV cache僅被讀取而不執(zhí)行寫入操作。在 LLM 推理中以這種方式處理極長(zhǎng)序列需要極大的內(nèi)存容量，并會(huì)產(chǎn)生大規(guī)模的 KV cache讀取。以 Llama 3.1 405B 推理為例，1M 和 10M 長(zhǎng)度的共享預(yù)計(jì)算 KV cache所需容量分別約為 540GB 和 5.4TB，僅存儲(chǔ)這些數(shù)據(jù)就需要數(shù)十塊 GPU。

從硬件角度看，高帶寬內(nèi)存（HBM）的容量難以滿足 LLM 推理中不斷增長(zhǎng)的數(shù)據(jù)量。為彌補(bǔ) HBM 的容量短板，研究人員提出了高帶寬閃存（HBF）：它通過(guò)垂直堆疊 NAND 閃存來(lái)模擬 HBM 的結(jié)構(gòu)。HBF 可提供與 HBM 相近的帶寬，且容量遠(yuǎn)大于 HBM，但同時(shí)也存在訪問(wèn)延遲更高、寫入耐久性更差、單位比特功耗更高等缺點(diǎn)。因此，需要能夠揚(yáng)長(zhǎng)避短、充分發(fā)揮 HBF 優(yōu)勢(shì)的子系統(tǒng)架構(gòu)與應(yīng)用場(chǎng)景。

本文結(jié)合 HBF 的優(yōu)缺點(diǎn)，提出一種可高效利用 HBF 的混合架構(gòu)。

本文主要貢獻(xiàn)如下：

提出H3混合架構(gòu)，可高效協(xié)同利用 HBM 與 HBF；

探索與 H3 高度適配的應(yīng)用場(chǎng)景；

通過(guò)基于仿真的性能評(píng)估，驗(yàn)證 H3 的成本效益。

研究動(dòng)機(jī)

A. 海量只讀應(yīng)用場(chǎng)景

在大語(yǔ)言模型（LLM）推理過(guò)程中，許多數(shù)據(jù)類型呈現(xiàn)只讀特性。例如，LLM 模型權(quán)重參數(shù)會(huì)被反復(fù)讀取。以 Llama 3.1 405B 為例，采用 FP8 精度時(shí)，模型權(quán)重約需 405 GB 存儲(chǔ)空間，這意味著每處理一個(gè)批次就會(huì)產(chǎn)生 405 GB 的讀取量。

特別地，在近期受到廣泛關(guān)注的緩存增強(qiáng)生成（CAG：cache-augmented generation）中，當(dāng) LLM 接收到查詢時(shí)，會(huì)先讀取大規(guī)模的共享預(yù)計(jì)算鍵值（KV）緩存，再進(jìn)行計(jì)算并輸出結(jié)果（圖 1）。換言之，共享預(yù)計(jì)算 KV cache本質(zhì)上是只讀數(shù)據(jù)。在 CAG 中，注意力計(jì)算采用共享 KV 注意力機(jī)制，能夠攤薄內(nèi)存訪問(wèn)開銷，因此即使使用較大批次，也不會(huì)帶來(lái)明顯的時(shí)延上升。通過(guò)增大批次大小，可以顯著提升系統(tǒng)吞吐量。

然而，受限于 GPU 上高帶寬內(nèi)存（HBM）的容量不足，在大批次下運(yùn)行 CAG 面臨巨大挑戰(zhàn)。若將海量的共享預(yù)計(jì)算 KV cache全部存放在 HBM 中，需要更多 GPU，從而大幅提升成本與整機(jī)功耗。

圖 1 緩存增強(qiáng)生成（CAG）的概念，是海量只讀應(yīng)用場(chǎng)景的典型示例。

B. 高帶寬閃存

如圖 2 所示，高帶寬閃存（HBF）通過(guò)垂直堆疊 NAND 閃存裸片，并利用硅通孔（TSV）連接基底裸片與閃存裸片，從而實(shí)現(xiàn)高帶寬。目前，多家存儲(chǔ)與閃存廠商正在研發(fā) HBF，目標(biāo)是達(dá)到與 HBM 相近的帶寬，同時(shí)提供遠(yuǎn)大于 HBM 的容量。由于 HBF 尚未商用，本文基于其目標(biāo)設(shè)計(jì)指標(biāo)展開研究。

圖 2 高帶寬閃存（HBF）的概念。

HBF 的預(yù)期優(yōu)勢(shì)：容量可達(dá) HBM 的 16 倍；帶寬與 HBM 相當(dāng)。

HBF 的預(yù)期不足：訪問(wèn)時(shí)延更高（納秒級(jí) vs 微秒級(jí)）；寫入耐久性更差；功耗最高可達(dá) HBM 的 4 倍。

由于 HBF 優(yōu)缺點(diǎn)鮮明，僅適合在特定場(chǎng)景下使用，而本節(jié)所述的海量只讀場(chǎng)景正是其理想應(yīng)用方向。HBF 的大容量可以存放超大 KV cache與模型權(quán)重；同時(shí)，由于數(shù)據(jù)為只讀訪問(wèn)，HBF 寫入耐久性差的缺點(diǎn)不再成為短板。本文后續(xù)將提出方案，用以克服 HBF 訪問(wèn)時(shí)延較高的問(wèn)題。

所提出的架構(gòu)及其使用方式

A. H3：使用 HBM 和 HBF 的混合架構(gòu)

如 II-B 中所述，由于 HBF 是一種同時(shí)具有優(yōu)點(diǎn)和缺點(diǎn)的器件，單獨(dú)使用存在局限性。因此，我們提出 H3，一種同時(shí)利用 HBM 和 HBF 的混合架構(gòu)，旨在凸顯 HBF 的優(yōu)勢(shì)并彌補(bǔ)其不足。混合架構(gòu)可以有多種實(shí)現(xiàn)方式。例如，一種方法是將 HBM 和 HBF 直接放置在 GPU 的管腳區(qū)域旁邊。然而，這種方法的缺點(diǎn)在于，由于 GPU 上的管腳區(qū)域空間有限，會(huì)減少 HBM 的數(shù)量。

為了最大化 HBM 和 HBF 的帶寬，如圖 3 (a) 所示，H3 中的 HBM 連接到 GPU 的管腳區(qū)域，并且 HBM 和 HBF 采用菊花鏈連接。在 HBM 基底裸片內(nèi)部，存儲(chǔ)器訪問(wèn)通過(guò)地址譯碼器與路由器被分為兩條路徑：一條訪問(wèn) HBM，另一條訪問(wèn) HBF。因此，GPU 可以通過(guò) HBM 基底裸片直接訪問(wèn) HBF（圖 3 (b)）。

換句話說(shuō)，HBM 和 HBF 共同作為 GPU 的主存。由于 HBM 和 HBF 均被用作主存，主機(jī)在訪問(wèn) HBM 或 HBF 時(shí)使用劃分了內(nèi)存區(qū)域的統(tǒng)一地址空間（圖 3 (c)）。

圖 3 H3 架構(gòu)總覽

在圖 3 (b) 中，假設(shè) GPU、HBM 基底裸片和 HBF 基底裸片通過(guò)裸片間（D2D）接口連接，并且 GPU 與 HBM 基底裸片之間的帶寬等于每個(gè)基底裸片與核心裸片之間的帶寬。我們同樣假設(shè) HBM 和 HBF 控制器位于各自的基底裸片上。這一點(diǎn)可以根據(jù)芯片面積情況進(jìn)行調(diào)整。

B. 使用方式：面向海量只讀數(shù)據(jù)的大語(yǔ)言模型

H3 適用于具有 II 中所述的海量模型權(quán)重和共享預(yù)計(jì)算鍵值（KV）緩存的大語(yǔ)言模型推理。這些海量且只讀的數(shù)據(jù)非常適合使用容量大但寫入耐久性有限的 HBF。因此，模型權(quán)重和共享預(yù)計(jì)算 KV cache被存儲(chǔ)在 HBF 中。此外，生成的 KV cache和其他數(shù)據(jù)被存儲(chǔ)在 HBM 中。圖 4 說(shuō)明了其工作方式。在圖 4 中，訪問(wèn) HBF 時(shí)可能會(huì)增加跳轉(zhuǎn)時(shí)延，但由于大語(yǔ)言模型推理受內(nèi)存帶寬限制，跳轉(zhuǎn)時(shí)延可以被充分隱藏。

由于大語(yǔ)言模型推理的數(shù)據(jù)訪問(wèn)模式是確定性的，我們期望在深度學(xué)習(xí)框架的支持下，可以將數(shù)據(jù)合理分配到 HBM 和 HBF 中。處理某一特定運(yùn)算可能需要同時(shí)使用存儲(chǔ)在 HBM 和 HBF 中的數(shù)據(jù)。但是，由于運(yùn)算所需的張量可以被準(zhǔn)確預(yù)測(cè)，因此可以實(shí)現(xiàn)張量級(jí)調(diào)度，從而使得 HBM 和 HBF 之間的爭(zhēng)用可控。

圖 4 在包含海量共享預(yù)計(jì)算鍵值緩存的大語(yǔ)言模型推理中，HBM 與 HBF 的訪問(wèn)方式說(shuō)明

將 H3 應(yīng)用于海量只讀場(chǎng)景的優(yōu)勢(shì)在于，它支持更大的容量，從而可以在相同數(shù)量的 GPU 下實(shí)現(xiàn)更大的批次處理。更大的批次處理能夠提升吞吐量，最終在運(yùn)行大語(yǔ)言模型推理系統(tǒng)時(shí)降低成本。將 HBF 用于只讀場(chǎng)景還具有減少垃圾回收和損耗均衡開銷的額外好處。

C. 優(yōu)化：時(shí)延隱藏緩沖區(qū)

由于 HBF 本質(zhì)上基于 NAND 閃存，其訪問(wèn)時(shí)延比 HBM 更長(zhǎng)。因此，隱藏其長(zhǎng)時(shí)延對(duì)于將其用作內(nèi)存至關(guān)重要。為了彌補(bǔ) NAND 閃存的長(zhǎng)時(shí)延，時(shí)延隱藏緩沖區(qū)（LHB）—— 一種預(yù)取緩沖區(qū) —— 被集成到 H3 的 HBM 或 HBF 的基底裸片中（在圖 3 (b) 中，LHB 位于 HBM 的基底裸片中）。對(duì)于大語(yǔ)言模型推理，只有前一層完成后才能處理下一層，并且一層中計(jì)算所需的模型權(quán)重和 KV cache是預(yù)先確定的。

換句話說(shuō)，大語(yǔ)言模型推理具有確定性和順序性的數(shù)據(jù)模式。因此，可以提前準(zhǔn)確預(yù)測(cè)計(jì)算所需的數(shù)據(jù)，并通過(guò)將計(jì)算所需的數(shù)據(jù)持續(xù)載入 LHB 來(lái)隱藏 NAND 閃存的時(shí)延。為了有效利用 LHB，需要修改深度學(xué)習(xí)框架以提供預(yù)取提示。由于預(yù)取提示是確定性的，并且預(yù)取數(shù)據(jù)單元為粗粒度的張量級(jí)，預(yù)取開銷預(yù)計(jì)很小。LHB 的預(yù)期大小和芯片面積開銷將在后面討論。

四、評(píng)估

A. 實(shí)驗(yàn)設(shè)置

1）方法：由于 HBF 是處于開發(fā)階段的器件，無(wú)法進(jìn)行實(shí)際測(cè)量。因此，本文基于已在先前研究中得到驗(yàn)證的解析建模，開發(fā)了一款內(nèi)部仿真器，用于評(píng)估搭載 H3 系統(tǒng)的性能。該內(nèi)部仿真器根據(jù)計(jì)算時(shí)間、數(shù)據(jù)傳輸時(shí)間以及 GPU 之間的通信時(shí)間，估算執(zhí)行時(shí)間、吞吐量、單位功耗吞吐量。計(jì)算時(shí)間基于 LLM 模型的運(yùn)算量與 GPU 性能進(jìn)行計(jì)算。

HBM 與 HBF 的數(shù)據(jù)傳輸時(shí)間基于 LLM 模型大小、KV cache大小以及器件帶寬進(jìn)行計(jì)算。在計(jì)算數(shù)據(jù)傳輸時(shí)間時(shí)，通過(guò)考慮張量并行（TP）與數(shù)據(jù)并行，對(duì)數(shù)據(jù)進(jìn)行劃分與復(fù)制以優(yōu)化性能。此外，GPU 之間的通信時(shí)間在假設(shè)采用張量并行時(shí)所使用的環(huán)形全規(guī)約（ring all-reduce）的前提下進(jìn)行計(jì)算。

2）工作負(fù)載：本文選用 Llama 3.1 405B 作為性能評(píng)估的工作負(fù)載。所選的 Llama 3.1 405B 具有足夠的代表性，因?yàn)槠湟?guī)模足以與最新的前沿大語(yǔ)言模型相當(dāng)，且預(yù)計(jì)算 KV cache與上下文窗口長(zhǎng)度相關(guān)，而與模型權(quán)重大小無(wú)關(guān)。原始的 Llama 3.1 405B 上下文窗口為 128K，為評(píng)估長(zhǎng)序列處理性能，本文假設(shè)其支持 1M 與 10M 長(zhǎng)度。本文假設(shè)輸入序列長(zhǎng)度（ISL）與輸出序列長(zhǎng)度（OSL）均為 1K，除 ISL 與 OSL 之外的剩余空間由共享預(yù)計(jì)算 KV cache占用。在當(dāng)前實(shí)驗(yàn)環(huán)境下，對(duì)于 1M 與 10M 場(chǎng)景，共享預(yù)計(jì)算 KV cache分別占用總?cè)萘康募s 35% 與 84%。

3）HBF 參數(shù)：本文假設(shè)所使用的 GPU 為當(dāng)前最新的 B200。B200 搭載 HBM3e，單 GPU 支持 192GB 容量與 8TB/s 帶寬（每個(gè) Cube 為 24GB、1TB/s）?；?II-B 中 HBF 的相對(duì)性能，本文假設(shè) HBF 容量為 3TB，約為 HBM3e 的 16 倍，帶寬為 8TB/s，與 HBM3e 相同。結(jié)合當(dāng)前 NAND 閃存的單 Cube 容量與單位比特功耗，本文假設(shè) HBM3e 與 HBF 的單 Cube 熱設(shè)計(jì)功耗（TDP）分別為 40W 與 160W。功耗估算基于當(dāng)前 NAND 閃存技術(shù)。但本文預(yù)計(jì)，在 HBF 開發(fā)過(guò)程中通過(guò)功耗優(yōu)化，其功耗將進(jìn)一步降低。

4）硬件配置：本文假設(shè)采用 DGX 風(fēng)格系統(tǒng)。序列長(zhǎng)度 1M 的實(shí)驗(yàn)使用 8 塊 GPU，序列長(zhǎng)度 10M 的實(shí)驗(yàn)使用 32 塊 GPU。這些 GPU 數(shù)量是純 HBM 場(chǎng)景下運(yùn)行對(duì)應(yīng)序列長(zhǎng)度所需的最小 GPU 數(shù)量。因此，在 10M 場(chǎng)景中，GPU 服務(wù)器之間的通信通過(guò)橫向擴(kuò)展互聯(lián)（如 InfiniBand）實(shí)現(xiàn)，而非縱向擴(kuò)展互聯(lián)（如 NVLink）。

B. 實(shí)驗(yàn)結(jié)果

1）批次大?。和ㄟ^(guò)將海量共享預(yù)計(jì)算 KV cache存儲(chǔ)在 HBF 中，HBM 可獲得更多空閑容量，使得搭載 H3 的 GPU 能夠處理更大的批次大小。圖 5 展示了在 1M 與 10M 場(chǎng)景下，可處理的批次大小隨 GPU 數(shù)量的變化情況。在圖 5 (a) 所示的 1M 場(chǎng)景中，使用 H3 可處理的批次大小最大為純 HBM 方案的 2.6 倍。類似地，在圖 5 (b) 所示的 10M 場(chǎng)景中，使用 H3 可使批次大小最大達(dá)到純 HBM 方案的 18.8 倍。提升吞吐量的因素有多種，但增大批次大小顯然是最重要的因素。

圖 5 基于 GPU 數(shù)量的最大批次大小（× 表示因內(nèi)存容量不足無(wú)法運(yùn)行）

一個(gè)值得關(guān)注的現(xiàn)象是，搭載 H3 的單 GPU 即可運(yùn)行 1M 場(chǎng)景，僅需兩塊 GPU 便可運(yùn)行 10M 場(chǎng)景。這一結(jié)果表明，盡管性能會(huì)有所下降，但可以以極低的成本處理長(zhǎng)序列。

2）吞吐量：處理更大的批次大小可帶來(lái)吞吐量的提升。圖 6 展示了每秒token數(shù)（TPS）/ 請(qǐng)求，這一吞吐量指標(biāo)主要由 LLM 推理系統(tǒng)的批次大小與執(zhí)行時(shí)間決定。在 1M 場(chǎng)景下 H3 的吞吐量為純 HBM 方案的 1.25 倍，在 10M 場(chǎng)景下為 6.14 倍。這意味著采用 H3 可在相同執(zhí)行時(shí)間內(nèi)生成更多token，直接降低 LLM 服務(wù)成本。此外，由該結(jié)果可預(yù)測(cè)，隨著序列長(zhǎng)度增加，吞吐量差距將進(jìn)一步擴(kuò)大。

圖 6 吞吐量與單位功耗吞吐量對(duì)比

3）單位功耗吞吐量：為證明盡管增加了功耗更高的 HBF，H3 仍具備更高的成本效益，本文還開展了單位功耗吞吐量評(píng)估。單位功耗吞吐量由仿真得到的吞吐量除以總熱設(shè)計(jì)功耗（包含 GPU 功耗，假設(shè)無(wú) HBM/HBF 時(shí)為 680W ）計(jì)算得到。如圖 6 (b) 所示，盡管搭載 H3 的 GPU 熱設(shè)計(jì)功耗更高，但其單位功耗吞吐量最高可達(dá)純 HBM 方案的 2.69 倍。這些結(jié)果表明，H3 可高效低成本地處理海量只讀型 LLM 推理任務(wù)。

4）HBF 帶寬降低：盡管本文假設(shè) HBF 帶寬與 HBM 相同，但在產(chǎn)品化過(guò)程中的實(shí)際問(wèn)題可能導(dǎo)致其支持更低的帶寬。因此，本文探究將 H3 中 HBF 帶寬減半對(duì)性能的影響。圖 6 表明，即使 HBF 帶寬減半，在 1M 場(chǎng)景下 H3 的吞吐量仍優(yōu)于純 HBM 方案。此外，在 10M 場(chǎng)景下，H3 的單位功耗吞吐量仍為純 HBM 方案的 2.09 倍。對(duì)于 H3 而言，由于并非所有數(shù)據(jù)都存儲(chǔ)在 HBF 中，整體性能不會(huì)隨 HBF 帶寬的降低而同比例下降。

C. 時(shí)延隱藏緩沖區(qū)的芯片面積開銷

為計(jì)算芯片面積開銷，首先需要確定 LHB 的容量需求。其由 HBF 的帶寬與訪問(wèn)時(shí)延計(jì)算得到。為不間斷地以滿帶寬向 GPU 提供數(shù)據(jù)，本文采用雙緩沖機(jī)制。

CapacityLHB = 2 × BWHBF × LatencyHBF . (1)

容量 LHB = 2 × BW HBF × 時(shí)延 HBF . (1)

式（1）中，容量 LHB、BW HBF、時(shí)延 HBF 分別表示 LHB 大小、HBF 單 Cube 帶寬與 HBF 訪問(wèn)時(shí)延。根據(jù) IV-A，BW HBF 為 1TB/s?；诠_的 SLC NAND 閃存讀取訪問(wèn)時(shí)延，本文假設(shè)時(shí)延 HBF 為 20μs。因此，LHB 的容量需求為 40MB。由于當(dāng)前商用 NAND 閃存產(chǎn)品中觀測(cè)到的 20μs 時(shí)延在 HBF 商用后預(yù)計(jì)會(huì)進(jìn)一步改善，LHB 的容量需求預(yù)計(jì)將低于 40MB。

基于容量需求可計(jì)算 LHB 的芯片面積?？紤]到未來(lái) HBF 商用時(shí)的基底裸片工藝，本文假設(shè)采用最新的 3nm SRAM。已知 3nm SRAM 的比特密度為 0.021μm2。因此，40MB SRAM 核的面積為 6.72mm2。假設(shè)額外電路帶來(lái) 20% 的開銷，總面積估算為 8.06mm2。這約為 121mm2 基底裸片面積的 6.7%，考慮到基底裸片的可用空間，該值處于可接受范圍。作為參考，121mm2 是當(dāng)前已商用 HBM 的基底裸片面積，預(yù)計(jì)未來(lái) HBM 與定制 HBM 的面積將進(jìn)一步增大。

結(jié)論與未來(lái)工作

本文提出了 H3 混合架構(gòu)，通過(guò)有效整合高帶寬內(nèi)存（HBM）與高帶寬閃存（HBF），解決了長(zhǎng)序列大語(yǔ)言模型推理中 HBM 容量受限的問(wèn)題。H3 利用大語(yǔ)言模型工作負(fù)載的確定性特征對(duì)數(shù)據(jù)進(jìn)行合理布局：將海量只讀的共享鍵值（KV）緩存與模型權(quán)重存儲(chǔ)在 HBF 中，將頻繁訪問(wèn)的動(dòng)態(tài)生成 KV cache存儲(chǔ)在低延遲的 HBM 中。為緩解 HBF 固有的高延遲問(wèn)題，本文引入了時(shí)延隱藏緩沖區(qū)。仿真結(jié)果表明，與純 HBM 架構(gòu)相比，所提架構(gòu)能夠支持顯著更大的批次大小，且單位功耗吞吐量最高提升 2.69 倍，證明其在構(gòu)建面向海量只讀數(shù)據(jù)的低成本高效益 LLM 推理基礎(chǔ)設(shè)施方面具有巨大潛力。

H3 是利用 HBF 的多種架構(gòu)之一。HBM 與 HBF 存在多種協(xié)同使用方式（例如 HBM 與 HBF 混合堆疊），在某些場(chǎng)景下甚至可以單獨(dú)使用 HBF。因此，未來(lái)工作將重點(diǎn)探索能夠充分發(fā)揮 HBF 優(yōu)勢(shì)的最優(yōu)架構(gòu)，以及適用于 HBF 的其他應(yīng)用場(chǎng)景。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4323期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.