国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RISC之父向AI芯片潑冷水:AI推理不需要更強(qiáng)GPU,需要另一種硬件

0
分享至

近日,2017 年圖靈獎(jiǎng)得主、被稱為“RISC 之父”的 David Patterson 最近與 Google DeepMind 高級(jí)工程師馬曉宇在 IEEE Computer 聯(lián)合發(fā)表了一篇論文——“關(guān)于大語言模型推理硬件的挑戰(zhàn)與研究方向”,引發(fā)了科技圈的關(guān)注與討論。


(來源:arXiv)

David Patterson,這位 RISC 架構(gòu)的奠基人、影響了全球 99% 微處理器設(shè)計(jì)的計(jì)算機(jī)科學(xué)家,在論文開篇就拋出了一個(gè)尖銳的判斷:當(dāng)前 AI 芯片的設(shè)計(jì)思路,即滿載的算力、堆疊的 HBM(High Bandwidth Memory,高帶寬內(nèi)存)、帶寬優(yōu)先的互聯(lián),與大語言模型推理的實(shí)際需求嚴(yán)重錯(cuò)配。


(來源:UC Berkeley)

在某種程度上,這可以說是對(duì)整個(gè) AI 芯片產(chǎn)業(yè)的當(dāng)頭棒喝。Patterson 在文中直言,LLM 推理正處于危機(jī)之中,不是技術(shù)上的危機(jī),而是經(jīng)濟(jì)上的。因?yàn),越來越多的公司們發(fā)現(xiàn),即便擁有最先進(jìn)的 GPU 集群,為最先進(jìn)的模型提供推理服務(wù)依然在大把燒錢。

根據(jù)多家媒體報(bào)道,微軟、亞馬遜、谷歌、Meta 四大科技巨頭在 2026 年 AI 相關(guān)資本總開支預(yù)計(jì)達(dá)到約 6,000 億美元。這一規(guī)模相比 2025 年約 3,880 億美元,增長約 50% 以上。

盡管具體數(shù)字可能存在分歧,但行業(yè)共識(shí)是:推理成本正在吞噬 AI 公司的利潤空間。一邊是飆升的成本,一邊是爆炸式增長的需求,這個(gè)行業(yè)正在經(jīng)歷一場嚴(yán)峻的經(jīng)濟(jì)考驗(yàn)。


(來源:四家公司財(cái)報(bào)數(shù)據(jù))

對(duì)于這個(gè)問題,Patterson 和馬曉宇在論文中指出,根源在于 LLM 推理的兩個(gè)階段有著截然不同的計(jì)算特性。

Prefill(預(yù)填充)階段處理輸入序列的所有 token,類似于訓(xùn)練過程,是計(jì)算密集型的,現(xiàn)有 GPU/TPU 可以較好地應(yīng)對(duì)。但 Decode(解碼)階段則完全不同。它是自回歸的,每一步只生成一個(gè)輸出 token,這使得它天然是內(nèi)存帶寬受限的。

現(xiàn)有的 AI 加速器,從設(shè)計(jì)之初就是為訓(xùn)練優(yōu)化的,推理只是被當(dāng)作訓(xùn)練系統(tǒng)的“縮小版”來對(duì)待。結(jié)果就是,最昂貴、最強(qiáng)大的芯片,在跑推理任務(wù)時(shí)可能只發(fā)揮了很小一部分能力。

而且讓情況雪上加霜的是,最近涌現(xiàn)的一系列 LLM 新趨勢(shì)正在進(jìn)一步加劇推理的難度。論文列舉了 6 大壓力源:

首先是 MoE(Mixture of Experts,混合專家)架構(gòu)的興起,以 DeepSeek V3 為例,它使用了 256 個(gè)路由專家,雖然每個(gè) token 只激活其中 8 個(gè),但整個(gè)模型的參數(shù)量達(dá)到了 6,710 億。MoE 雖然降低了訓(xùn)練成本,卻大幅擴(kuò)展了推理時(shí)的內(nèi)存占用和通信開銷。

其次是推理模型(Reasoning Models)的流行,它們?cè)谳敵鲎罱K答案前會(huì)生成大量思考 token,這不僅拉長了生成時(shí)間,還讓內(nèi)存中的 KV Cache(Key Value Cache,鍵值緩存)承受更大壓力。

此外還有多模態(tài)的擴(kuò)展:從純文本走向圖像、音頻、視頻生成,數(shù)據(jù)量急劇膨脹。長上下文(Long Context)需求的增長同樣帶來計(jì)算和內(nèi)存的雙重壓力;RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)通過引入外部知識(shí)庫增加了推理的資源消耗;最后是 Diffusion 模型,雖然它與上述趨勢(shì)不同,只增加計(jì)算需求而非內(nèi)存,但也代表了推理復(fù)雜度提升的又一個(gè)方向。

面對(duì)這些挑戰(zhàn),論文將問題歸結(jié)為兩堵“墻”:內(nèi)存墻與延遲墻。

內(nèi)存墻的本質(zhì)是硬件發(fā)展的不均衡。Patterson 引用了一組數(shù)據(jù):從 2012 年到 2022 年,NVIDIA GPU 的 64 位浮點(diǎn)運(yùn)算能力提升了 80 倍,但內(nèi)存帶寬只增長了 17 倍。這個(gè)差距還在持續(xù)擴(kuò)大。

更麻煩的是,HBM 的成本不降反升。論文援引花旗銀行的研究數(shù)據(jù)指出,從 2023 年到 2025 年,HBM 的單位容量成本(/GB)和單位帶寬成本(/GB)和單位帶寬成本(/GB)和單位帶寬成本(/GBps)都上漲了約 35%。這與傳統(tǒng) DDR DRAM 形成了鮮明對(duì)比,后者的成本在同期下降了近一半。




(來源:論文)

造成這種分化的原因在于制造工藝:HBM 需要堆疊多層 DRAM die,封裝難度隨著堆疊層數(shù)和密度的增加而上升,良率問題愈發(fā)嚴(yán)峻。


(來源:論文)

與此同時(shí),DRAM 密度增長正在減速。從 2014 年推出 8Gbit DRAM die 到實(shí)現(xiàn)四倍增長,將耗費(fèi)超過 10 年時(shí)間,而之前這一周期只需 3 到 6 年。

有些公司曾嘗試用純 SRAM 的方案繞開 DRAM 和 HBM 的限制,比如 Cerebras 用晶圓級(jí)集成堆滿 SRAM,Groq 也采用了類似策略。但 LLM 的參數(shù)規(guī)模很快就超出了片上 SRAM 的容量,兩家公司后來都不得不加入外部 DRAM 支持。

延遲墻的問題同樣棘手。與動(dòng)輒數(shù)周的訓(xùn)練不同,推理是實(shí)時(shí)的。用戶發(fā)出請(qǐng)求,期望在幾秒甚至更短時(shí)間內(nèi)得到響應(yīng)。這意味著端到端延遲至關(guān)重要。論文區(qū)分了兩種延遲指標(biāo):time-to-completion(完成時(shí)間)和 time-to-first-token(首 token 時(shí)間)。長輸出序列會(huì)拉長前者,長輸入序列和 RAG 會(huì)影響后者,而推理模型由于生成大量思考 token,會(huì)同時(shí)拖慢兩者。

過去,數(shù)據(jù)中心的推理通常在單芯片上完成,只有訓(xùn)練需要超級(jí)計(jì)算機(jī)級(jí)別的集群。因此,連接這些芯片的互聯(lián)網(wǎng)絡(luò)主要優(yōu)化帶寬而非延遲。但 LLM 改變了游戲規(guī)則:模型太大,推理也需要多芯片系統(tǒng);軟件層面的分片(sharding)意味著頻繁通信;而 Decode 階段的小 batch size 導(dǎo)致網(wǎng)絡(luò)消息往往很小。對(duì)于這種“頻繁、小消息、大網(wǎng)絡(luò)”的場景,延遲比帶寬更重要。

基于這些分析,Patterson 和馬曉宇提出了四個(gè)值得研究的方向,試圖重新思考 LLM 推理硬件的設(shè)計(jì)邏輯。

第一個(gè)方向是高帶寬閃存(HBF,High Bandwidth Flash)。這個(gè)概念最早由 SanDisk 提出,SK Hynix 后來也加入了開發(fā)。它的思路是像 HBM 那樣堆疊閃存 die,從而獲得接近 HBM 的帶寬和 10 倍于 HBM 的容量。論文給出了一組對(duì)比數(shù)據(jù):單個(gè) HBF 堆棧可以提供 512GB 容量和超過 1,600GB/s 的讀取帶寬,而單個(gè) HBM4 堆棧只有 48GB 容量。

HBF 的弱點(diǎn)在于寫入耐久性有限和讀取延遲較高(微秒級(jí)),這意味著它無法替代所有 HBM,但非常適合存儲(chǔ)推理時(shí)幾乎不更新的模型權(quán)重,或者變化緩慢的上下文數(shù)據(jù),比如用于 LLM 搜索的網(wǎng)頁語料庫、用于代碼助手的代碼庫,甚至研究論文庫。更重要的是,閃存容量還在以每三年翻倍的速度增長,這是 DRAM 已經(jīng)難以企及的節(jié)奏。

第二個(gè)方向是近內(nèi)存計(jì)算(PNM,Processing-Near-Memory),它與歷史上的 PIM(Processing-in-Memory,內(nèi)存內(nèi)計(jì)算)概念有所不同。PIM 將計(jì)算邏輯直接集成在 DRAM die 內(nèi)部,雖然帶寬極高,但面臨軟件分片復(fù)雜、計(jì)算能力受限于 DRAM 工藝的功耗和面積約束等問題。

DRAM 工藝節(jié)點(diǎn)并不適合高性能邏輯電路。PNM 則將計(jì)算邏輯放在內(nèi)存附近但仍是獨(dú)立 die,通過 3D 堆疊或高速互聯(lián)與內(nèi)存連接。

論文認(rèn)為,對(duì)于數(shù)據(jù)中心 LLM 推理而言,PNM 比 PIM 更實(shí)際:它的分片粒度可以大 1,000 倍(GB 級(jí)而非 MB 級(jí)),邏輯工藝可以獨(dú)立優(yōu)化,且不影響內(nèi)存密度和成本。不過論文也指出,對(duì)于移動(dòng)設(shè)備上的 LLM,由于模型更小、批次更小、能耗約束更嚴(yán)格,PIM 的劣勢(shì)可能不那么明顯,反而值得探索。

第三個(gè)方向是 3D 計(jì)算-邏輯堆疊。與傳統(tǒng) 2D 芯片通過 die 邊緣連接內(nèi)存不同,3D 堆疊使用垂直的 TSV(Through Silicon Via,硅通孔)實(shí)現(xiàn)寬而密的內(nèi)存接口,可以在更低功耗下獲得更高帶寬。

這個(gè)方向有兩種實(shí)現(xiàn)路徑:一種是在 HBM 的 base die 上集成計(jì)算邏輯,復(fù)用現(xiàn)有 HBM 設(shè)計(jì),帶寬與 HBM 相當(dāng)?shù)慕档?2 到 3 倍;另一種是定制化 3D 方案,通過更寬更密的接口和更先進(jìn)的封裝技術(shù),實(shí)現(xiàn)超越 HBM 的帶寬和效率。挑戰(zhàn)在于散熱:3D 結(jié)構(gòu)的表面積更小,散熱更難,以及需要建立內(nèi)存-邏輯接口的行業(yè)標(biāo)準(zhǔn)。

第四個(gè)方向是低延遲互聯(lián)。論文建議重新審視網(wǎng)絡(luò)設(shè)計(jì)中延遲與帶寬的權(quán)衡。具體措施包括:采用高連接性拓?fù)洌ㄈ鐦湫、蜻蜓、高維 Torus),減少跳數(shù)從而降低延遲;引入網(wǎng)絡(luò)內(nèi)處理(Processing-in-Network),讓 LLM 常用的通信原語(如 all-reduce、MoE 的 dispatch 和 collect)在交換機(jī)中加速;優(yōu)化芯片設(shè)計(jì),讓小包數(shù)據(jù)直接存入片上 SRAM 而非外部 DRAM,或?qū)⒂?jì)算引擎靠近網(wǎng)絡(luò)接口以縮短傳輸時(shí)間;甚至在可靠性設(shè)計(jì)上做文章,部署本地備用節(jié)點(diǎn)減少故障遷移的延遲和吞吐影響,或者在 LLM 推理對(duì)完美通信要求不高時(shí),用假數(shù)據(jù)或歷史結(jié)果替代超時(shí)消息,而非等待掉隊(duì)者。

Patterson 在論文中還不忘強(qiáng)調(diào)個(gè)人觀點(diǎn):他批評(píng)了當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界的脫節(jié)。1976 年他入行時(shí),計(jì)算機(jī)架構(gòu)會(huì)議上約 40% 的論文來自工業(yè)界,而到 2025 年的 ISCA(International Symposium on Computer Architecture),這個(gè)比例已經(jīng)跌破 4%。

他呼吁學(xué)術(shù)研究者把握 LLM 推理這個(gè)"誘人的研究目標(biāo)",并建議開發(fā)基于 Roofline 模型的性能模擬器,配合現(xiàn)代的性能/成本指標(biāo)(如 TCO、功耗、碳排放),為 AI 推理硬件創(chuàng)新提供更實(shí)用的評(píng)估框架。

當(dāng)前,全球正經(jīng)歷一場因 AI 引發(fā)的內(nèi)存供應(yīng)危機(jī)。由于 HBM 生產(chǎn)擠占了傳統(tǒng) DRAM 的晶圓產(chǎn)能,2026 年全球 DRAM 價(jià)格大幅上漲。三星、SK Hynix 等廠商正將更多資源轉(zhuǎn)向高利潤的 HBM 產(chǎn)品線,這雖然滿足了 AI 數(shù)據(jù)中心的需求,卻加劇了消費(fèi)級(jí)內(nèi)存的短缺。這種供應(yīng)緊張可能持續(xù)到 2027 年甚至更久。

在這種背景下,Patterson 提出的 HBF、PNM 等替代路徑,或許不僅是技術(shù)上的探索,也是產(chǎn)業(yè)尋找 Plan B 的現(xiàn)實(shí)需求。

當(dāng)然,論文也承認(rèn)這些方向并非可以一蹴而就的方案。每一個(gè)都涉及復(fù)雜的工程權(quán)衡:HBF 需要解決軟件如何處理有限寫入耐久性和高延遲讀取的問題;PNM 和 3D 堆疊需要新的軟件分片策略和內(nèi)存-邏輯接口標(biāo)準(zhǔn);低延遲互聯(lián)可能需要犧牲部分帶寬。

論文鼓勵(lì)將這些方向組合使用,因?yàn)樗鼈冊(cè)诤艽蟪潭壬鲜腔パa(bǔ)的。更高的內(nèi)存帶寬可以縮短每次 Decode 迭代的延遲,更大的單節(jié)點(diǎn)內(nèi)存容量可以減少系統(tǒng)規(guī)模從而降低通信開銷。

作為 RISC 架構(gòu)的共同發(fā)明人、RAID 存儲(chǔ)系統(tǒng)的開創(chuàng)者,Patterson 的職業(yè)生涯幾乎就是"挑戰(zhàn)現(xiàn)有范式"的代名詞。40 多年前,他和 John Hennessy 提出的精簡指令集思想曾被工業(yè)界視為異端,如今 99% 的新芯片都采用 RISC 架構(gòu)。

Patterson 和馬曉宇選擇發(fā)表這篇論文的方式也很有意思,它不是一篇技術(shù)細(xì)節(jié)密集的頂會(huì)論文,而是發(fā)在 IEEE Computer 這本面向更廣泛讀者的雜志上,語氣像是在發(fā)布一封公開信。值得注意的是,他們?cè)谥轮x中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young,這串名字幾乎覆蓋了 Google AI 基礎(chǔ)設(shè)施的核心架構(gòu)師。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不滿1-2出局!朝鮮隊(duì)球員賽后哭了,中國女足13點(diǎn)打響決戰(zhàn)

不滿1-2出局!朝鮮隊(duì)球員賽后哭了,中國女足13點(diǎn)打響決戰(zhàn)

何老師呀
2026-03-13 20:41:40
你肯定想不到:日本人設(shè)計(jì)的“偽滿紙幣”上,印的都是誰?

你肯定想不到:日本人設(shè)計(jì)的“偽滿紙幣”上,印的都是誰?

鍋鍋愛歷史
2026-03-12 13:48:55
毛主席紀(jì)念堂發(fā)布重要公告

毛主席紀(jì)念堂發(fā)布重要公告

觀察者網(wǎng)
2026-03-13 08:50:10
48小時(shí)內(nèi),亞洲三國給中國送大禮,美專家痛心疾首:特朗普犯大錯(cuò)

48小時(shí)內(nèi),亞洲三國給中國送大禮,美專家痛心疾首:特朗普犯大錯(cuò)

現(xiàn)代小青青慕慕
2026-03-11 14:14:28
中國女排季后賽現(xiàn)不友好一幕,國手二傳甩臉隊(duì)友,接班計(jì)劃恐泡湯

中國女排季后賽現(xiàn)不友好一幕,國手二傳甩臉隊(duì)友,接班計(jì)劃恐泡湯

籃球看比賽
2026-03-13 11:31:19
范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸?shù)袅艘簧?>
    </a>
        <h3>
      <a href=干史人
2026-03-05 21:06:35
巡視組進(jìn)駐一周,貴州廳官王鎮(zhèn)義被查,曾獲評(píng)“全國優(yōu)秀縣委書記”

巡視組進(jìn)駐一周,貴州廳官王鎮(zhèn)義被查,曾獲評(píng)“全國優(yōu)秀縣委書記”

觀察者網(wǎng)
2026-03-13 20:12:52
車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

快科技
2026-03-12 09:27:24
朱溫被殺前夜,叫兒媳王氏前來服侍,兒媳告誡:小心你父親要?dú)⒛?>
    </a>
        <h3>
      <a href=掠影后有感
2026-03-13 10:29:30
中東沖突把沖鋒衣價(jià)格打上去了?滌綸一夜?jié)q超2000元/噸,有面料廠商暫停接單

中東沖突把沖鋒衣價(jià)格打上去了?滌綸一夜?jié)q超2000元/噸,有面料廠商暫停接單

藍(lán)鯨新聞
2026-03-13 17:22:13
她果然沒離,畢竟400億資產(chǎn)的男人也不多啊!

她果然沒離,畢竟400億資產(chǎn)的男人也不多!

BenSir本色說
2026-03-11 22:06:22
震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點(diǎn),內(nèi)心一潭死水

震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點(diǎn),內(nèi)心一潭死水

火山詩話
2026-03-12 07:06:51
不是累,是蠢!英超本輪歐戰(zhàn)崩塌,真相只有一個(gè)

不是累,是蠢!英超本輪歐戰(zhàn)崩塌,真相只有一個(gè)

體壇周報(bào)
2026-03-13 12:58:12
美媒承認(rèn):突破中國防空網(wǎng),是B-21最艱巨的任務(wù)

美媒承認(rèn):突破中國防空網(wǎng),是B-21最艱巨的任務(wù)

楊風(fēng)
2026-03-12 22:06:24
中國緊急援助伊朗

中國緊急援助伊朗

楊興文
2026-03-13 16:31:45
朝中社:日本推動(dòng)軍國主義復(fù)活將觸碰“紅線”

朝中社:日本推動(dòng)軍國主義復(fù)活將觸碰“紅線”

界面新聞
2026-03-13 12:18:11
特朗普撂挑子不干了,以色列連俄大樓都敢炸,普京把話說得很清楚

特朗普撂挑子不干了,以色列連俄大樓都敢炸,普京把話說得很清楚

策前論
2026-03-12 12:46:44
廣東一地報(bào)告多起疫情,出現(xiàn)這些情況不要上學(xué)!

廣東一地報(bào)告多起疫情,出現(xiàn)這些情況不要上學(xué)!

珠海發(fā)布
2026-03-13 10:25:10
小區(qū)上萬人吃了近十年井水,官方通報(bào):預(yù)計(jì)6月底前接入自來水,水井水質(zhì)符合國家飲用水標(biāo)準(zhǔn)

小區(qū)上萬人吃了近十年井水,官方通報(bào):預(yù)計(jì)6月底前接入自來水,水井水質(zhì)符合國家飲用水標(biāo)準(zhǔn)

大象新聞
2026-03-13 17:49:20
五糧液首款光瓶酒上市,100%純糧定價(jià)399,樹立市場“新標(biāo)桿”

五糧液首款光瓶酒上市,100%純糧定價(jià)399,樹立市場“新標(biāo)桿”

影像渭南
2026-03-13 12:05:06
2026-03-14 00:00:50
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16411文章數(shù) 514739關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

“十五五”規(guī)劃綱要,全文來了!

汽車要聞

置換補(bǔ)貼價(jià)8.68萬 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

家居
教育
親子
藝術(shù)
公開課

家居要聞

藝術(shù)之家 法式優(yōu)雅

教育要聞

中小學(xué)校園課間操上的8位靈魂舞者,你覺得哪位最驚艷?

親子要聞

當(dāng)有女人叫老爸寶貝,萌娃會(huì)如何應(yīng)對(duì)?

藝術(shù)要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版