網易首頁 > 網易號 > 正文申請入駐

推理專用芯片，火了

2025-12-29 20:25:17　來源: 鈦媒體APP

北京舉報

分享至

文 | 半導體產業(yè)縱橫，作者 | 鵬程

在AI技術從實驗室走向規(guī)?；涞氐倪M程中，推理（Inference）環(huán)節(jié)正成為決定體驗與成本的核心競爭——專門為推理優(yōu)化的芯片，已然成為科技行業(yè)的新風口。要理解這股熱潮，首先要厘清AI工作流中訓練與推理的本質差異。

在AI工作流中，訓練（Training）與推理（Inference）承擔著截然不同的角色。訓練階段通過大量帶標簽數據迭代優(yōu)化模型權重，使模型能夠學習復雜模式；而推理階段則使用已訓練好的模型對新輸入進行預測。從性能需求來看，訓練如同馬拉松，追求整體吞吐量與模型精度的持續(xù)提升；推理則如同百米沖刺，核心目標是降低單次預測延遲，實現實時響應。

訓練階段需要強大的通用計算平臺，通常需要調動成千上萬張頂級GPU，通過海量數據（如全互聯網文本、圖片）進行長時間（數月甚至數年）的計算，耗資巨大。訓練對算力的絕對性能要求極高，芯片需要具備強大的計算能力和全面的計算能力，能夠處理各種復雜的計算任務。目前，英偉達的GPU配合CUDA軟件生態(tài)幾乎處于壟斷地位，難以被其他廠商撼動。

然而，在推理階段，尤其是大語言模型（LLM）的實時交互場景中，情況發(fā)生了根本性轉變。LLM的推理過程具有"自回歸"特性，即生成第N+1個詞必須依賴上一輪第N個詞的結果。這種順序性導致GPU強大的并行計算能力在大多數時間處于"等待"狀態(tài)，無法充分發(fā)揮其優(yōu)勢。

更為重要的是，隨著AI應用的廣泛落地，推理成本在AI總成本中的比重日益增加，已成為AI企業(yè)最大的單項支出。這促使業(yè)界開始探索專門的推理芯片解決方案。

為何推理芯片成為剛需？

專門的推理芯片是AI發(fā)展到規(guī)?；瘧秒A段的必然產物。其主要有以下優(yōu)勢：

第一是性能精準優(yōu)化。推理任務的核心是高效執(zhí)行預訓練模型的前向計算，如矩陣乘法、卷積運算等。專門的推理芯片（如NPU、TPU）針對這些運算進行硬件級優(yōu)化，能大幅提高計算效率，相比通用CPU或GPU，可實現更高的吞吐量和更低的延遲。例如，推理芯片可通過定制化的乘加單元（MAC）和并行計算架構，加速神經網絡的推理過程，滿足自動駕駛、智能語音交互等實時性要求高的場景。

第二是能效比優(yōu)勢，推理場景對功耗敏感，尤其是邊緣設備和終端應用（如智能手機、可穿戴設備）。專門的推理芯片通過低精度計算（如INT8、INT4）和硬件級優(yōu)化，能在保證精度的前提下顯著降低功耗，延長設備續(xù)航時間。相比之下，通用芯片在低功耗模式下性能受限，難以兼顧性能與能效。

第三是成本效益顯著。推理芯片的規(guī)模化生產可降低單位成本，尤其在大規(guī)模部署場景（如數據中心、邊緣計算節(jié)點）中，其性價比優(yōu)勢明顯。與通用芯片相比，推理芯片無需支持復雜的訓練任務，可簡化硬件設計，減少芯片面積和制造成本，更適合高并發(fā)、低成本的推理需求。

第四是場景適配性靈活。不同應用場景對推理芯片的需求差異顯著。例如，云端推理需處理高并發(fā)請求，要求高吞吐量和可擴展性；邊緣設備則需緊湊設計、低功耗和實時響應。專門的推理芯片可通過靈活的架構設計（如存算一體、Chiplet技術）滿足多樣化場景需求，而通用芯片難以在所有場景中兼顧性能、功耗和成本。

最后，專用推理芯片能加速AI全民普及。推理芯片降低了AI應用的部署門檻，標準化的接口與工具鏈簡化了開發(fā)流程，讓更多企業(yè)與開發(fā)者能夠輕松落地預訓練模型，推動AI技術在各行業(yè)的滲透，助力AI生態(tài)持續(xù)繁榮。

可以說，推理芯片是AI從技術概念走向實際應用的關鍵支撐，通過性能、能效、成本與場景適配性的綜合優(yōu)化，成為AI規(guī)?；l(fā)展的核心引擎。

推理芯片賽道：百花齊放，群雄逐鹿

隨著需求爆發(fā)，推理芯片賽道呈現出多元化競爭格局，一批創(chuàng)新產品憑借獨特技術優(yōu)勢脫穎而出。

首先是LPU，全稱 Language Processing Unitix，是一種專門為語言處理任務設計的硬件處理器。它與我們熟知的 GPU（Graphics Processing Unit，圖形處理器）有著本質的區(qū)別。GPU 最初是為處理圖形渲染任務而設計的，在并行計算方面表現出色，因此后來被廣泛應用于人工智能領域的模型訓練和推理。然而，LPU 則是專門針對語言處理任務進行優(yōu)化的，旨在更高效地處理文本數據，執(zhí)行諸如自然語言理解、文本生成等任務。LPU由前Google TPU團隊創(chuàng)立，專為大語言模型（LLM）推理設計，采用SRAM-only架構，無外部存儲延遲，單芯片集成230MB SRAM，帶寬高達80TB/s，延遲穩(wěn)定，適合流式生成和交互式應用。

另一家公司SambaNova SN40L則跳出了傳統(tǒng)GPU并行計算框架，自研可重構數據流單元（RDU）架構，創(chuàng)造性地將神經網絡圖直接映射到硬件執(zhí)行。通過將多步推理計算壓縮為單一操作，大幅減少數據在內存與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點。其第四代RDU產品SN40L，宣稱推理性能達到英偉達H100的3.1倍，訓練性能達到H100的2倍，而總體擁有成本（TCO）僅為H100的1/10。

此外，2024年發(fā)布的第六代TPU v6（代號Trillium），也標志著谷歌將主戰(zhàn)場從訓練轉向推理。面對推理成本成為全球AI公司最大單項支出的行業(yè)現狀，TPU v6從架構到指令集全面圍繞推理負載重構：FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優(yōu)化、芯片間帶寬大幅提升，能效比相比上一代提升67%。谷歌直言，這一代TPU的目標是成為“推理時代最省錢的商業(yè)引擎”。2025年推出的第七代TPU（TPU v7，代號Ironwood）更是聚焦超大規(guī)模在線推理場景，成為TPU系列首款專用推理芯片。與此前側重訓練的v5p、側重能效的v6e不同，Ironwood從第一天起就鎖定超大規(guī)模在線推理這一終極場景，并在多項關鍵指標上首次與英偉達Blackwell系列正面抗衡，成為全球AI基礎設施領域的焦點產品。

巨頭出手：英偉達200億“收編”推理黑馬

面對推理賽道的激烈競爭，芯片巨頭英偉達祭出重磅大招。

當地時間 12 月 24 日，AI 芯片初創(chuàng)企業(yè) Groq 宣布與英偉達達成非獨家推理技術許可協(xié)議。根據協(xié)議約定，Groq 創(chuàng)始人喬納森?羅斯、總裁桑尼?馬達拉及核心技術團隊將正式加盟英偉達，攜手推動授權技術的迭代升級與規(guī)?；涞?。

值得注意的是，Groq 將繼續(xù)保持獨立運營地位，西蒙?愛德華茲已接任公司首席執(zhí)行官，旗下 Groq 云服務亦維持正常運轉，不受此次合作影響。英偉達首席執(zhí)行官黃仁勛在內部郵件中指出，此項合作將顯著拓寬公司技術版圖 —— 英偉達計劃將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構，進一步增強平臺對各類 AI 推理及實時工作負載的服務能力。

這宗以非獨家技術許可為核心的交易，堪稱美國科技巨頭近年的“標準操作”。微軟、亞馬遜、谷歌等企業(yè)均曾通過類似模式，在不觸發(fā)全資收購的前提下，吸納頂尖 AI 人才、獲取關鍵技術壁壘。其核心邏輯在于，這種輕資產合作方式可有效規(guī)避當前美國嚴苛的反壟斷審查。盡管監(jiān)管機構已開始關注此類交易，但迄今為止，尚無任何一筆同類合作被裁定撤銷。

對于手握 606 億美元巨額現金儲備的英偉達而言，這無疑是一筆雙贏的戰(zhàn)略布局：既消解了潛在的市場競爭威脅，又進一步加固自身技術護城河。據悉，該交易涉及資金規(guī)模約 200 億美元，較 Groq 數月前融資時 69 億美元的估值溢價近三倍。這一數字，也標志著 Groq 作為獨立硬件挑戰(zhàn)者的征程暫告一段落，但其核心技術將在英偉達的生態(tài)體系中，獲得更廣闊的研發(fā)與應用平臺。

對 Groq 而言，200 億美元的現金流不僅極大緩解了公司財務壓力，也為現有投資者創(chuàng)造了豐厚回報。盡管核心團隊并入英偉達體系，但 Groq 憑借新 CEO 的到任與獨立運營架構的保留，得以繼續(xù)深耕 Groq Cloud 云服務業(yè)務。更重要的是，依托英偉達的資源優(yōu)勢，Groq 的技術有望觸達更豐富的應用場景，加速商業(yè)化落地進程；同時，這種 “非全資收購” 的合作模式，既規(guī)避了品牌滅失的風險，更為企業(yè)未來發(fā)展預留了充分的自主空間。

英偉達的推理芯片野心，如何通過LPU技術降低推理成本

顯然此次獲取到Groq的技術許可，將有利于降低英偉達未來推出的推理專用芯片的成本。

通過此次合作，NVIDIA 成功斬獲 Groq 核心知識產權，得以直接應用其 SRAM 架構技術，一舉繞開HBM 高帶寬內存與臺積電 CoWoS 先進封裝的雙重限制。不妨設想：依托這項技術，NVIDIA 有望打造一款專攻 AI 快速推理的芯片產品，憑借極致的運算速度，再搭配 NVLink 互聯技術，實現多顆 LPU 芯片的無縫協(xié)同，釋放更強勁的算力效能。

Groq LPU 芯片的核心優(yōu)勢，在于將 AI 模型的核心權重數據，從傳統(tǒng)方案依賴的外置 HBM，遷移至芯片內置的 SRAM 中。這一設計使得芯片無需頻繁與外部存儲交互調取數據，算力效率自然實現躍升。而且，SRAM的讀寫速度可達HBM的10倍。HBM方案的弊端則十分突出：不僅需要依托臺積電的CoWoS封裝技術，還受制于存儲廠商的產能限制，早已成為制約AI芯片大規(guī)模量產的關鍵瓶頸。

一旦跳過HBM與CoWoS，直接采用SRAM架構，芯片的生產效率將迎來質的飛躍。更值得一提的是，若在電路板中集成NVIDIA的NVLink C2C（芯片間直連技術），LPU芯片的擴展能力還將遠超當前水平，從而讓數據傳輸更迅捷、更穩(wěn)定。

如此一來，NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品，徹底擺脫內存供應瓶頸；又能規(guī)避臺積電CoWoS封裝的產能掣肘，實現供應鏈的自主可控。

此外，盡管Groq LPU芯片受限于內存容量，更適配輕量級AI模型，但在低延遲場景（如機器人實時控制、端側AI交互）中具備得天獨厚的優(yōu)勢。而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手”，GPU擔當“算力基石”，二者強強聯合，將進一步鞏固NVIDIA在AI領域的霸主地位。

恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業(yè)背景，NVIDIA這套“SRAM+NVLink”的組合拳，堪稱破局關鍵。200億美元的合作對價看似不菲，但對于NVIDIA這樣的行業(yè)巨頭而言，無疑是一筆“花小錢辦大事”的劃算買賣。合作達成后，Groq可保持獨立運營，NVIDIA則收獲核心技術與頂尖人才，最終實現雙贏。

對于普通消費者而言，這場技術革新的紅利同樣觸手可及：未來的AI推理將更快速、更經濟，聊天機器人的響應會變得毫秒級迅捷，服務機器人的動作也將愈發(fā)流暢自然。與此同時，SRAM市場的熱度或將持續(xù)攀升，英特爾等相關產業(yè)鏈企業(yè)也有望從中分得一杯羹，推動整個行業(yè)生態(tài)的繁榮發(fā)展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.