国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

推理專用芯片,火了

0
分享至

文 | 半導體產業(yè)縱橫,作者 | 鵬程

在AI技術從實驗室走向規(guī)?;涞氐倪M程中,推理(Inference)環(huán)節(jié)正成為決定體驗與成本的核心競爭——專門為推理優(yōu)化的芯片,已然成為科技行業(yè)的新風口。要理解這股熱潮,首先要厘清AI工作流中訓練與推理的本質差異。

在AI工作流中,訓練(Training)與推理(Inference)承擔著截然不同的角色。訓練階段通過大量帶標簽數據迭代優(yōu)化模型權重,使模型能夠學習復雜模式;而推理階段則使用已訓練好的模型對新輸入進行預測。從性能需求來看,訓練如同馬拉松,追求整體吞吐量與模型精度的持續(xù)提升;推理則如同百米沖刺,核心目標是降低單次預測延遲,實現實時響應。


訓練階段需要強大的通用計算平臺,通常需要調動成千上萬張頂級GPU,通過海量數據(如全互聯網文本、圖片)進行長時間(數月甚至數年)的計算,耗資巨大。訓練對算力的絕對性能要求極高,芯片需要具備強大的計算能力和全面的計算能力,能夠處理各種復雜的計算任務。目前,英偉達的GPU配合CUDA軟件生態(tài)幾乎處于壟斷地位,難以被其他廠商撼動。

然而,在推理階段,尤其是大語言模型(LLM)的實時交互場景中,情況發(fā)生了根本性轉變。LLM的推理過程具有"自回歸"特性,即生成第N+1個詞必須依賴上一輪第N個詞的結果。這種順序性導致GPU強大的并行計算能力在大多數時間處于"等待"狀態(tài),無法充分發(fā)揮其優(yōu)勢。

更為重要的是,隨著AI應用的廣泛落地,推理成本在AI總成本中的比重日益增加,已成為AI企業(yè)最大的單項支出。這促使業(yè)界開始探索專門的推理芯片解決方案。

為何推理芯片成為剛需?

專門的推理芯片是AI發(fā)展到規(guī)?;瘧秒A段的必然產物。其主要有以下優(yōu)勢:

第一是性能精準優(yōu)化。推理任務的核心是高效執(zhí)行預訓練模型的前向計算,如矩陣乘法、卷積運算等。專門的推理芯片(如NPU、TPU)針對這些運算進行硬件級優(yōu)化,能大幅提高計算效率,相比通用CPU或GPU,可實現更高的吞吐量和更低的延遲。例如,推理芯片可通過定制化的乘加單元(MAC)和并行計算架構,加速神經網絡的推理過程,滿足自動駕駛、智能語音交互等實時性要求高的場景。

第二是能效比優(yōu)勢,推理場景對功耗敏感,尤其是邊緣設備和終端應用(如智能手機、可穿戴設備)。專門的推理芯片通過低精度計算(如INT8、INT4)和硬件級優(yōu)化,能在保證精度的前提下顯著降低功耗,延長設備續(xù)航時間。相比之下,通用芯片在低功耗模式下性能受限,難以兼顧性能與能效。

第三是成本效益顯著。推理芯片的規(guī)模化生產可降低單位成本,尤其在大規(guī)模部署場景(如數據中心、邊緣計算節(jié)點)中,其性價比優(yōu)勢明顯。與通用芯片相比,推理芯片無需支持復雜的訓練任務,可簡化硬件設計,減少芯片面積和制造成本,更適合高并發(fā)、低成本的推理需求。

第四是場景適配性靈活。不同應用場景對推理芯片的需求差異顯著。例如,云端推理需處理高并發(fā)請求,要求高吞吐量和可擴展性;邊緣設備則需緊湊設計、低功耗和實時響應。專門的推理芯片可通過靈活的架構設計(如存算一體、Chiplet技術)滿足多樣化場景需求,而通用芯片難以在所有場景中兼顧性能、功耗和成本。

最后,專用推理芯片能加速AI全民普及。推理芯片降低了AI應用的部署門檻,標準化的接口與工具鏈簡化了開發(fā)流程,讓更多企業(yè)與開發(fā)者能夠輕松落地預訓練模型,推動AI技術在各行業(yè)的滲透,助力AI生態(tài)持續(xù)繁榮。

可以說,推理芯片是AI從技術概念走向實際應用的關鍵支撐,通過性能、能效、成本與場景適配性的綜合優(yōu)化,成為AI規(guī)?;l(fā)展的核心引擎。

推理芯片賽道:百花齊放,群雄逐鹿

隨著需求爆發(fā),推理芯片賽道呈現出多元化競爭格局,一批創(chuàng)新產品憑借獨特技術優(yōu)勢脫穎而出。

首先是LPU,全稱 Language Processing Unitix,是一種專門為語言處理任務設計的硬件處理器。它與我們熟知的 GPU(Graphics Processing Unit,圖形處理器)有著本質的區(qū)別。GPU 最初是為處理圖形渲染任務而設計的,在并行計算方面表現出色,因此后來被廣泛應用于人工智能領域的模型訓練和推理。然而,LPU 則是專門針對語言處理任務進行優(yōu)化的,旨在更高效地處理文本數據,執(zhí)行諸如自然語言理解、文本生成等任務。LPU由前Google TPU團隊創(chuàng)立,專為大語言模型(LLM)推理設計,采用SRAM-only架構,無外部存儲延遲,單芯片集成230MB SRAM,帶寬高達80TB/s,延遲穩(wěn)定,適合流式生成和交互式應用。

另一家公司SambaNova SN40L則跳出了傳統(tǒng)GPU并行計算框架,自研可重構數據流單元(RDU)架構,創(chuàng)造性地將神經網絡圖直接映射到硬件執(zhí)行。通過將多步推理計算壓縮為單一操作,大幅減少數據在內存與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點。其第四代RDU產品SN40L,宣稱推理性能達到英偉達H100的3.1倍,訓練性能達到H100的2倍,而總體擁有成本(TCO)僅為H100的1/10。

此外,2024年發(fā)布的第六代TPU v6(代號Trillium),也標志著谷歌將主戰(zhàn)場從訓練轉向推理。面對推理成本成為全球AI公司最大單項支出的行業(yè)現狀,TPU v6從架構到指令集全面圍繞推理負載重構:FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優(yōu)化、芯片間帶寬大幅提升,能效比相比上一代提升67%。谷歌直言,這一代TPU的目標是成為“推理時代最省錢的商業(yè)引擎”。2025年推出的第七代TPU(TPU v7,代號Ironwood)更是聚焦超大規(guī)模在線推理場景,成為TPU系列首款專用推理芯片。與此前側重訓練的v5p、側重能效的v6e不同,Ironwood從第一天起就鎖定超大規(guī)模在線推理這一終極場景,并在多項關鍵指標上首次與英偉達Blackwell系列正面抗衡,成為全球AI基礎設施領域的焦點產品。

巨頭出手:英偉達200億“收編”推理黑馬

面對推理賽道的激烈競爭,芯片巨頭英偉達祭出重磅大招。

當地時間 12 月 24 日,AI 芯片初創(chuàng)企業(yè) Groq 宣布與英偉達達成非獨家推理技術許可協(xié)議。根據協(xié)議約定,Groq 創(chuàng)始人喬納森?羅斯、總裁桑尼?馬達拉及核心技術團隊將正式加盟英偉達,攜手推動授權技術的迭代升級與規(guī)?;涞?。

值得注意的是,Groq 將繼續(xù)保持獨立運營地位,西蒙?愛德華茲已接任公司首席執(zhí)行官,旗下 Groq 云服務亦維持正常運轉,不受此次合作影響。英偉達首席執(zhí)行官黃仁勛在內部郵件中指出,此項合作將顯著拓寬公司技術版圖 —— 英偉達計劃將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構,進一步增強平臺對各類 AI 推理及實時工作負載的服務能力。

這宗以非獨家技術許可為核心的交易,堪稱美國科技巨頭近年的“標準操作”。微軟、亞馬遜、谷歌等企業(yè)均曾通過類似模式,在不觸發(fā)全資收購的前提下,吸納頂尖 AI 人才、獲取關鍵技術壁壘。其核心邏輯在于,這種輕資產合作方式可有效規(guī)避當前美國嚴苛的反壟斷審查。盡管監(jiān)管機構已開始關注此類交易,但迄今為止,尚無任何一筆同類合作被裁定撤銷。

對于手握 606 億美元巨額現金儲備的英偉達而言,這無疑是一筆雙贏的戰(zhàn)略布局:既消解了潛在的市場競爭威脅,又進一步加固自身技術護城河。據悉,該交易涉及資金規(guī)模約 200 億美元,較 Groq 數月前融資時 69 億美元的估值溢價近三倍。這一數字,也標志著 Groq 作為獨立硬件挑戰(zhàn)者的征程暫告一段落,但其核心技術將在英偉達的生態(tài)體系中,獲得更廣闊的研發(fā)與應用平臺。

對 Groq 而言,200 億美元的現金流不僅極大緩解了公司財務壓力,也為現有投資者創(chuàng)造了豐厚回報。盡管核心團隊并入英偉達體系,但 Groq 憑借新 CEO 的到任與獨立運營架構的保留,得以繼續(xù)深耕 Groq Cloud 云服務業(yè)務。更重要的是,依托英偉達的資源優(yōu)勢,Groq 的技術有望觸達更豐富的應用場景,加速商業(yè)化落地進程;同時,這種 “非全資收購” 的合作模式,既規(guī)避了品牌滅失的風險,更為企業(yè)未來發(fā)展預留了充分的自主空間。

英偉達的推理芯片野心,如何通過LPU技術降低推理成本

顯然此次獲取到Groq的技術許可,將有利于降低英偉達未來推出的推理專用芯片的成本。

通過此次合作,NVIDIA 成功斬獲 Groq 核心知識產權,得以直接應用其 SRAM 架構技術,一舉繞開HBM 高帶寬內存與臺積電 CoWoS 先進封裝的雙重限制。不妨設想:依托這項技術,NVIDIA 有望打造一款專攻 AI 快速推理的芯片產品,憑借極致的運算速度,再搭配 NVLink 互聯技術,實現多顆 LPU 芯片的無縫協(xié)同,釋放更強勁的算力效能。

Groq LPU 芯片的核心優(yōu)勢,在于將 AI 模型的核心權重數據,從傳統(tǒng)方案依賴的外置 HBM,遷移至芯片內置的 SRAM 中。這一設計使得芯片無需頻繁與外部存儲交互調取數據,算力效率自然實現躍升。而且,SRAM的讀寫速度可達HBM的10倍。HBM方案的弊端則十分突出:不僅需要依托臺積電的CoWoS封裝技術,還受制于存儲廠商的產能限制,早已成為制約AI芯片大規(guī)模量產的關鍵瓶頸。

一旦跳過HBM與CoWoS,直接采用SRAM架構,芯片的生產效率將迎來質的飛躍。更值得一提的是,若在電路板中集成NVIDIA的NVLink C2C(芯片間直連技術),LPU芯片的擴展能力還將遠超當前水平,從而讓數據傳輸更迅捷、更穩(wěn)定。

如此一來,NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品,徹底擺脫內存供應瓶頸;又能規(guī)避臺積電CoWoS封裝的產能掣肘,實現供應鏈的自主可控。

此外,盡管Groq LPU芯片受限于內存容量,更適配輕量級AI模型,但在低延遲場景(如機器人實時控制、端側AI交互)中具備得天獨厚的優(yōu)勢。而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手”,GPU擔當“算力基石”,二者強強聯合,將進一步鞏固NVIDIA在AI領域的霸主地位。

恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業(yè)背景,NVIDIA這套“SRAM+NVLink”的組合拳,堪稱破局關鍵。200億美元的合作對價看似不菲,但對于NVIDIA這樣的行業(yè)巨頭而言,無疑是一筆“花小錢辦大事”的劃算買賣。合作達成后,Groq可保持獨立運營,NVIDIA則收獲核心技術與頂尖人才,最終實現雙贏。

對于普通消費者而言,這場技術革新的紅利同樣觸手可及:未來的AI推理將更快速、更經濟,聊天機器人的響應會變得毫秒級迅捷,服務機器人的動作也將愈發(fā)流暢自然。與此同時,SRAM市場的熱度或將持續(xù)攀升,英特爾等相關產業(yè)鏈企業(yè)也有望從中分得一杯羹,推動整個行業(yè)生態(tài)的繁榮發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2換1!雷霆交易目標曝光!已經是NBA最強球隊

2換1!雷霆交易目標曝光!已經是NBA最強球隊

籃球實戰(zhàn)寶典
2025-12-31 10:24:34
這次演習最讓青蛙們破防的,不是臺北101,而是那架剛起飛的客機

這次演習最讓青蛙們破防的,不是臺北101,而是那架剛起飛的客機

青青子衿
2025-12-30 20:13:46
蔡磊證實,病情接近終末期,“五體癱軟,無法言語。壓痛、口水、嗆咳、吞咽、憋氣每天都在折磨我,呼吸功能進一步減弱……”

蔡磊證實,病情接近終末期,“五體癱軟,無法言語。壓痛、口水、嗆咳、吞咽、憋氣每天都在折磨我,呼吸功能進一步減弱……”

揚子晚報
2025-12-30 14:43:33
老詹得票低記者鳴不平:他歷史前二,在洛杉磯舉辦,名嘴說出隱情

老詹得票低記者鳴不平:他歷史前二,在洛杉磯舉辦,名嘴說出隱情

球盲姐
2025-12-31 10:46:33
你發(fā)現了嗎?結婚不主動要彩禮的女方家庭,一般都有這3種情況

你發(fā)現了嗎?結婚不主動要彩禮的女方家庭,一般都有這3種情況

黑貓故事所
2025-12-29 22:10:54
韓媒:中國即將創(chuàng)下全球汽車工業(yè)歷史上未曾有過的紀錄!

韓媒:中國即將創(chuàng)下全球汽車工業(yè)歷史上未曾有過的紀錄!

達文西看世界
2025-12-30 19:28:54
大鵝主人抽水追兇最新進展來了:深刨半米淤泥啥也不見,或因厚草蓋頂溺亡

大鵝主人抽水追兇最新進展來了:深刨半米淤泥啥也不見,或因厚草蓋頂溺亡

極目新聞
2025-12-30 18:08:57
不要買!一級致癌物超標9000倍,成本最低僅1元,央視曝光

不要買!一級致癌物超標9000倍,成本最低僅1元,央視曝光

另子維愛讀史
2025-12-30 20:42:23
話癆治愈自閉癥同桌,家長特意上門感謝!

話癆治愈自閉癥同桌,家長特意上門感謝!

特約前排觀眾
2025-12-31 00:10:07
丁渤再曝猛料,徐湖平文物貪腐鏈添關鍵鐵證

丁渤再曝猛料,徐湖平文物貪腐鏈添關鍵鐵證

取經的兵
2025-12-29 19:39:28
前國腳定居西班牙多年,賣5套房花費1000萬,如今沒有工作吃老本

前國腳定居西班牙多年,賣5套房花費1000萬,如今沒有工作吃老本

素衣讀史
2025-12-30 18:06:27
牛皮吹大了!永州奪冠沸沸揚揚的送車事件,唐老板隱身后徹底退網

牛皮吹大了!永州奪冠沸沸揚揚的送車事件,唐老板隱身后徹底退網

火山詩話
2025-12-30 18:30:59
伊朗,突發(fā)!崩盤、失控!發(fā)生了什么?

伊朗,突發(fā)!崩盤、失控!發(fā)生了什么?

證券時報
2025-12-31 08:07:06
遲到近50分鐘、全額退票、明星產品扎堆:羅永浩的“科技春晚”讓誰贏了?

遲到近50分鐘、全額退票、明星產品扎堆:羅永浩的“科技春晚”讓誰贏了?

界面新聞
2025-12-31 09:24:11
沒想到,會拉胯成這樣...

沒想到,會拉胯成這樣...

燕梳樓頻道
2025-12-30 21:10:43
失業(yè)潮的終極解法,歷史只教了我們一課:不是救濟,是戰(zhàn)爭

失業(yè)潮的終極解法,歷史只教了我們一課:不是救濟,是戰(zhàn)爭

經濟學教授V
2025-12-30 18:41:37
意外!申花功勛教練李帥官宣離隊,下一站浮出水面,或投奔上港?

意外!申花功勛教練李帥官宣離隊,下一站浮出水面,或投奔上港?

羅掌柜體育
2025-12-31 09:56:24
一聲嘆息:中國男足名將結婚當天失業(yè),被球隊拋棄,33歲難再上崗

一聲嘆息:中國男足名將結婚當天失業(yè),被球隊拋棄,33歲難再上崗

國足風云
2025-12-30 14:15:06
“退貨羽絨服口袋現機票”引爭議!買家遭網暴喊冤:衣服疑二次銷售,自己只穿過一次,已報警!銷售方稱視頻系供貨廠家發(fā)布

“退貨羽絨服口袋現機票”引爭議!買家遭網暴喊冤:衣服疑二次銷售,自己只穿過一次,已報警!銷售方稱視頻系供貨廠家發(fā)布

每日經濟新聞
2025-12-30 16:18:06
越南政府:確保南北高鐵項目在2026年底前開工建設

越南政府:確保南北高鐵項目在2026年底前開工建設

財聯社
2025-12-30 17:00:40
2025-12-31 11:31:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
128300文章數 861562關注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

70后飛行員翻臉將22歲情人告上法庭 讓其歸還700多萬

頭條要聞

70后飛行員翻臉將22歲情人告上法庭 讓其歸還700多萬

體育要聞

聯盟第一人倒下了!掘金還有底牌嗎?

娛樂要聞

林俊杰女友被扒 父親涉經濟案卷款13億?

財經要聞

朱光耀:美關稅政策正使WTO名存實亡

汽車要聞

標配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

本地
時尚
旅游
藝術
公開課

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

在這里,我們拍到了雪原上的一抹瑞紅

旅游要聞

西盟佤山 云海翻涌如詩如畫

藝術要聞

毛主席書法手稿揭示:古帖與現代字帖該如何選擇?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版