圖解AI算力新瓶頸：下一個主角是CPU？

2026-04-16 18:16:00　來源: 半導體產(chǎn)業(yè)縱橫

北京舉報

分享至

算力賽道要換主角，CPU重登舞臺中心。

過去數(shù)年，在 AI 大模型預訓練的浪潮下，GPU 憑借并行計算能力的絕對優(yōu)勢，成為算力競爭的核心壁壘，也因此成為科技巨頭與資本市場共同追逐的焦點。

彼時，NVIDIA H100 芯片一卡難求，硅谷巨頭們?yōu)閾寠Z GPU 資源，甚至將芯片庫存量列為財報會議上的核心競爭力指標。這段狂熱的歷史，在投資者與大眾心中刻下了一個根深蒂固的認知：AI = GPU。

但時間來到 2026 年，當你走進最先進的 AI 數(shù)據(jù)中心會發(fā)現(xiàn)，困擾行業(yè)的算力瓶頸早已不止 GPU—— 內(nèi)存告急、光模塊短缺、電力供應緊張、散熱難題凸顯，算力缺口正從單點擴散到整個基礎設施鏈條。

在這些被熱議的賽道之外，不禁想追問：還有哪些被忽視的機會？答案，藏在那個曾被視作“無聊配角” 的硬件里：CPU（中央處理器）。

若你覺得“CPU 缺貨” 的說法有違直覺，不妨看看近期產(chǎn)業(yè)巨頭的真實動向：

AMD CEO 蘇姿豐（Lisa Su）在財報會議上直言，EPYC 服務器 CPU 需求 “遠超預期”。在核心的數(shù)據(jù)中心領(lǐng)域，AMD 高端 CPU 已陷入嚴重供不應求的境地，交貨周期拉長至 6 個月以上，甚至手握 10%-15% 的漲價話語權(quán)。
一度陷入低谷的 Intel，在 2025 年底意外迎來服務器 CPU 庫存見底。公司不得不緊急調(diào)整產(chǎn)能，將原本預留給 PC 產(chǎn)線的晶圓，轉(zhuǎn)投服務器 CPU 生產(chǎn)以緩解缺口。
最具說服力的信號，來自“GPU 霸主” NVIDIA—— 其 AI 基礎設施主管公開承認：“在擴展 AI 與智能體（Agentic）工作流時，CPU 正成為我們的瓶頸?！?/li>

在這份深度報告中，將拆解 CPU 重回算力舞臺中央的完整邏輯：

CPU vs GPU—— 必須搞懂的底層邏輯

在探討2026 年超大規(guī)模數(shù)據(jù)中心為何大舉采購 CPU 之前，需要先打破一個過時的迷思：“AI = GPU，GPU 越強 AI 越聰明”。要理解這一認知的轉(zhuǎn)變，不妨回溯算力產(chǎn)業(yè)的三段歷史：為什么過去 40 年是 CPU 稱霸？為什么過去 10 年 GPU 逆襲上位？而現(xiàn)在，算力天平為何再次向 CPU 傾斜？

40 年 CPU 霸權(quán)，源于 “通用性” 基因

在個人電腦與早期服務器時代，CPU（中央處理器）是整臺設備的絕對核心。無論是 Intel 還是 AMD，其 CPU 設計的底層哲學只有一個：通用性（General-Purpose）。

電腦需要處理的任務繁雜且多變：開機時加載操作系統(tǒng)、移動鼠標光標、一邊播放 Spotify 音樂，一邊打開數(shù)十個 Chrome 瀏覽器標簽頁，同時后臺還在下載文件。這些任務的共同特點是：充滿不確定性與復雜邏輯判斷。

“如果用戶點擊這個按鈕，就打開新窗口”“如果網(wǎng)絡突然中斷，就彈出錯誤提示”——CPU 正是為這種 “如果 A 發(fā)生，就執(zhí)行 B” 的分支邏輯而生。它就像一把瑞士軍刀，功能全面且切換任務的速度極快。在那個算力瓶頸聚焦于 “邏輯處理效率” 的年代，CPU 的運算速度直接決定了設備的流暢度。

GPU 稱霸 AI 時代，贏在 “并行計算” 優(yōu)勢

GPU（圖形處理器）的誕生初衷與 AI 毫無關(guān)聯(lián) —— 它是為 “玩游戲” 而生的。

在 3D 游戲中，屏幕上數(shù)百萬個像素的顏色、光影反射效果，需要每秒鐘重新計算 60 次。這類計算的特點鮮明：運算邏輯簡單、數(shù)據(jù)量龐大、且各像素的計算過程互不干擾。此時，主打通用性的 CPU 就顯得 “笨拙” 了。就像用一把精密的瑞士軍刀去切一萬顆卷心菜，遠不如一萬把菜刀同時開工高效。NVIDIA 正是抓住了這一痛點，設計出內(nèi)置成千上萬個 “微小、簡單且可并行工作” 運算核心的 GPU。

而 GPU 與 AI 的結(jié)緣，源于一場 “技術(shù)巧合”。2012 年左右，科學家們發(fā)現(xiàn)：深度學習與神經(jīng)網(wǎng)絡的底層數(shù)學邏輯，和 3D 游戲的像素渲染運算，本質(zhì)上完全一致。訓練一個 AI 大模型（比如讓它 “讀完” 一座圖書館的書籍），對計算機而言就是將文字轉(zhuǎn)化為數(shù)字，再執(zhí)行數(shù)萬億次的 “矩陣乘法”。這是一種標準化、規(guī)模化的算術(shù)運算。

CPU 處理這類海量簡單任務時，會因核心數(shù)量不足陷入 “算力擁堵”；而 GPU 的數(shù)千個并行核心可同時啟動，運算速度是 CPU 的幾十倍甚至上百倍。這正是 2024 年以前 “大模型預訓練時代”，GPU 獨霸算力市場的核心原因 —— 彼時的 AI 就像一個 “死記硬背的學生”，其核心需求就是純粹的并行數(shù)學運算。

一萬名士兵（GPU）vs 十位大學教授（CPU）

GPU：一萬名整齊劃一的士兵。這支軍隊最擅長“標準化并行算術(shù)”。若讓所有人同時計算 “1+1=2”，他們能瞬間完成任務。但他們的短板也很明顯 —— 應變能力極差。一旦遇到邏輯分支變化或復雜任務，整支隊伍就會陷入混亂，需要重新整隊才能繼續(xù)。更重要的是，士兵們不具備獨立運行操作系統(tǒng)和復雜軟件的能力。

CPU：十位頂尖的大學教授。教授的數(shù)量雖少，卻擁有極強的“復雜決策與邏輯判斷能力”。他們專精于處理 “如果…… 就……” 的條件分支，能瞬間切換策略，從容應對不可預測的任務。更關(guān)鍵的是，教授們天生就是為操控各類軟件、網(wǎng)絡與數(shù)據(jù)庫而生的 —— 他們是整個算力系統(tǒng)的 “指揮官”。

2026 年，算力天平向 CPU 傾斜的底層邏輯

總結(jié)來說，過去十年的 AI 突破，建立在 “將所有問題轉(zhuǎn)化為并行數(shù)學運算” 的基礎上，這造就了 GPU 的黃金時代。彼時的 AI，就像一個坐在圖書館里死記硬背的學生，只需要無窮無盡的 GPU “士兵” 幫忙翻書、做算術(shù)。但到了 2026 年，科技巨頭們發(fā)現(xiàn)了一個新命題：AI 已經(jīng) “背完了書”，背完了書”，現(xiàn)在需要走進現(xiàn)實世界 “解決問題”。

當 AI 的行為模式從 “靜態(tài)的文本生成” 轉(zhuǎn)向 “動態(tài)的邏輯推理與工具操作”，僅靠一萬名只會做算術(shù)的士兵已經(jīng)遠遠不夠。算力系統(tǒng)突然需要大量的 CPU “教授”—— 指揮 GPU 軍隊、操控各類軟件、為 AI 搭建復雜的虛擬訓練環(huán)境。GPU 是 AI 的 “肌肉”，CPU 則是 “神經(jīng)系統(tǒng)”。當肌肉已經(jīng)足夠強壯時，整個 AI 產(chǎn)業(yè)的發(fā)展速度，開始由能指揮肌肉的 “神經(jīng)系統(tǒng)” 決定。

2026 年，三股力量同時引爆 CPU 需求

2023-2024 年，全球科技巨頭瘋搶 GPU；2025 年，行業(yè)焦點轉(zhuǎn)向內(nèi)存（HBM）。而到了 2026 年，數(shù)據(jù)中心的最新算力瓶頸，悄然落在了曾經(jīng)的 “配角” CPU 身上。這一轉(zhuǎn)變的背后，是 AI 產(chǎn)業(yè)演進跨過的關(guān)鍵分水嶺 —— 三股趨勢的交匯共振，其中前兩股發(fā)生在 GPU 機架 “內(nèi)部”，第三股則在機架 “外部” 開辟了全新戰(zhàn)場。

推論時代來臨——AI 使用量的指數(shù)級爆炸

這是最容易被大眾忽視，卻體量最為龐大的一股力量。

在 2026 年 3 月的 GTC 大會上，NVIDIA CEO 黃仁勛（Jensen Huang）正式宣告“推論時代”（Age of Inference）全面降臨。這意味著，AI 算力的最大消耗端，已經(jīng)從實驗室里的 “模型訓練”，轉(zhuǎn)向現(xiàn)實世界中的 “用戶服務”。

背后的邏輯很簡單：訓練一個頂級大模型，可能需要數(shù)萬張 GPU 連續(xù)運算數(shù)月，這是一項 “一次性工作”；但模型上線后，全球數(shù)億用戶每天用它搜索信息、編寫代碼、進行醫(yī)療診斷與金融分析 —— 這種 “推論” 需求是持續(xù)不斷、永無止境的。

但推論不等于“只用 GPU”。

每一次用戶發(fā)起請求，CPU 都需要承擔大量繁瑣的 “前后端工作”：接收請求、任務排隊、分批處理、組裝提示詞（Prompt）、執(zhí)行 Tokenization（將人類語言轉(zhuǎn)化為模型可識別的碎片），最后將 GPU 的運算結(jié)果格式化，反饋給用戶。

如果說“模型訓練” 是花幾個月建造一座高科技工廠，那么 “推論” 就是工廠 24 小時不間斷接收訂單。工廠運轉(zhuǎn)時，不能只有負責生產(chǎn)的機器人（GPU），更需要大量調(diào)度員、包裝員和品管員（CPU）—— 確保每一張訂單精準、準時交付。

當全球 AI 推論量從 “每天幾百萬次” 飆升至 2026 年的 “每天幾十億次”，CPU 的工作量也隨之呈現(xiàn)指數(shù)級增長。即便單次請求的 CPU 工作量不變，僅 “訂單量” 的爆發(fā)，就足以讓 CPU 成為新的算力瓶頸。

這也正是 AMD CEO 蘇姿豐在 2026 年初強調(diào)的：“我們看到 CPU 需求顯著上升，這是推論需求大幅增長的直接結(jié)果?！?據(jù)多家機構(gòu)預測，2026 年推論算力占 AI 總算力的比例將超過 60%-70%，且仍在加速攀升。

Agentic AI—— 單次請求的 CPU 工作量暴增 5-10 倍

如果說推論時代帶來的是“量” 的爆炸，那么Agentic AI（智能體 AI）就是 “質(zhì)” 的顛覆 —— 它讓單次請求的 CPU 工作量直接提升 5-10 倍。在 ChatGPT 時代，用戶提出一個問題，GPU 運算一次就能給出答案。這是一條單向直線，CPU 僅需承擔少量輔助工作。

但 2026 年的 Agentic AI 完全不同。當你對 AI 說 “幫我規(guī)劃下周東京行程并預訂機票”，AI 不會直接輸出一段文字，而是啟動一個多步驟的 “循環(huán)流程”：規(guī)劃行程（CPU）→ 打開旅游網(wǎng)站比價（CPU 調(diào)用工具）→ 遇到網(wǎng)站報錯，重新嘗試（CPU 邏輯判斷）→ 優(yōu)化行程方案（GPU 推理）→ 填寫機票訂單并驗證（CPU）

在這個復雜循環(huán)中，GPU 僅負責 “思考” 的短短幾毫秒，而50%-90% 的延遲與工作量，都壓在了 CPU 身上。CPU 需要承擔調(diào)用 API、查閱數(shù)據(jù)庫、執(zhí)行代碼、管理記憶狀態(tài)等核心任務。

再用一個比喻理解這一變化：過去，8 臺機器人（GPU）只需要 1 個領(lǐng)班（CPU）—— 機器人接到指令就能獨立完成工作；現(xiàn)在，每臺機器人做完一步，都要回頭詢問領(lǐng)班：“下一步怎么做？”“網(wǎng)頁報錯了怎么辦？”“幫我聯(lián)系航空公司確認座位！”—— 結(jié)果就是領(lǐng)班忙到崩潰，而昂貴的機器人只能在一旁 “發(fā)呆” 等待指令。

為了減少 GPU 閑置，數(shù)據(jù)中心不得不持續(xù)增加 CPU 數(shù)量，這直接改變了 GPU 機架內(nèi)的 CPU:GPU 配比 —— 過去是 1:8，現(xiàn)在飆升至 1:2 甚至 1:1。以 NVIDIA 最新的 Vera Rubin NVL72 機架為例，其內(nèi)置 72 顆 GPU 的同時，配備了高達 36 顆 CPU。

這里需要明確一個關(guān)鍵區(qū)別：推論時代讓“請求數(shù)量變多”，Agentic AI 讓 “單次請求的 CPU 工作量變大”。兩者形成 “乘法效應”，這正是 CPU 需求爆發(fā)遠超華爾街分析師去年預測的核心原因。

RL 訓練與合成數(shù)據(jù) ——AI 的 “練習場”，完全跑在 CPU 上

前兩股力量聚焦于 GPU 機架 “內(nèi)部” 的推論端，而第三股力量則在機架 “外部”—— 由純 CPU 組成的服務器農(nóng)場，開辟了全新的算力戰(zhàn)場。

2025 年底，科技巨頭們遇到了一個新瓶頸：互聯(lián)網(wǎng)上的人類高質(zhì)量文本數(shù)據(jù)，幾乎已被 AI “讀完”。想要實現(xiàn) Agentic 模型的能力突破，AI 不能再依賴 “死記硬背”，必須學會 “自己跟自己練習”—— 這就是強化學習（RL, Reinforcement Learning）與合成數(shù)據(jù)技術(shù)崛起的背景。

過去的大模型預訓練，就像讓 AI “讀完一整座圖書館”。對計算機而言，這個過程的本質(zhì)是文字轉(zhuǎn)數(shù)字，再執(zhí)行超大規(guī)模的加減乘除 —— 這類純數(shù)學任務，是 GPU 的絕對主場。而現(xiàn)在的強化學習，更像教一個學徒修車或訂機票：AI 需要親自 “動手操作”—— 點擊按鈕→驗證結(jié)果→修正錯誤→再次嘗試。

當 AI 練習 “預訂機票” 時，我們需要為它搭建一個虛擬的航空公司網(wǎng)站（環(huán)境模擬器）。這個網(wǎng)站有菜單、按鈕、報錯提示，是一個標準的 “通用軟件”。整個練習過程，充滿了 “如果…… 就……” 的邏輯分支：如果 AI 點錯按鈕，網(wǎng)站要彈出警告；如果網(wǎng)絡中斷，要顯示錯誤代碼。面對這種復雜的邏輯判斷，只會做算術(shù)的 GPU 運轉(zhuǎn)起來慢如烏龜，而擅長 “運行通用軟件” 的 CPU 則如魚得水。

為了讓 AI 快速迭代升級，前沿實驗室不會只搭建一個模擬網(wǎng)站，而是同時開啟 1 萬 - 10 萬個平行的虛擬環(huán)境。這 10 萬個虛擬世界，需要海量 CPU 核心充當 “考場管理員” 與 “裁判”—— 監(jiān)控 AI 的練習過程、評估任務完成度、生成 “成績單”，再將數(shù)據(jù)反饋給 GPU，讓 GPU 更新模型參數(shù)。

我們可以用“運動員與練習場” 的關(guān)系，理解當下的算力分工：GPU 是運動員的 “肌肉”，負責最終的思考與發(fā)力；CPU 是 “練習場與教練”，負責搭建訓練環(huán)境并提供反饋。

過去，運動員只需要看比賽錄像學習（GPU 讀取數(shù)據(jù)），CPU 需求極低；現(xiàn)在，運動員需要下場訓練數(shù)百萬次 —— 沒有足夠的 CPU 搭建練習場，運動員的能力就會停滯不前。這正是 2026 年 OpenAI、xAI、Anthropic 與 Meta 等前沿實驗室，大舉采購純 CPU 服務器搭建 RL 模擬農(nóng)場的原因。SemiAnalysis 在 2026 年 2 月的報告中直言：“前沿 AI 實驗室的 CPU，已經(jīng)不足以支撐 RL 訓練需求?！?而 NVIDIA 推出的 Vera CPU 機架（單機架搭載 256 顆 CPU），正是為了同時運行超過 22500 個并行 RL 環(huán)境而生。

推論需求的指數(shù)級增長、Agentic AI 帶來的單次請求工作量飆升、強化學習所需的海量虛擬練習場 —— 這三股力量在 2026 年完美交匯，將 CPU 從幕后推向了算力舞臺的中央。

既然 CPU 已成算力剛需，那么市場上的主流玩家們，又是如何布局應戰(zhàn)的？為什么 GPU 霸主 NVIDIA 要跨界做 CPU？

CPU 架構(gòu)戰(zhàn)爭——AMD EPYC vs Intel Xeon vs NVIDIA Grace/Vera

當Agentic AI 與強化學習將 CPU 重新推上核心舞臺，你可能會問：“隨便買哪一家的 CPU，不都一樣嗎？”答案是：完全不一樣?，F(xiàn)代數(shù)據(jù)中心的 CPU，早已不是 “主頻越高，性能越強” 的單一維度比拼。AMD EPYC、Intel Xeon 與 NVIDIA Grace/Vera 三大產(chǎn)品線，在指令集、物理架構(gòu)、GPU 協(xié)同方式上，存在著根本性的設計哲學分歧。

要理解當下的 CPU 戰(zhàn)爭，首先要回顧算力產(chǎn)業(yè)最古老的陣營之爭 ——x86 與 ARM 兩大指令集架構(gòu)的對決。

過去幾十年，無論是臺式機、筆記本還是服務器，搭載的幾乎都是 x86 架構(gòu) CPU（采用復雜指令集 CISC）。可以把它看作一把功能強大、兼容萬物的超級瑞士刀。x86 的核心優(yōu)勢，在于無可匹敵的軟件兼容性。過去數(shù)十年間，全球企業(yè)開發(fā)的操作系統(tǒng)、數(shù)據(jù)庫、監(jiān)控工具，幾乎都是基于 x86 架構(gòu)編寫的 —— 直接部署即可運行，無需任何修改。但這份兼容性的代價，是背負了沉重的歷史包袱：x86 架構(gòu)內(nèi)部設計復雜，功耗相對較高。

ARM 架構(gòu)（采用精簡指令集 RISC）的發(fā)展路徑，與 x86 截然不同。它最初是為手機、平板等移動設備設計的，底層哲學是極致省電與高能效比。很長一段時間里，科技圈對 ARM 的認知都是 “省電但性能弱”，認為它只能用于移動設備，登不上服務器的 “大雅之堂”。直到幾年前，蘋果將 Mac 電腦的 Intel x86 芯片，替換為自研的 ARM 架構(gòu) M 系列芯片 —— 這場 “蘋果革命” 徹底顛覆了市場認知：ARM 芯片不僅功耗極低，性能還顯著超越傳統(tǒng) x86 芯片。

蘋果的成功，讓云端巨頭們恍然大悟：ARM 架構(gòu)也能做到高性能。到 2026 年，ARM 已正式殺入數(shù)據(jù)中心市場。不僅 NVIDIA 的 Grace 與 Vera CPU 采用 ARM 架構(gòu)，AWS 的 Graviton、Google 的 Axion、微軟的 Cobalt 等云廠商自研 CPU，也全部基于 ARM 架構(gòu)打造。原因很簡單：在動輒消耗幾十兆瓦電力的 AI 數(shù)據(jù)中心里，ARM 的能效優(yōu)勢極具吸引力 —— 在部分 AI 任務中，NVIDIA Vera 的能效比是 x86 架構(gòu)的 1.5-2 倍。

這一趨勢對投資市場的影響深遠：x86 架構(gòu) 40 年的絕對壟斷被打破。云端巨頭為降低能耗與成本，正加速導入 ARM 架構(gòu)。這也是專注于 “架構(gòu)授權(quán)” 的 ARM Holdings，能在這波浪潮中收獲長期結(jié)構(gòu)性紅利的原因；而 AMD 與 Intel，則需要依靠深厚的 “軟件生態(tài)護城河” 與高核心數(shù)設計，捍衛(wèi)自己的市場份額。

架構(gòu)之外，芯片的物理設計方式，決定了 CPU 能集成多少核心，以及核心之間的協(xié)同效率。當前市場上主要有三種設計路線：AMD 的 Chiplet（芯粒）架構(gòu)、NVIDIA 的 Monolithic（單片）架構(gòu)，以及 Intel 的混合微調(diào)方案。

AMD 的 EPYC 系列 CPU（如 2026 年主力型號 Turin 與 Venice），采用的是 Chiplet 設計。它不追求單塊超大芯片，而是將 CPU 拆解為 8-16 塊 “小芯片（CCD）”，再通過中間的 I/O 芯片，像拼樂高一樣組裝成完整的處理器。其優(yōu)點是生產(chǎn)成本低、芯片良率高，且核心數(shù)可以無限堆疊。這也是 AMD 能輕松推出 192 核甚至 256 核超高核心數(shù)處理器的關(guān)鍵。對于需要同時運行 10 萬個虛擬環(huán)境的 RL 模擬農(nóng)場而言，這種 “人多力量大” 的架構(gòu)堪稱完美。其缺點是芯片之間的通信存在微小延遲，在對時延要求極高的場景下，性能會受到一定影響。

NVIDIA 的 Vera CPU 走了一條完全相反的路線。它是一塊巨大的單一芯片，將 88 個核心全部集成在同一塊晶圓上，沒有拆分也沒有組裝。其優(yōu)點是核心之間的通信幾乎沒有延遲。在 Agentic AI 的推論循環(huán)中，這種超低延遲的均勻網(wǎng)絡，能讓 CPU 與 GPU 的協(xié)同效率達到極致。其缺點是核心數(shù)受限于芯片面積，無法像 Chiplet 架構(gòu)那樣無限擴展（Vera 僅 88 核）；且大尺寸芯片的生產(chǎn)難度高、成本昂貴。

Intel 新一代 Xeon 系列 CPU（如 Clearwater Forest，搭載 288 個能效核），則走了中間路線。它同樣采用多芯片拼接方案，但使用了先進的 EMIB 封裝技術(shù) —— 通過高密度的互連線路，讓拼接后的芯片，在協(xié)同效率上無限接近 “一整塊大石頭”。這項技術(shù)的研發(fā)難度極高，也是 Intel 實現(xiàn)市場翻盤的關(guān)鍵賭注。

三種架構(gòu)的差異，直接決定了市場格局的分化：AMD 的 Chiplet 架構(gòu)，憑借高核心數(shù)與低成本優(yōu)勢，成為 “純 CPU 農(nóng)場” 的絕對霸主；NVIDIA 的 Monolithic 架構(gòu)，則憑借超低延遲的優(yōu)勢，鎖定 “GPU 機架內(nèi)部” 的核心控制節(jié)點。

NVIDIA 的獨門武器：NVLink-C2C

如果僅比拼核心數(shù)與能效，NVIDIA 很難說服客戶放棄 AMD 與 Intel，轉(zhuǎn)而采購自家 CPU。NVIDIA 真正的技術(shù)壁壘，是一項名為NVLink-C2C的硬件互連技術(shù)。在傳統(tǒng)的 AMD 或 Intel 服務器中，CPU 與 GPU 來自不同廠商，兩者通過 PCIe 總線通信。這種連接方式雖然穩(wěn)定，但帶寬有限 —— 當 Agentic AI 需要 CPU 與 GPU 每毫秒都進行高密度數(shù)據(jù)交換時，PCIe 總線就會變成 “擁堵的省道”。

NVIDIA 的解決方案極具顛覆性：將自家 Vera CPU 與 Rubin GPU，直接集成在同一塊基板上（稱為 Superchip 超級芯片），并通過 NVLink-C2C 搭建一條 “私人高鐵”。

這條“高鐵” 的優(yōu)勢體現(xiàn)在兩個維度：

1、速度碾壓：2026 年的 Vera/Rubin 世代，NVLink-C2C 的雙向帶寬高達 1.8TB/s，是傳統(tǒng) PCIe 總線的 7 倍以上；

2、內(nèi)存共享：這是其核心競爭力。通過 NVLink-C2C，GPU 可以直接訪問 CPU 的內(nèi)存資源。AI 模型的龐大上下文數(shù)據(jù)（KV Cache），可以直接存儲在 CPU 的低成本大容量內(nèi)存中，GPU 隨用隨取 —— 完全不需要軟件工程師編寫復雜的數(shù)據(jù)搬運程序。

這是 NVIDIA 最深的硬件護城河。只要客戶的 AI 任務，需要 CPU 與 GPU 進行高頻次、低延遲的協(xié)同（比如前沿的 Agentic AI 推論），就只能選擇 NVIDIA 的 Superchip 方案。在這個 “緊密耦合” 的細分領(lǐng)域，AMD 與 Intel 目前尚無能力提供同級別的硬件支持。

為什么云端巨頭不全部換成 NVIDIA CPU？

讀到這里，可能會產(chǎn)生疑問：“NVIDIA 的 Vera CPU 這么強，為什么云端巨頭不全部切換成 NVIDIA 方案？”

但實際的市場數(shù)據(jù)給出了相反的答案：2026 年，AMD 與 Intel 的服務器 CPU 持續(xù)缺貨；甚至連 NVIDIA 自家的旗艦 AI 服務器（DGX Rubin NVL8），官方默認搭載的也是 Intel Xeon x86 CPU。

背后的原因，主要有四點：

1、核心數(shù)無法滿足需求：如前文所述，RL 模擬農(nóng)場需要的是 “海量并行處理能力”。AMD EPYC 單芯片最高可達 256 核，而 NVIDIA Vera 僅 88 核。對于無需與 GPU 緊密耦合的 “純 CPU 任務”，AMD 的性價比優(yōu)勢顯著。

2、軟件生態(tài)的“路徑依賴”：數(shù)據(jù)中心內(nèi)部，部署著成千上萬的 x86 架構(gòu)軟件 —— 排程系統(tǒng)、數(shù)據(jù)庫、安全工具等。云端巨頭不可能為了一個 AI 項目，將整個基礎設施的底層軟件全部重構(gòu)為 ARM 版本。

3、產(chǎn)能與供應量限制：NVIDIA 的 CPU 產(chǎn)能，受限于臺積電的先進封裝工藝，遠低于 AMD 與 Intel 的規(guī)模。云端巨頭動輒需要數(shù)十萬顆 CPU，NVIDIA 的產(chǎn)能根本無法滿足如此龐大的需求。

4、混合部署才是最優(yōu)解：云端巨頭的策略非常清晰—— 將數(shù)據(jù)中心劃分為兩大板塊：

核心算力區(qū)（GPU 訓練 / 推論機架）：采用 NVIDIA Superchip 方案（Vera CPU + GPU），享受 NVLink-C2C 的超低延遲協(xié)同優(yōu)勢；
外圍支援區(qū)（純 CPU 農(nóng)場）：大規(guī)模采購 AMD EPYC 與 Intel Xeon，承擔 RL 模擬、合成數(shù)據(jù)生成、傳統(tǒng)軟件排程等任務。

這意味著，當前的 CPU 市場并非 “零和博弈”，而是整體規(guī)模（TAM）持續(xù)擴張的增量市場。

Agentic AI 創(chuàng)造了兩種截然不同的 CPU 需求：一種是 “與 GPU 緊密耦合的低延遲控制核心”（NVIDIA 主導），另一種是 “外圍支撐的高核心數(shù)并行算力”（AMD/Intel 主導）。這正是 NVIDIA 推出自研 CPU 后，AMD EPYC 依然能在 2026 年賣到缺貨并漲價的核心邏輯。

至此，已經(jīng)勾勒出清晰的 CPU 市場版圖：NVIDIA 的 Vera 憑借 NVLink-C2C 技術(shù)，鎖定 GPU 機架內(nèi)部的 “控制核心”；AMD 的 EPYC 依靠 Chiplet 架構(gòu)的高核心數(shù)優(yōu)勢，統(tǒng)治外圍的純 CPU 市場；Intel 的 Xeon 則憑借 x86 生態(tài)的深厚根基與七成的市場裝機量，在傳統(tǒng)企業(yè)級市場與混合部署場景中，扮演著不可替代的角色。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認同，如有異議，請聯(lián)系后臺。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.