国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

PCIe、NVLink、CXL……誰才是芯片互聯(lián)界的“真·海王”?

0
分享至

1. 痛點開頭:算力堆得越多,卡在哪?

單顆芯片再猛,也是個孤狼。

真正決定系統(tǒng)性能天花板的,是這群“狼”能不能組隊開黑。

這就是所謂的“互聯(lián)墻”(Interconnect Wall)。翻譯成人話就是:芯片之間連得爽不爽,比你芯片自己厲不厲害,更重要。

現(xiàn)在的局面是,搞互聯(lián)的這幫人,已經(jīng)卷出了新高度。什么PCIe、NVLink、CXL、UALink……各種協(xié)議滿天飛,各家都說自己是“真·海王”,能同時伺候好一群芯片。

今天,咱們就來扒一扒。

2. 傳統(tǒng)基石:PCIe的演進和天生瓶頸

PCIe是現(xiàn)在最通用的互聯(lián)標準,這么多年一直是CPU和各種加速器之間通信的骨干。


但現(xiàn)在GPU算力和顯存帶寬漲得太快,PCIe已經(jīng)有點跟不上了。

先給大家看一下PCIe這些年的帶寬升級,變化非常直觀:

PCIe版本

單通道速率 (GT/s)

x16雙向帶寬 (GB/s)

編碼方式/信號技術

PCIe 3.0

8

31.5

128b/130b (NRZ)

PCIe 4.0

16

63.0

128b/130b (NRZ)

PCIe 5.0

32

128b/130b (NRZ)

PCIe 6.0

64

1b/1b (PAM4 + FLIT)

PCIe 7.0

128

1b/1b (PAM4 + FLIT)

PCIe 6.0其實已經(jīng)做了大升級,用了PAM4四電平脈沖幅度調(diào)制,不用提高鏈路頻率就能把帶寬翻一倍,已經(jīng)盡力了。

但問題出在架構設計上。PCIe用的是樹形層次拓撲,還是非一致性的存儲模型,優(yōu)勢是兼容性好通用性強,但多GPU協(xié)同的時候,跨芯片交換數(shù)據(jù)大多要繞CPU中轉,或者靠軟件管理DMA,不僅軟件開銷大,延遲也降不下去。

更關鍵的是,PCIe在硬件層面原生不支持緩存一致性。

什么意思?簡單說就是不同芯片沒法直接共享同一個內(nèi)存地址空間,要同步數(shù)據(jù)就得程序員手動控制緩存刷新,不僅寫代碼變復雜,還白白浪費了很多計算周期。

這個瓶頸,在訓練萬億參數(shù)大模型的時候尤其明顯——頻繁更新權重、同步梯度對帶寬和一致性要求太高了,PCIe頂不住。

3. 私有標桿:NVIDIA NVLink的閉環(huán)優(yōu)勢

為了繞開PCIe的問題,NVIDIA做了自己的私有互聯(lián)協(xié)議NVLink,現(xiàn)在是行業(yè)性能標桿。

NVLink的設計思路很直接:繞開PCIe的層級結構,直接給GPU之間、GPU和兼容CPU之間做點對點的直連通道。


從2016年推出到現(xiàn)在,基本每代帶寬都翻一倍,升級路線很清晰:

NVLink版本

對應架構

每GPU總帶寬 (GB/s, 雙向)

最大擴展規(guī)模

NVLink 1.0

Pascal (P100)

160

8 GPUs

NVLink 2.0

Volta (V100)

300

16 GPUs

NVLink 3.0

Ampere (A100)

600

16-32 GPUs

NVLink 4.0

Hopper (H100)

900

256 GPUs

NVLink 5.0

Blackwell (B200)

1,800

576 GPUs

NVLink 6.0

Rubin

3,600

576+ GPUs

NVLink能做這么強,不只是物理層帶寬高,配套的NVSwitch芯片是關鍵。NVSwitch相當于GPU之間的全連接交換機,服務器里所有GPU都能全速無阻塞互相通信。

現(xiàn)在Blackwell架構用第五代NVLink加第三代NVSwitch,能拼出576個GPU的超級計算集群,整個機架總帶寬能到130TB/s,這個性能現(xiàn)在沒人能比。

后來推出的NVLink-C2C還把這個優(yōu)勢擴展到了CPU和GPU之間,能做到900GB/s的超低延遲一致性連接,GPU能直接用CPU的系統(tǒng)內(nèi)存,正好緩解了HBM顯存容量不夠的問題。

從軟件層面看,NVLink底層直接支持硬件級的內(nèi)存語義,包括直接讀寫和原子操作。開發(fā)者用CUDA編程的時候,訪問別的GPU顯存就像訪問自己本地顯存一樣,效率提升非常明顯。

但缺點也很明顯:封閉生態(tài)帶來廠商鎖定,別的廠商用不了,所以整個行業(yè)都在找開放的替代方案。

4. 開放統(tǒng)一:CXL怎么對抗封閉生態(tài)?

為了打破NVIDIA的壟斷,Intel牽頭拉著AMD、ARM這些廠商搞了CXL開放標準,現(xiàn)在已經(jīng)成了業(yè)界主流的開放方案。

CXL的設計很聰明,它直接復用現(xiàn)有的PCIe物理層和電氣標準,只在上面重新做了三套專門針對低延遲一致性優(yōu)化的協(xié)議棧,不用徹底推翻現(xiàn)有產(chǎn)業(yè)鏈就能升級。

CXL根據(jù)設備類型,分了三個協(xié)議子集,動態(tài)啟用:

CXL.io:基于PCIe改的,用來做設備發(fā)現(xiàn)、初始化、配置,還有非一致性數(shù)據(jù)傳輸,是所有CXL設備都必須支持的基礎。

CXL.cache:讓加速器能用低延遲緩存主機的系統(tǒng)內(nèi)存,適合做細粒度的指令級協(xié)作,SmartNIC和近內(nèi)存計算設備用得最多。

CXL.mem:讓主機CPU能用標準讀寫指令訪問加速器自帶的內(nèi)存,是實現(xiàn)內(nèi)存池化、內(nèi)存分解的核心基礎。

按支持的協(xié)議組合,CXL設備又分成三類:

Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多沒有本地大容量內(nèi)存,靠訪問主機內(nèi)存工作。

Type 2是通用加速器,比如GPU、FPGA,三個協(xié)議全都支持,既能訪問主機內(nèi)存,也能讓主機訪問自己本地的HBM,能拼出完全對稱的一致性空間。

Type 3是內(nèi)存擴展器,只用CXL.io和CXL.mem,就是給系統(tǒng)額外加DRAM或者持久化內(nèi)存,解決數(shù)據(jù)中心內(nèi)存閑置、帶寬不夠的問題。

最新的CXL 3.1已經(jīng)支持基于端口的路由和多層交換,能把互聯(lián)范圍從機架內(nèi)擴展到整個數(shù)據(jù)中心,理論上能支持幾千個節(jié)點共享同一個內(nèi)存池。這種內(nèi)存池化能力,現(xiàn)在被認為是能降低數(shù)據(jù)中心總體擁有成本的革命性技術。

5. 各家方案:不止NVLink和CXL,還有這些選擇

除了上面兩個最主流的,AMD、華為、Intel都有自己的方案,各有各的思路。

AMD Infinity Fabric

AMD給Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高點對點帶寬,還能和自己的CPU架構深度集成。

現(xiàn)在的MI300X,每顆芯片帶7條Infinity Fabric鏈路,每條能提供128GB/s的雙向帶寬,支持8顆GPU用環(huán)形或者網(wǎng)格拓撲互聯(lián)。

而MI300A作為全球首款AI+HPC用的APU,單芯片封裝里直接集成了Zen 4 CPU和CDNA 3 GPU,這些核心通過片內(nèi)Infinity Fabric直接共享同一組HBM3顯存,徹底省掉了CPU和GPU之間數(shù)據(jù)拷貝的延遲,F(xiàn)P64矩陣運算理論峰值能到122.6TFLOPS,性能非常強。

華為HCCS和下一代UB架構

華為升騰芯片用的是自研的HCCS緩存一致性系統(tǒng)做卡間互聯(lián),升騰910單顆芯片就有3條HCCS鏈路,總帶寬最高能到90GB/s,用環(huán)形拓撲能把4顆或者8顆加速器拼成一個緊密協(xié)作的計算節(jié)點。

在2025年的Hot Chips大會上,華為公布了下一代互聯(lián)技術:統(tǒng)一總線UB,目標是把CPU、NPU、內(nèi)存、網(wǎng)絡接口的協(xié)議統(tǒng)一,省掉傳統(tǒng)協(xié)議轉換帶來的延遲。針對超大規(guī)模集群,還做了UB-Mesh拓撲,是一種分層的局部全連接網(wǎng)絡。


這個架構專門利用了大模型訓練里數(shù)據(jù)有局部性的特點,能做到比傳統(tǒng)網(wǎng)絡高100倍的帶寬,還能通過非線性成本控制大幅降低互聯(lián)開銷。目標是拼出支持百萬顆芯片協(xié)同的超級節(jié)點,還專門在光學鏈路上做了自動重試,解決光互聯(lián)誤碼率高的問題。

6. 開放聯(lián)盟:UALink要挑戰(zhàn)NVLink壟斷

2024年AMD、Intel、谷歌、微軟這些巨頭湊在一起搞了UALink聯(lián)盟,推出了開放的Ultra Accelerator Link協(xié)議,就是沖著打破NVIDIA壟斷來的。

UALink 1.0的目標就是做一個開放、高性能、低延遲的擴展互聯(lián)標準,復用以太網(wǎng)的物理層,但重新設計了上層協(xié)議,支持加速器之間直接讀寫內(nèi)存。

我們直接對比一下NVLink 5.0:

指標

UALink 1.0 (2025)

NVLink 5.0 (Blackwell)

每通道速率

200 GT/s

約 224 Gbps

單端口帶寬 (x4)

800 Gbps

1.8 TB/s (每GPU總和)

最大集群規(guī)模

1,024 節(jié)點

576 節(jié)點

往返延遲

< 1 微秒

極低 (私有優(yōu)化)

生態(tài)開放度

完全開放標準

封閉私有

UALink 2.0已經(jīng)開始規(guī)劃網(wǎng)內(nèi)計算技術,目的是減少加速器之間調(diào)度任務的控制消息,把更多帶寬留給實際數(shù)據(jù)傳輸。

雖然量產(chǎn)進度比NVLink慢,但有整個行業(yè)背書,未來肯定是大規(guī)模AI集群的一個重要選項

8. 底層基礎:先進封裝和芯;ヂ(lián)標準

現(xiàn)在芯粒技術越來越成熟,芯片互聯(lián)已經(jīng)不只是電路板上的事,已經(jīng)延伸到封裝內(nèi)部了,封裝技術本身就決定了物理層互聯(lián)的密度和能效比。

現(xiàn)在主流先進封裝主要兩個路線:

技術

開發(fā)商

結構特點

相對成本

主要應用

CoWoS-S

TSMC

全尺寸硅中介層 (Silicon Interposer)

1.0x

NVIDIA H100, AMD MI300

CoWoS-L

TSMC

有機基板 + 局部硅橋 (LSI Bridge)

1.2x

NVIDIA Blackwell (超大封裝)

EMIB

Intel

嵌入式多芯片互聯(lián)橋

0.7x - 0.9x

Intel Xeon, 加速器, ASIC

臺積電的CoWoS現(xiàn)在占市場主導,但產(chǎn)能不夠,成本還高——硅中介層經(jīng)常要占封裝總成本的一半以上。Intel的EMIB只在需要的地方嵌硅橋,省硅料,成本能降30%到40%,散熱和尺寸擴展性還更好,各有優(yōu)勢。

要讓不同廠商的芯粒能拼在一起用,就得有通用的互聯(lián)標準,所以Intel、AMD、NVIDIA、臺積電、三星這些廠商一起搞了UCIe通用芯粒互聯(lián)標準。

UCIe基于CXL和PCIe的協(xié)議層,但物理層做得非常精簡,每比特能耗只有0.25到0.5pJ,比傳統(tǒng)的PCIe這類封裝外互聯(lián)低一個數(shù)量級。


先進封裝下,UCIe 1.0能做到1.35TB/s/mm2的帶寬密度,后續(xù)的2.0、3.0版本已經(jīng)把速率提到了48GT/s和64GT/s,還支持3D堆疊封裝,以后AI芯片能在單封裝里集成更多計算核心和HBM堆棧。

9. 趨勢總結:互聯(lián)已經(jīng)變成核心戰(zhàn)略資源

現(xiàn)在異構計算的互聯(lián)方案,已經(jīng)呈現(xiàn)出幾個非常明確的趨勢:

第一,硬件一致性是準入門檻。不管是開放的CXL還是私有的NVLink-C2C,要做深度融合的異構系統(tǒng),硬件級緩存一致性已經(jīng)是必須的,沒有這個就做不了細粒度并行。

第二,以太網(wǎng)化和開放標準化是大方向。集群規(guī)模越來越大,要做到百萬卡級別,用以太網(wǎng)物理層做低成本擴展已經(jīng)擋不住了,UALink這類開放標準起來之后,專有協(xié)議的市場空間會越來越受挑戰(zhàn)。

第三,光互聯(lián)很快就要落地。銅纜超過2到4米信號衰減就扛不住了,硅光子和共封裝光學已經(jīng)從實驗室走向數(shù)據(jù)中心,現(xiàn)在華為等廠商已經(jīng)開始在協(xié)議層做文章,解決光模塊誤碼率高的問題。

第四,封裝本身就是網(wǎng)絡。UCIe正在把整個封裝變成一個低延遲高速網(wǎng)絡,大芯片能通過芯粒拼接突破制造極限,以后會越來越普及。

總的來說,現(xiàn)在異構芯片的互聯(lián)早就不是單純的接插件了,已經(jīng)變成整個系統(tǒng)架構里最重要的戰(zhàn)略資源。

選什么互聯(lián)方案,不只是看帶寬數(shù)字,還要看軟件生態(tài)成熟度、集群可擴展性,還有長期的總體擁有成本。

未來的計算系統(tǒng),不會再有明確的處理器和存儲器的邊界,最后就是一張用高速低功耗互聯(lián)織出來的巨大計算網(wǎng)絡。

對于想做異構算力的團隊來說,早點摸清楚不同互聯(lián)方案的優(yōu)缺點,選對路線比單純堆算力重要得多。

海王的終極形態(tài),是讓你沒得選。

寫了這么多,劃個重點:

PCIe:公交車,哪都能去,但慢。適合當“備用方案”和“控制通道”。

NVLink:私人飛機,巨快,但貴且封閉。老黃的護城河。

CXL:共享單車+月老,想撮合所有芯片搞內(nèi)存池化。理想很大,但受限于物理層。

UALink:巨頭們組隊干NVLink的產(chǎn)物。紙面很強,等落地。

UCIe:封裝內(nèi)的膠水,讓芯粒像樂高一樣拼。未來所有超大芯片的標配。

光互聯(lián):終極解決方案。等成本降下來,銅線就可以退休了。

趨勢也很明顯:一致性、以太網(wǎng)化、標準化、光進銅退。

未來的計算系統(tǒng),不會再是“CPU在這里,GPU在那里,內(nèi)存在那一邊”。而是一個由高速互聯(lián)織成的巨大網(wǎng)絡,計算、存儲、通信的邊界全部模糊掉。

從“計算為王”,到“互聯(lián)為王”。

時代變了。

文章來源于歪睿老哥,作者歪睿老哥

技術大會報名倒計時(免費午餐)

224G SerDes|GAN|FPGA|AI信號處理等


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
悲劇還是發(fā)生了!近日,安徽一女子同房后,肚子很疼,黃體破裂!

悲劇還是發(fā)生了!近日,安徽一女子同房后,肚子很疼,黃體破裂!

川渝視覺
2026-04-18 21:37:48
大學生扶老人被訛85萬賣房還債,畢業(yè)典禮上老人突然現(xiàn)身,破防了

大學生扶老人被訛85萬賣房還債,畢業(yè)典禮上老人突然現(xiàn)身,破防了

優(yōu)墨出品
2026-04-19 09:41:09
何潤東回應亮相“蘇超”為何不騎馬

何潤東回應亮相“蘇超”為何不騎馬

泗洪風情
2026-04-19 18:13:08
臉沒恢復就先不要出來演戲了,面部僵硬和饅化,看得觀眾好難受

臉沒恢復就先不要出來演戲了,面部僵硬和饅化,看得觀眾好難受

上官晚安
2026-04-19 07:58:25
英媒:丁俊暉在32強中墊底!央媒:丁俊暉練習賽車提升擊球精準度

英媒:丁俊暉在32強中墊底!央媒:丁俊暉練習賽車提升擊球精準度

求球不落諦
2026-04-19 00:21:51
大膽的預測,美國這次脫不了身了。

大膽的預測,美國這次脫不了身了。

阿七說史
2026-04-15 16:11:17
北郵附近的餃子館,在 GitHub 上開源了自己的 Skill。。。

北郵附近的餃子館,在 GitHub 上開源了自己的 Skill。。。

新浪財經(jīng)
2026-04-19 16:00:37
馬筱梅不再隱忍,吐槽保姆又埋汰汪小菲,小楊阿姨先吃下一個馬威

馬筱梅不再隱忍,吐槽保姆又埋汰汪小菲,小楊阿姨先吃下一個馬威

君笙的拂兮
2026-04-18 22:14:59
中甲積分榜:無錫吳鉤落敗,廣州豹登頂,石家莊功夫被逆轉絕殺

中甲積分榜:無錫吳鉤落敗,廣州豹登頂,石家莊功夫被逆轉絕殺

足球狗說
2026-04-19 21:31:02
中科院院長正式宣布!已完成這項技術突破,反超3倍碾壓美國

中科院院長正式宣布!已完成這項技術突破,反超3倍碾壓美國

觸摸史跡
2026-04-18 17:30:00
麥當娜的風流往事:他的欲望太強,讓她疲憊不堪又欲罷不能

麥當娜的風流往事:他的欲望太強,讓她疲憊不堪又欲罷不能

錢小刀娛樂
2026-04-17 11:24:32
湖人隊肯納德在G1勝利后:作為一名射手,你知道什么時候感覺對了

湖人隊肯納德在G1勝利后:作為一名射手,你知道什么時候感覺對了

好火子
2026-04-19 21:08:32
詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

懂球帝
2026-04-19 12:31:08
下周二晚!油價即將大跌!

下周二晚!油價即將大跌!

huaibei8
2026-04-18 21:56:57
日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

談史論天地
2026-04-19 13:52:15
“莫氏雞煲”回應開分店:正規(guī)劃,老板稱將休息一天:真干不動了,大家不要過來了

“莫氏雞煲”回應開分店:正規(guī)劃,老板稱將休息一天:真干不動了,大家不要過來了

19樓
2026-04-19 21:35:47
弗格森也做不到!曼聯(lián)打破英超紀錄,切爾西有望掉出前十

弗格森也做不到!曼聯(lián)打破英超紀錄,切爾西有望掉出前十

嗨皮看球
2026-04-19 16:52:48
楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

羅說NBA
2026-04-19 08:42:47
全程高能!黃仁勛在播客里跟人吵了一架

全程高能!黃仁勛在播客里跟人吵了一架

草莓解說體育
2026-04-19 11:53:48
管澤元口無遮攔 “大高個就得玩女明星”引爆輿論

管澤元口無遮攔 “大高個就得玩女明星”引爆輿論

游民星空
2026-04-17 23:03:56
2026-04-19 22:15:00
EETOP半導體社區(qū) incentive-icons
EETOP半導體社區(qū)
國內(nèi)著名的電子工程師社區(qū)
7488文章數(shù) 15648關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

印度當晚召見伊朗大使抗議兩船只遭開火襲擊 伊朗回應

頭條要聞

印度當晚召見伊朗大使抗議兩船只遭開火襲擊 伊朗回應

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

張?zhí)鞇墼u論區(qū)淪陷!被曝卷入小三風波

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
游戲
藝術
數(shù)碼
家居

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

《英雄聯(lián)盟》重大更新:終于支持手柄了!

藝術要聞

俄羅斯畫家季莫申科 小幅風景油畫寫生(二)

數(shù)碼要聞

何剛曬華為WATCH FIT 5 Pro手表真機,明日亮相

家居要聞

法式線條 時光靜淌

無障礙瀏覽 進入關懷版