四萬字全景解讀CPO技術(shù)演進(jìn)、產(chǎn)業(yè)生態(tài)與未來展望

2026-01-04 14:21:34　來源: 線纜行業(yè)朋友分享圈

廣東舉報

分享至

聲明：本文轉(zhuǎn)載自semianalysis，一切版權(quán)歸他們所有，本文僅供參考。

共封裝光器件 (CPO) 長期以來一直被寄予厚望，有望改變數(shù)據(jù)中心的連接方式，但這項(xiàng)技術(shù)走向市場卻歷經(jīng)漫長過程，真正可部署的產(chǎn)品要到 2025 年才能面世。與此同時，可插拔收發(fā)器憑借其相對較低的成本效益、易于部署以及基于標(biāo)準(zhǔn)的互操作性，一直緊跟網(wǎng)絡(luò)需求，并保持著默認(rèn)的選擇。

然而，人工智能工作負(fù)載帶來的高網(wǎng)絡(luò)需求意味著這次的情況有所不同。人工智能網(wǎng)絡(luò)帶寬的發(fā)展路線圖表明，互連速度、范圍、密度和可靠性要求很快就會超過收發(fā)器所能提供的水平。CPO 將帶來一些好處，并為橫向擴(kuò)展網(wǎng)絡(luò)提供更多選擇，但它對于縱向擴(kuò)展網(wǎng)絡(luò)至關(guān)重要。在未來十年后半段及以后，CPO 將成為縱向擴(kuò)展網(wǎng)絡(luò)帶寬增長的主要驅(qū)動力。

當(dāng)今基于銅纜的擴(kuò)展解決方案，例如 NVLink，每個 GPU 可提供高達(dá) 7.2 Tbit/s 的帶寬——在 Rubin 架構(gòu)中，每個 GPU 的帶寬將達(dá)到 14.4 Tbit/s。然而，銅纜鏈路的有效距離最多只有兩米，這意味著擴(kuò)展規(guī)模最多只能覆蓋一到兩個機(jī)架。此外，通過銅纜擴(kuò)展帶寬也越來越困難。在 Rubin 架構(gòu)中，NVIDIA 將通過雙向 SerDes 將每個銅纜通道的帶寬再次翻倍，但通過開發(fā)速度更快的 SerDes 來實(shí)現(xiàn)銅纜帶寬翻倍是一個極具挑戰(zhàn)性的擴(kuò)展方向，進(jìn)展緩慢。CPO架構(gòu)可以提供相同甚至更高的帶寬密度，并提供更多擴(kuò)展帶寬的途徑，同時還能支持更大的擴(kuò)展規(guī)模。

要理解CPO的推動作用，首先要考慮使用收發(fā)器進(jìn)行光通信時存在的諸多效率低下和權(quán)衡取舍。收發(fā)器可以實(shí)現(xiàn)更遠(yuǎn)的鏈路距離，但網(wǎng)絡(luò)交換機(jī)或計(jì)算托架前面板上用于插入收發(fā)器的接口通常距離XPU或交換機(jī)ASIC僅15-30厘米。這意味著信號必須先通過LR SerDes進(jìn)行電信號傳輸，經(jīng)過這15-30厘米的距離后，再由收發(fā)器內(nèi)部的數(shù)字信號處理器（DSP）對電信號進(jìn)行恢復(fù)和處理，最后轉(zhuǎn)換為光信號。而CPO則將光引擎放置在XPU或交換機(jī)ASIC旁邊，這意味著可以省去DSP，并且可以使用低功耗的SerDes將數(shù)據(jù)從XPU傳輸?shù)焦庖�。與DSP收發(fā)器相比，這可以將數(shù)據(jù)傳輸所需的能量降低50%以上——許多廠商的目標(biāo)是將每比特的能耗降低高達(dá)80%。

盡管英偉達(dá)和博通等公司的橫向擴(kuò)展CPO解決方案越來越受到關(guān)注，并受到終端客戶的密切關(guān)注，但大型超大規(guī)模數(shù)據(jù)中心運(yùn)營商已經(jīng)開始規(guī)劃其縱向擴(kuò)展CPO戰(zhàn)略，并與供應(yīng)商達(dá)成合作。例如，Celestial AI預(yù)計(jì)到2028年底，其年化收入將達(dá)到10億美元——我們認(rèn)為這主要得益于其基于亞馬遜Trainium 4平臺的縱向擴(kuò)展CPO解決方案。

專注于CPO的公司如今已不再局限于論文、試點(diǎn)項(xiàng)目和演示，而是正在制定關(guān)鍵的產(chǎn)品決策，例如光端口架構(gòu)，以解決大規(guī)模生產(chǎn)的問題。對于規(guī)�；a(chǎn)而言，CPO 的問題不再是是否以及為何，而是何時以及如何——如何將這些系統(tǒng)投入批量生產(chǎn)，以及激光器制造商等關(guān)鍵零部件供應(yīng)鏈公司何時能夠提高產(chǎn)能。

本文將深入探討CPO的優(yōu)勢和挑戰(zhàn)、CPO 架構(gòu)的工作原理、當(dāng)前和未來的 CPO 產(chǎn)品、專注于 CPO 的公司、CPO 相關(guān)組件及其各自的供應(yīng)鏈。本文旨在為從業(yè)人員、行業(yè)分析師、投資者以及所有對互連技術(shù)感興趣的人士提供指導(dǎo)。

本文目錄及閱讀指南：

我們將文章分為五個部分——讀者可以根據(jù)自己的興趣或感受選擇閱讀部分。

在第一部分：CPO 總擁有成本 (TCO) 分析中，我們首先分析采用 CPO 如何改變橫向擴(kuò)展和縱向擴(kuò)展網(wǎng)絡(luò)的總擁有成本。我們認(rèn)為，總擁有成本、可靠性和設(shè)備供應(yīng)商的議價能力將是橫向擴(kuò)展網(wǎng)絡(luò)中采用 CPO 的主要考慮因素。我們將探討 CPO 在橫向擴(kuò)展領(lǐng)域是否已成熟，并提及我們目前掌握的解決方案可靠性數(shù)據(jù)，例如Meta 在 ECOC 2025 上發(fā)布的 CPO 橫向擴(kuò)展交換機(jī)研究。

在第二部分：CPO 簡介與實(shí)現(xiàn)中，我們將深入探討 CPO 的工作原理。本部分將探討市場從銅到共封裝銅、從數(shù)字信號處理器 (DSP) 光器件到線性可插拔光器件 (LPO) 再到 CPO 的演變歷程，以及采用 CPO 的動力和理由。此外，我們還將討論SerDes 的擴(kuò)展極限以及作為 SerDes 替代方案的 Wide I/O （尤其是在與 CPO 結(jié)合使用時）。

在第三部分“CPO市場化”中，我們將介紹推動CPO獲得市場認(rèn)可并最終推向市場的關(guān)鍵技術(shù)。首先，我們將討論主機(jī)和光引擎封裝，并詳細(xì)解釋臺積電COUPE封裝及其為何成為首選集成方案。我們將深入探討光纖連接單元（FAU）、光纖耦合以及邊緣耦合與光柵耦合器的區(qū)別。此外，我們還將介紹馬赫-曾德爾調(diào)制器（MZM）、微環(huán)調(diào)制器（MRM）和電吸收調(diào)制器（EAM）等調(diào)制器類型。本部分最后將闡述CPO被廣泛采用的核心原因——利用CPO擴(kuò)展帶寬的多種途徑：連接更多光纖、采用波分復(fù)用（WDM）以及更高階的調(diào)制。

在第四部分“CPO產(chǎn)品現(xiàn)狀與展望”中，我們將分析目前市場上的CPO產(chǎn)品及其相關(guān)供應(yīng) 鏈。我們將首先介紹英偉達(dá)和博通的解決方案，然后再討論主要的CPO公司。我們將涵蓋Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus和Scintil，詳細(xì)介紹每家供應(yīng)商的解決方案，并分析每家公司方案中的重要優(yōu)缺點(diǎn)。

CPO 總擁有成本 (TCO) 分析

在今年早些時候舉行的英偉達(dá)GTC 2025大會上，最受矚目的議題之一是Jensen宣布公司首款支持CPO的橫向擴(kuò)展網(wǎng)絡(luò)交換機(jī)。值得注意的是，在縱向擴(kuò)展（ scale-up）方面，英偉達(dá)仍然堅(jiān)持使用銅纜，并竭盡全力避免采用光纖，即便到2027年和2028年也是如此。

讓我們首先討論這些新型 CPO 交換機(jī)的總擁有成本，分析橫向擴(kuò)展 CPO 可以帶來的成本和節(jié)能效益。

英偉達(dá)在 GTC 2025 主題演講中發(fā)布了三款不同的 CPO 橫向擴(kuò)展交換機(jī)，它們采用了兩種不同的 CPO 交換機(jī) ASIC。雖然這些交換機(jī)在總體擁有成本 (TCO)、功耗和部署速度方面具有優(yōu)勢，但這些優(yōu)勢并不足以促使客戶立即轉(zhuǎn)向完全不同的部署模式，因此我們預(yù)計(jì)首批 CPO 橫向擴(kuò)展（scale-out）交換機(jī)的市場應(yīng)用將十分有限。讓我們來分析一下原因。

典型的AI集群網(wǎng)絡(luò)配置和總擁有成本

典型的AI集群包含三個主要網(wǎng)絡(luò)架構(gòu)：后端、前端和帶外管理架構(gòu)（out of band management fabric）。后端網(wǎng)絡(luò)架構(gòu)是利用率最高、技術(shù)要求也最高的網(wǎng)絡(luò)架構(gòu)。后端網(wǎng)絡(luò)架構(gòu)用于GPU之間的橫向擴(kuò)展通信，使GPU能夠相互通信并在集體操作中交換數(shù)據(jù)，從而實(shí)現(xiàn)訓(xùn)練和推理的并行化。后端網(wǎng)絡(luò)通常使用InfiniBand或以太網(wǎng)協(xié)議。

由于后端網(wǎng)絡(luò)對性能要求極高，因此其在總網(wǎng)絡(luò)成本和功耗中占據(jù)主導(dǎo)地位。對于部署在 InfiniBand 網(wǎng)絡(luò)上、采用 Nvidia X800-Q3400 后端交換機(jī)的三層 GB300 NVL72 集群而言，后端網(wǎng)絡(luò)成本占比高達(dá) 85%，功耗占比更是高達(dá) 86%。基于 CPO 的交換機(jī)和網(wǎng)絡(luò)解決方案可用于后端和前端網(wǎng)絡(luò)，但我們認(rèn)為現(xiàn)階段的部署重點(diǎn)將放在后端網(wǎng)絡(luò)。

從宏觀角度來看，網(wǎng)絡(luò)成本是僅次于AI服務(wù)器本身的AI集群總成本的第二大組成部分。在采用三層InfiniBand網(wǎng)絡(luò)的GB300 NVL72集群中，網(wǎng)絡(luò)成本占集群總成本的15%，而對于四層網(wǎng)絡(luò)，這一比例則高達(dá)18%。光收發(fā)器是這部分成本的重要組成部分，在使用相對昂貴的Nvidia LinkX收發(fā)器時，三層網(wǎng)絡(luò)光收發(fā)器成本占總成本的60%。此外，它們還消耗三層網(wǎng)絡(luò)總功耗的45%。

AI集群中GPU數(shù)量越多，所需的網(wǎng)絡(luò)層數(shù)就越多。從兩層網(wǎng)絡(luò)擴(kuò)展到三層甚至更多層網(wǎng)絡(luò)，意味著更高的成本和更大的功耗預(yù)算。CPO既可以在保持網(wǎng)絡(luò)層數(shù)不變的情況下幫助降低功耗和成本，也可以通過增加給定層數(shù)網(wǎng)絡(luò)中可連接的GPU數(shù)量來降低總功耗和成本需求。

CPO橫向擴(kuò)展功耗預(yù)算

今年早些時候，在 GTC 2025 大會上，英偉達(dá) CEO 黃仁勛強(qiáng)調(diào)，光收發(fā)器本身巨大的功耗是推動 CPO 的關(guān)鍵因素。根據(jù)上表中的機(jī)架功耗預(yù)算，一個部署在三層網(wǎng)絡(luò)上的 20 萬 GB300 NVL72（每個機(jī)架 72 個 GPU 封裝和 144 個計(jì)算芯片）GPU 集群將消耗 435 兆瓦的關(guān)鍵 IT 電源，其中僅光收發(fā)器就消耗了 17 兆瓦。顯然，通過減少大部分光收發(fā)器組件，可以節(jié)省大量電力。

通過比較單個 800G DSP 收發(fā)器的功耗與 CPO 系統(tǒng)中光引擎和激光源（每 800G 帶寬）的功耗，這一點(diǎn)很容易看出。雖然一個 800G DR4 光收發(fā)器的功耗約為 16-17W，但我們估計(jì)，Nvidia Q3450 CPO 交換機(jī)中使用的光引擎和外部激光源每 800G 帶寬的功耗約為 4-5W，功耗降低了 73%。

這些數(shù)據(jù)與 Meta 在 ECOC 2025 上發(fā)表的論文中提出的數(shù)據(jù)非常接近。在該報告中，Meta 展示了 800G 2xFR4 可插拔收發(fā)器消耗約 15W 的功率，而 Broadcom Bailly 51.2T CPO 交換機(jī)中的光引擎和激光源每提供 800G 帶寬消耗約 5.4W 的功率，節(jié)能 65%。

讓我們將分析擴(kuò)展到集群層面。以基于三層網(wǎng)絡(luò)的 GB300 NVL72 集群為例，我們發(fā)現(xiàn)，后端網(wǎng)絡(luò)從 DSP 收發(fā)器切換到 LPO 收發(fā)器，可以將總收發(fā)器功耗降低 36%，總網(wǎng)絡(luò)功耗降低 16%。完全過渡到 CPO 相比 DSP 光模塊，節(jié)能效果更為顯著——收發(fā)器功耗降低 84%——盡管部分節(jié)能效果會被交換機(jī)中新增的光引擎 (OE) 和外部光源 (ELS) 所抵消，這些組件的總功耗增加了 23%。在下面的示例中，CPO 方案下每個服務(wù)器的光收發(fā)器功耗仍然保持在 1000W，因?yàn)槲覀兗僭O(shè)前端網(wǎng)絡(luò)仍然使用 DSP 收發(fā)器。

使用英偉達(dá)的CPO橫向擴(kuò)展交換機(jī)意味著默認(rèn)（default）使用高基數(shù)網(wǎng)絡(luò)，但最終用戶并不會感受到這一點(diǎn)，因?yàn)槎丝谇袚Q發(fā)生在交換機(jī)內(nèi)部，而使用非CPO高基數(shù)（high radix ）交換機(jī)時則需要通過配線架或八爪魚線纜在交換機(jī)外部進(jìn)行。這些英偉達(dá)CPO交換機(jī)的優(yōu)勢在于擁有極高的端口數(shù)量——例如，Quantum 3450提供144個800G端口，Spectrum 6800提供512個800G端口。

之所以使用“默認(rèn)”一詞，是因?yàn)橛ミ_(dá)的非CPO InfiniBand Quantum Q3400交換機(jī)也提供144個800G端口，而其其他InfiniBand交換機(jī)（例如QM9700）僅提供32個800G端口——只有前者提供了這種“一體式高基數(shù)”（high radix in a box）方案，從而提供大量的有效端口。如此高的端口數(shù)量可能使客戶能夠?qū)⑷龑泳W(wǎng)絡(luò)簡化為兩層網(wǎng)絡(luò)，同時還能省去客戶部署交換機(jī)、配線架或笨重的八爪魚線纜的麻煩，這可能成為一項(xiàng)關(guān)鍵的賣點(diǎn)。在兩層網(wǎng)絡(luò)中，與傳統(tǒng)的DSP收發(fā)器相比，收發(fā)器功耗降低了84%，交換機(jī)功耗降低了21%，整個網(wǎng)絡(luò)功耗降低了48%。

Spectrum 6800 交換機(jī)擁有大量端口，在兩種邏輯配置下均可提供 512 個 800G 端口，相比之下，Spectrum 6810 僅提供 128 個 800G 端口、256 個 400G 端口或 512 個 200G 端口。例如，Spectrum 6810 的 128 個 800G 端口配置下，一個雙層網(wǎng)絡(luò)最多可連接 8,192 個 GPU；而 Spectrum 6800 的 512 個 800G 端口配置則可連接 131,072 個 GPU。

順便提一下，在L層網(wǎng)絡(luò)中，使用具有k個端口的交換機(jī)所能支持的最大主機(jī)數(shù)量由以下公式給出：

神奇之處在于端口數(shù) k 與網(wǎng)絡(luò)層數(shù)呈指數(shù)關(guān)系。因此，對于一個兩層網(wǎng)絡(luò)，通過為每個端口分配一半帶寬（例如，將一個 800G 端口拆分為兩個 400G 端口），使用內(nèi)部端口切換（如 Spectrum 6800 那樣）、分支電纜或雙端口收發(fā)器，可以將邏輯端口數(shù)翻倍，這意味著支持的主機(jī)數(shù)量將增加四倍！

本節(jié)目前討論的節(jié)能效果，三層CPO網(wǎng)絡(luò)可節(jié)省23%，兩層CPO網(wǎng)絡(luò)可節(jié)省48%，聽起來非常可觀。但問題在于，三層網(wǎng)絡(luò)中的網(wǎng)絡(luò)功耗原本就只占集群總功耗的9%。因此，最終切換到CPO的效果至少對于橫向擴(kuò)展網(wǎng)絡(luò)而言會被大幅稀釋。三層網(wǎng)絡(luò)切換到CPO可降低23%的網(wǎng)絡(luò)功耗，但僅節(jié)省2%的集群總功耗。遷移到兩層網(wǎng)絡(luò)可降低48%的網(wǎng)絡(luò)成本，但僅節(jié)省4%的集群總功耗。

從集群總資本成本來看，情況也類似。

CPO 橫向擴(kuò)展總擁有成本 (TCO)

讓我們簡要地看一下將收發(fā)器與CPO解決方案進(jìn)行比較時的一些成本細(xì)節(jié)。首款Nvidia CPO交換機(jī)Quantum X800-Q3450 CPO將使用72個光引擎，每個引擎的運(yùn)行速度為1.6Tbit/s；后續(xù)版本的Quantum CPO交換機(jī)可能會過渡到36個光引擎，每個引擎的運(yùn)行速度為3.2Tbit/s，每個單元的成本約為1000美元（包括FAU），這意味著每個系統(tǒng)的總OE（optical engines）成本約為3.6萬美元。

為了更直觀地理解這一點(diǎn)，不妨考慮一下如果使用傳統(tǒng)光收發(fā)器模塊的總成本。非CPO的X800-Q3400交換機(jī)配備72個OSFP插槽，并使用一個1.6T雙端口收發(fā)器來提供144個800G端口。假設(shè)一個通用的1.6T DR8收發(fā)器的價格為1000美元，那么為這臺交換機(jī)配備收發(fā)器的總成本將達(dá)到72000美元，是CPO交換機(jī)所需光引擎和ELS模塊（預(yù)計(jì)成本為35000-40000美元）成本的兩倍，才能實(shí)現(xiàn)相同的帶寬。

然而，這還沒有考慮交換機(jī)廠商的利潤。如果毛利率為60%，那么最終用戶購買光引擎的成本將達(dá)到80000美元-90000美元——這比同等規(guī)格的收發(fā)器成本更高。此外，光纖換線器等其他組件的成本也會受到這種利潤率的影響。這就解釋了為什么，根據(jù)收發(fā)器的成本和交換機(jī)供應(yīng)商的利潤，轉(zhuǎn)向 CPO 時節(jié)省的成本可能不會很大。

從下表可以看出，在三層網(wǎng)絡(luò)中從收發(fā)器切換到CPO時，CPO組件的額外成本會使交換機(jī)成本增加81%，抵消了不購買收發(fā)器所節(jié)省的86%的成本。盡管CPO的總網(wǎng)絡(luò)成本仍然比使用DSP收發(fā)器低31%，但與電源成本的情況類似，服務(wù)器機(jī)架在集群總擁有成本（TCO）中占比過高，這意味著集群總成本僅下降了3%。

將網(wǎng)絡(luò)從三層簡化為兩層可以節(jié)省更多成本——集群總成本最多可降低 7%，收發(fā)器成本降低 86%，網(wǎng)絡(luò)總成本降低 46%。

因此，如果CPO一方面只能節(jié)省高達(dá)7%的成本和4%的能耗，另一方面卻引發(fā)了人們對現(xiàn)場維護(hù)困難、可靠性和影響范圍（無論這種擔(dān)憂是否合理）以及與多家收發(fā)器供應(yīng)商談判時議價能力下降的擔(dān)憂——那么，為什么GPU云平臺還要采用它呢？答案很簡單：它尚未被廣泛采用——我們預(yù)計(jì)在短期內(nèi)，超大規(guī)模數(shù)據(jù)中心不會迅速采用橫向擴(kuò)展的CPO系統(tǒng)。

面向規(guī)�；W(wǎng)絡(luò)的CPO

相反，我們認(rèn)為面向規(guī)模化部署的CPO才是真正的殺手級應(yīng)用。正如前文所述，大型超大規(guī)模數(shù)據(jù)中心運(yùn)營商已經(jīng)向供應(yīng)商承諾，將在本十年末之前部署基于CPO的規(guī)�；渴鸾鉀Q方案。

目前，基于銅纜的現(xiàn)有擴(kuò)展模式正面臨極限挑戰(zhàn)，原因在于銅纜傳輸距離有限——在每通道 200Gbit/s 的速率下，最佳傳輸距離僅為兩米，而且每通道帶寬翻倍的難度也日益增加。CPO 可以解決這些問題，因?yàn)樗饶軡M足帶寬密度要求，又能提供多種未來帶寬擴(kuò)展途徑，還能實(shí)現(xiàn)更大規(guī)模的擴(kuò)展。

一旦部署了 CPO 以實(shí)現(xiàn)縱向擴(kuò)展網(wǎng)絡(luò)，縱向擴(kuò)展域?qū)⒉辉偈芑ミB距離的限制。原則上，客戶可以將縱向擴(kuò)展域擴(kuò)展到任意大小。當(dāng)然，如果希望將縱向擴(kuò)展域保持在允許全連接（all-to-all connected）的單層扇出網(wǎng)絡(luò)中，則縱向擴(kuò)展域的大小將受到交換機(jī)基數(shù)的限制。

橫向擴(kuò)展與縱向擴(kuò)展的TAM

縱向擴(kuò)展架構(gòu)的網(wǎng)絡(luò)需求遠(yuǎn)高于后端橫向擴(kuò)展網(wǎng)絡(luò)。GPU 間或交換機(jī)間的鏈路需要更高的帶寬和更低的延遲，才能實(shí)現(xiàn) GPU 間的互連，從而使它們能夠協(xié)同共享內(nèi)存等資源。

舉例來說，Nvidia Blackwell 平臺上的第五代NVLink 為每個 GPU 提供 900GB/s（7200Gbit/s）的單向帶寬。這比后端橫向擴(kuò)展網(wǎng)絡(luò)（使用 CX-8 網(wǎng)卡連接 GB300 NVL72）上每個 GPU 的 100GB/s（800Gbit/s）帶寬高出 9 倍。這也使得主機(jī)需要更高的岸邊帶寬密度，而這正是推動 GPU SerDes 線路速度不斷提升的動力。

同樣重要的是要認(rèn)識到，隨著縱向擴(kuò)展域規(guī)模的擴(kuò)大以及縱向互連速度的提升，縱向互連（以及最終的縱向互連網(wǎng)絡(luò)）的潛在市場規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超過了橫向擴(kuò)展網(wǎng)絡(luò)。橫向擴(kuò)展網(wǎng)絡(luò)的潛在市場規(guī)模很可能主要由縱向擴(kuò)展網(wǎng)絡(luò)應(yīng)用而非橫向擴(kuò)展網(wǎng)絡(luò)應(yīng)用占據(jù)。

銅與光學(xué)器件在規(guī)模化應(yīng)用中的比較：全球規(guī)模、密度和覆蓋范圍

目前，出于種種原因，橫向擴(kuò)展網(wǎng)絡(luò)完全依賴銅纜。在當(dāng)前的插拔架構(gòu)下，要使光收發(fā)器的帶寬與 NVLink 相匹配，成本和功耗都將極其高昂，而且還會引入不必要的延遲。此外，計(jì)算托架上的面板空間可能不足以容納所有這些收發(fā)器。銅纜在低延遲、高吞吐量連接方面表現(xiàn)出色。然而，正如上文所述，銅纜的傳輸距離有限，限制了“世界規(guī)模”——即單個橫向擴(kuò)展域內(nèi)可連接的 GPU 數(shù)量。

擴(kuò)大規(guī)模是計(jì)算擴(kuò)展的關(guān)鍵途徑。在當(dāng)今基于推理的模型擴(kuò)展和測試時計(jì)算的時代，在單個規(guī)模擴(kuò)展域中增加計(jì)算能力、內(nèi)存容量和內(nèi)存帶寬變得越來越重要。

英偉達(dá)的GB200系統(tǒng)之所以能帶來巨大的性能提升，是因?yàn)樗鼘⒃緝H由8個互連GPU組成的網(wǎng)絡(luò)規(guī)模擴(kuò)展到了72個互連GPU，并采用了全連接拓?fù)浣Y(jié)構(gòu)。其結(jié)果是，通過實(shí)施在橫向擴(kuò)展網(wǎng)絡(luò)中無法實(shí)現(xiàn)的更復(fù)雜的協(xié)同通信技術(shù)，實(shí)現(xiàn)了巨大的吞吐量提升。

在銅纜上，這只能在單個機(jī)架的占地面積內(nèi)實(shí)現(xiàn)，對供電、散熱和可制造性提出了極高的要求。該系統(tǒng)的復(fù)雜性使得下游供應(yīng)鏈仍在努力提升產(chǎn)能。

英偉達(dá)將繼續(xù)堅(jiān)持使用銅纜。為了保持領(lǐng)先于AMD等競爭對手以及那些正在構(gòu)建自有縱向擴(kuò)展網(wǎng)絡(luò)的超大規(guī)模數(shù)據(jù)中心運(yùn)營商，英偉達(dá)還需要進(jìn)一步擴(kuò)大其縱向擴(kuò)展的規(guī)模。因此，英偉達(dá)不得不采取極端措施，在單個機(jī)架內(nèi)擴(kuò)展縱向擴(kuò)展能力。在GTC 2025大會上展示的英偉達(dá)Rubin Ultra的Kyber機(jī)架架構(gòu)，可擴(kuò)展至144個GPU封裝（576個GPU核心）。該機(jī)架的密度是現(xiàn)有GB200/300 NVL72機(jī)架的四倍。鑒于GB200的制造和部署已經(jīng)非常復(fù)雜，Kyber機(jī)架架構(gòu)更是將這一難度提升到了新的高度。

光器件技術(shù)實(shí)現(xiàn)了相反的方案，它可以通過多個機(jī)架進(jìn)行擴(kuò)展，從而擴(kuò)大系統(tǒng)規(guī)模，而無需像以往那樣在密集的空間內(nèi)塞入更多加速器，因?yàn)楹笳邔╇姾蜕崽岢隽烁叩囊�。雖然目前使用可插拔收發(fā)器可以實(shí)現(xiàn)這一點(diǎn)，但光收發(fā)器的成本及其高功耗使得這種方案并不實(shí)用。

銅纜與光纖在規(guī)模化應(yīng)用中的比較：帶寬擴(kuò)展

在銅纜上擴(kuò)展帶寬也變得越來越困難。英偉達(dá)的 Rubin 芯片采用了一種新型的雙向 SerDes 技術(shù)，實(shí)現(xiàn)了帶寬翻倍。在該技術(shù)中，發(fā)送和接收操作共享同一信道，從而實(shí)現(xiàn)了每個信道 224Gbit/s 的全雙工通信（發(fā)送 + 接收）。在銅纜上實(shí)現(xiàn)每通道 448G 的“真正”帶寬仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)，其上市時間也難以確定。相比之下，CPO 提供了多種擴(kuò)展帶寬的途徑：波特率、DWDM、額外的光纖對以及調(diào)制方式——所有這些都將在本文后續(xù)部分詳細(xì)討論。CPO何時才能做好迎接黃金時段的準(zhǔn)備？

那么，如果CPO是解決方案，為什么英偉達(dá)最初只將其應(yīng)用于橫向擴(kuò)展交換機(jī)，而不將其應(yīng)用于Rubin Ultra呢？這歸根結(jié)底是供應(yīng)鏈不成熟、制造工藝面臨挑戰(zhàn)以及客戶對部署的猶豫。推出Quantum和Spectrum CPO交換機(jī)的目的是為了幫助提升供應(yīng)鏈效率，并獲取更多關(guān)于數(shù)據(jù)中心可靠性和可維護(hù)性的實(shí)際數(shù)據(jù)。

在此期間，Meta 在 ECOC 期間發(fā)布的 CPO 可靠性數(shù)據(jù)提供了一些有用的信息。Meta與 Broadcom 合作開展了這項(xiàng)研究，Broadcom也發(fā)布了一些有用的幻燈片。在這項(xiàng)研究中，Meta 對 15 臺 Bailly 51.2T CPO 交換機(jī)進(jìn)行了規(guī)模適中的測試，累計(jì) 400G 端口設(shè)備小時數(shù)高達(dá) 104.9 萬小時，并發(fā)布了最大非零 KP4 前向糾錯 (FEC) 值：

該論文還解釋了在測試期間，鏈路中沒有觀察到任何故障或不可糾正的碼字 (UCW)，并指出在整個測試期間（400G 端口設(shè)備運(yùn)行時間達(dá) 1,049k 小時）只觀察到一次 FEC bin > 10 的情況。

然而，Meta的研究并未止步于此。在ECOC大會上發(fā)表同一篇論文時，他們展示了高達(dá)1500萬400G端口設(shè)備小時數(shù)的擴(kuò)展結(jié)果。這些結(jié)果表明，在前400萬400G端口設(shè)備小時內(nèi)未出現(xiàn)UCW（未解決的故障），并且400G 2xFR4收發(fā)器（全球2xFR4收發(fā)器為55萬）的平均故障間隔時間（MTBF）為0.5-1M設(shè)備小時，而CPO的MTBF為260萬設(shè)備小時。（原文：Meta did not stop there, however. In the talk at ECOC presenting the same paper, they presented expanded results for up to 15M 400G port-device hours. These results showed that there were no UCWs for the first 4M 400G port device hours, and they also showed a 0.5-1M device hour mean time before failure (MTBF) for 400G 2xFR4 transceivers (550k for 2xFR4 globally) vs 2.6M device hour MTBF for CPO.）

雖然 1500 萬端口設(shè)備小時聽起來很大，但這是以 400G 端口小時為單位的。也就是說，一臺 51.2T 交換機(jī)運(yùn)行一小時相當(dāng)于 128 個 400G 端口小時。15 臺 51.2T 交換機(jī)共計(jì) 1500 萬個 400G 端口小時，相當(dāng)于 7812 個實(shí)際運(yùn)行小時，約合 325 天。事實(shí)上，這 1500 萬小時通常被簡單地稱為“小時”或“設(shè)備小時”，而省略了“端口”部分。盡管在 400 萬端口設(shè)備小時內(nèi)零故障和零 UCW 統(tǒng)計(jì)數(shù)據(jù)非常有價值，但在轉(zhuǎn)向 CPO 橫向擴(kuò)展交換并投入數(shù)十億美元之前，業(yè)界需要的遠(yuǎn)不止是在實(shí)驗(yàn)室環(huán)境中測試 15 臺 CPO 交換機(jī) 11 個月。

在動態(tài)的現(xiàn)場環(huán)境中運(yùn)行數(shù)千臺橫向擴(kuò)展交換機(jī)是一項(xiàng)截然不同的挑戰(zhàn)，這些交換機(jī)在生產(chǎn)環(huán)境中的性能表現(xiàn)還有待觀察。生產(chǎn)環(huán)境中的溫度波動可能比實(shí)驗(yàn)室環(huán)境更大，從而導(dǎo)致組件性能或耐久性出現(xiàn)意想不到的變化。Meta公司在其 Llama 3 論文中指出，數(shù)據(jù)中心 1-2% 的溫度波動會對功耗波動產(chǎn)生不利影響——這種波動是否會以難以預(yù)料的方式影響整個網(wǎng)絡(luò)架構(gòu)？

即使是數(shù)據(jù)中心灰塵這種看似平常的問題，也令技術(shù)支持人員頭疼不已，他們可能需要花費(fèi)大量時間清理光纖端面——當(dāng)然，CPO交換機(jī)通常配備LC或MPO型前置可插拔連接器，但CPO交換機(jī)機(jī)箱內(nèi)部的灰塵又該如何處理呢？0.06%的故障率聽起來很誘人，但這種故障的影響范圍可達(dá)64個800G端口。本文主要討論的是基于FR光模塊的CPO交換機(jī)，而下一代CPO交換機(jī)將基于DR光模塊。以上僅列舉了一些已知的未知因素，在現(xiàn)場測試中還可能出現(xiàn)更多未知的未知因素。

事實(shí)上，這些結(jié)果通過提供切實(shí)可靠的可靠性數(shù)據(jù)，有力地說服了業(yè)內(nèi)人士。我們的目的并非制造恐慌、不確定性或疑慮（FUD），而是呼吁開展更大規(guī)模的現(xiàn)場測試，以便業(yè)界能夠快速了解并解決未預(yù)見的問題，從而為更廣泛地采用CPO（網(wǎng)絡(luò)性能優(yōu)化）技術(shù)鋪平道路，尤其是在規(guī)模化網(wǎng)絡(luò)建設(shè)方面。

歸根結(jié)底，英偉達(dá)此次橫向擴(kuò)展CPO產(chǎn)品的發(fā)布，實(shí)際上是為真正的大規(guī)模部署進(jìn)行一次演練和清理。我們認(rèn)為，鑒于縱向擴(kuò)展相比橫向擴(kuò)展具有更顯著的總體擁有成本 (TCO) 和性能/TCO 比優(yōu)勢，其部署規(guī)模和影響將遠(yuǎn)超橫向擴(kuò)展。

此外，就橫向擴(kuò)展型CPO而言，Rubin Ultra計(jì)劃于2027年發(fā)布（我們認(rèn)為最終會是2027年底），但供應(yīng)鏈屆時還無法滿足數(shù)千萬個CPO終端的交付需求，從而無法滿足GPU的需求。即使是這樣的時間表對英偉達(dá)來說也過于雄心勃勃。因此，費(fèi)曼世代似乎是CPO注入英偉達(dá)生態(tài)系統(tǒng)的重點(diǎn)。

現(xiàn)在讓我們深入探討一下 CPO 的含義、技術(shù)考量、挑戰(zhàn)以及當(dāng)前生態(tài)系統(tǒng)的狀況。

CPO介紹和實(shí)施

CPO是什么？為什么大家都這么興奮？

CPO將光引擎直接集成到與高性能計(jì)算或網(wǎng)絡(luò)ASIC相同的封裝或模塊中。這些光引擎將電信號轉(zhuǎn)換為光信號，從而實(shí)現(xiàn)通過光鏈路進(jìn)行高速數(shù)據(jù)傳輸。由于銅纜上的高速電信號傳輸距離有限，因此必須使用光鏈路進(jìn)行幾米以上的遠(yuǎn)距離數(shù)據(jù)通信。

如今，大多數(shù)電光轉(zhuǎn)換都是通過可插拔光收發(fā)器實(shí)現(xiàn)的。在這種情況下，電信號會從交換機(jī)或處理芯片出發(fā)，經(jīng)過數(shù)十厘米甚至更遠(yuǎn)的PCB板，最終到達(dá)機(jī)箱前面板或后面板上的物理收發(fā)器外殼。可插拔光收發(fā)器就位于該外殼內(nèi)。收發(fā)器接收電信號，經(jīng)光數(shù)字信號處理器（DSP）芯片進(jìn)行重新處理后，再發(fā)送到光引擎組件，由其將電信號轉(zhuǎn)換為光信號。然后，光信號可以通過光纖傳輸?shù)芥溌返牧硪欢耍谀抢�，另一個收發(fā)器會反向執(zhí)行此過程，將光信號轉(zhuǎn)換回電信號，最終返回到目標(biāo)芯片。

在這個過程中，電信號（至少對于銅線而言）需要經(jīng)過相對較長的距離，并經(jīng)過多個轉(zhuǎn)換點(diǎn)才能到達(dá)光鏈路。這會導(dǎo)致電信號衰減，并且需要大量的功率和復(fù)雜的電路（例如串行器/解串器）來驅(qū)動和恢復(fù)信號。為了改善這種情況，我們需要縮短電信號的傳輸距離。這就引出了“共封裝光器件”的概念，即將原本位于可插拔收發(fā)器中的光引擎與主機(jī)芯片共封裝。由于光引擎距離擴(kuò)展處理器（XPU）或交換機(jī)專用集成電路（ASIC）更近，因此可以將電氣走線長度從幾十厘米縮短到幾十毫米。這顯著降低了功耗，提高了帶寬密度，并通過最大限度地減少電氣互連距離和緩解信號完整性挑戰(zhàn)來降低延遲。

下圖展示了一種CPO（芯片封裝優(yōu)化）方案，其中光引擎與計(jì)算芯片或交換芯片封裝在同一芯片上。光引擎最初將位于基板上，未來將放置在中介層上。

如今，如下圖所示，前置可插拔光模塊解決方案已十分普及。該圖的主要意義在于說明，電信號需要沿著銅線或架空電纜傳輸一段較長的距離（15-30厘米）才能到達(dá)收發(fā)器中的光引擎。正如上文所述，這也意味著需要使用長距離（LR）SerDes 來驅(qū)動可插拔模塊。

此外，還有一些介于 CPO 和傳統(tǒng)前插拔光學(xué)器件之間的中間實(shí)現(xiàn)方式，例如近封裝光學(xué)器件 (NPO) 和板載光學(xué)器件 (OBO)。

近年來，非封裝光引擎（NPO）已成為實(shí)現(xiàn)復(fù)合封裝光引擎（CPO）的中間步驟。NPO有多種定義。NPO指的是光引擎并非直接封裝在ASIC基板上，而是封裝在另一個基板上。光引擎仍然保持可插拔狀態(tài)，可以從基板上拆卸下來。電信號仍然會從XPU封裝上的SerDes通過銅通道傳輸?shù)焦庖妗?/p>

還有一種方案是板載光模塊（OBO），它將光引擎集成到機(jī)箱內(nèi)的系統(tǒng)PCB上，使其更靠近主機(jī)ASIC。然而，OBO繼承了CPO的諸多挑戰(zhàn)，但在帶寬密度和功耗方面卻優(yōu)勢不明顯。我們認(rèn)為OBO是“兩頭不討好”的方案，因?yàn)樗劝薈PO的復(fù)雜性，又繼承了前插拔式光模塊的一些局限性。

共封裝銅

CPO 的另一種替代方案是“共封裝銅”（CPC：Co-packaged Copper）。CPC 使用直接從基板上的連接器引出的銅纜。CPC 使用的電纜與飛線電纜相同，用途也相同：繞過 PCB 走線。CPC 在飛線電纜的基礎(chǔ)上更進(jìn)一步，其插座直接位于封裝基板上。所使用的電纜是絕緣良好的雙軸電纜（Twinax 電纜），可有效降低串?dāng)_，從而顯著降低插入損耗，遠(yuǎn)低于傳統(tǒng)的電氣走線。雖然該方案仍然使用銅，但它在信號完整性方面具有關(guān)鍵優(yōu)勢。CPC 可以為部署 448G SerDes 提供切實(shí)可行的途徑，從而進(jìn)一步擴(kuò)展封裝外互連技術(shù)。

CPC 的挑戰(zhàn)在于封裝基板的復(fù)雜性增加。基板必須將電源和信號路由到數(shù)千根這樣的電纜。盡管面臨這一挑戰(zhàn)，CPC 仍然比 CPO 簡單得多，后者仍需克服供應(yīng)鏈多個環(huán)節(jié)的諸多制造難題。我們認(rèn)為 CPC 對于某些短距離應(yīng)用（例如機(jī)架內(nèi)擴(kuò)展連接）尤其具有吸引力，我們將在下文探討這一點(diǎn)。通過繞過損耗較大的 CCL 走線，CPC 有望成為實(shí)現(xiàn) 448G 線路速度的技術(shù)。此外，由于這種帶寬的信號在 PCB 中傳輸時會遭受不可接受的衰減，因此 CPC 也被廣泛用于實(shí)現(xiàn) 448G 傳輸。

過去阻礙 CPO 市場準(zhǔn)備的障礙：為什么現(xiàn)在才出現(xiàn)？

盡管CPO技術(shù)具有顯著優(yōu)勢，但由于諸多挑戰(zhàn)導(dǎo)致成本居高不下，其在實(shí)際應(yīng)用中仍然非常有限。這些挑戰(zhàn)包括：封裝的復(fù)雜性（其成本甚至高于原始設(shè)備制造商本身）、制造工藝的復(fù)雜性、可靠性和良率問題，以及由緊密集成的光學(xué)和電子元件引起的散熱管理問題。另一個障礙是缺乏行業(yè)標(biāo)準(zhǔn)。此外，客戶對可維護(hù)性的擔(dān)憂也阻礙了從傳統(tǒng)可插拔光學(xué)器件向CPO解決方案的過渡。

客戶的另一個主要擔(dān)憂是，采用CPO模式可能會讓他們失去控制成本的能力。相比于少數(shù)交換機(jī)廠商，向數(shù)量較多的收發(fā)器廠商壓榨成本要容易得多。

與此同時，可插拔光器件（CPO 將取代的現(xiàn)有技術(shù)）不斷改進(jìn)，并且仍然能夠?yàn)閹缀跛袘?yīng)用提供足夠好的性能，同時大大減少了最終用戶的焦慮。

在第二部分的剩余部分，我們將深入探討采用CPO的驅(qū)動因素。

首先，我們將解釋SerDes的擴(kuò)展性已達(dá)到瓶頸，因此需要采用其他接口類型，例如Wide I/O與CPO相結(jié)合。然后，我們將討論制造方面的考量以及市場推廣策略。我們將討論CPO的關(guān)鍵組件，例如光引擎、光纖耦合器、外部激光源和調(diào)制器。最后，我們將介紹CPO帶寬擴(kuò)展的路線圖。

超越基于DSP的收發(fā)器：從LPO到CPO

數(shù)字信號處理收發(fā)器負(fù)責(zé)光信號的發(fā)射和接收，其內(nèi)部包含一個“光引擎”（OE），用于進(jìn)行電光轉(zhuǎn)換。光引擎由驅(qū)動器（DRV）和調(diào)制器（MOD）組成，用于發(fā)射光信號；同時還包含跨阻放大器（TIA）和光電探測器（PD），用于接收光信號。

另一個重要組件是光DSP芯片，它有時會將驅(qū)動器和/或TIA集成在一個封裝中。從主機(jī)交換或處理芯片發(fā)出的高頻電信號需要沿著損耗較大的銅線傳輸相對較長的距離，才能到達(dá)服務(wù)器機(jī)箱前端的收發(fā)器。DSP負(fù)責(zé)對該信號進(jìn)行重定時和重新調(diào)整。它執(zhí)行糾錯和時鐘/數(shù)據(jù)恢復(fù)，以補(bǔ)償信號從交換機(jī)或ASIC芯片通過基板或其他傳輸介質(zhì)傳輸過程中產(chǎn)生的電信號劣化和衰減。對于調(diào)制，以PAM4調(diào)制（四級脈沖幅度調(diào)制）為例，DSP將二進(jìn)制信號映射到四個不同的幅度級別，以增加每個信號的比特數(shù)，從而實(shí)現(xiàn)更高的比特率和更大的帶寬。

DSP芯片是收發(fā)器中最耗電、最昂貴的組件之一，甚至可以說是最耗電、最昂貴的組件。對于800G SR8收發(fā)器而言，DSP芯片的功耗幾乎占模塊總功耗的50%，這也是為什么人們?nèi)绱酥匾暼绾稳コ鼶SP芯片的原因。

構(gòu)建一個包含 18k GB300 服務(wù)器的集群，采用雙層 InfiniBand 網(wǎng)絡(luò)，需要 18,432 個 800G DR4 收發(fā)器和 27,648 個 1.6T DR8 收發(fā)器。使用 DSP 帶來的額外成本和功耗會顯著增加總擁有成本。假設(shè)每個 800G DSP 的功耗為 6-7W，每個 1.6T DSP 的功耗為 12-14W，那么僅整個集群的后端網(wǎng)絡(luò)就需要 480kW 的 DSP 功耗，相當(dāng)于每個服務(wù)器機(jī)架約 1.8kW。如果從知名品牌供應(yīng)商采購，收發(fā)器的成本可能占集群總擁有成本的近 10%。因此，DSP 的功耗占總功耗的 50%，物料清單成本 (BOM) 的 20-30%，一些人甚至將其視為降低成本和提高能效的頭號敵人。

反對DSP的運(yùn)動

數(shù)字信號處理器（DSP）的高成本和高功耗促使業(yè)界尋找能夠繞過DSP的技術(shù)。第一波攻擊DSP的浪潮是線性可插拔光（LPO）——它試圖完全移除DSP，讓交換機(jī)中的SerDes直接驅(qū)動收發(fā)器中的TX和RX光元件。然而，正如DSP專家Loi Nguyen在2023年接受我們采訪時準(zhǔn)確預(yù)測的那樣，LPO尚未普及。

CPO 將 LPO 的概念提升到了一個新的層次，它將光引擎與計(jì)算或交換芯片封裝在同一芯片上。CPO 的一個關(guān)鍵優(yōu)勢在于，由于主機(jī)和光引擎之間的距離非常短，因此不再需要收發(fā)器中的 DSP。此外，CPO 還超越了 LPO，因?yàn)樗鼰o需使用功耗和面積都較大的長距離 SerDes，而是采用短距離 SerDes，甚至在寬 I/O 接口的情況下采用時鐘轉(zhuǎn)發(fā)的寬 D2D SerDes，從而顯著提高了芯片的海岸線密度。

人們常說，CPO技術(shù)其實(shí)近在咫尺，但過去二十年來它為何始終未能普及？為什么業(yè)界更傾向于使用可插拔DSP收發(fā)器？

可插拔收發(fā)器的一大優(yōu)勢在于其高度互操作性。憑借 OSFP 和 QSFP-DD 等標(biāo)準(zhǔn)封裝形式以及對 OIF 標(biāo)準(zhǔn)的遵循，客戶通常可以獨(dú)立于交換機(jī)和服務(wù)器供應(yīng)商選擇收發(fā)器供應(yīng)商，從而享受采購靈活性和更強(qiáng)的議價能力。

另一個巨大的優(yōu)勢是現(xiàn)場可維護(hù)性。收發(fā)器的安裝和更換非常簡單，只需由遠(yuǎn)程人員將其從交換機(jī)或服務(wù)器機(jī)箱上拔下即可。相比之下，對于CPO（光纖光模塊），光引擎的任何故障都可能導(dǎo)致整個交換機(jī)無法使用。即使是可維護(hù)的故障，排查和修復(fù)也可能非常復(fù)雜。通常，激光器是最常見的故障點(diǎn)，目前大多數(shù)CPO方案都采用可插拔的外部激光器以提高可維護(hù)性和可更換性，但人們?nèi)匀粨?dān)心其他不可插拔的CPO組件會發(fā)生故障。

為什么需要CPO？I/O挑戰(zhàn)、帶寬密度和瓶頸

除了擺脫耗電且成本高昂的 DSP 和最大限度地減少或消除 LR SerDes 的使用之外，采用 CPO 的另一個巨大好處是相對于能耗而言更高的互連帶寬密度。

帶寬密度衡量單位面積或信道內(nèi)傳輸?shù)臄?shù)據(jù)量，反映了有限空間用于高速數(shù)據(jù)傳輸?shù)男�。能量效率量化了傳輸單位�?shù)據(jù)所需的能量。

因此，互連帶寬密度與能耗之比是衡量給定互連客觀質(zhì)量的一個非常重要的指標(biāo)（FoM）。當(dāng)然，最優(yōu)互連方案還應(yīng)滿足距離和成本參數(shù)的要求。

觀察下圖，可以發(fā)現(xiàn)一個明顯的趨勢：對于電鏈路而言，隨著距離的增加，該性能指標(biāo)呈指數(shù)級下降。此外，從純電接口過渡到需要光電轉(zhuǎn)換的接口，效率會大幅下降——甚至可能下降一個數(shù)量級。這種下降是由于需要能量來驅(qū)動信號從芯片傳輸?shù)角懊姘宓氖瞻l(fā)器。而為光DSP供電則需要更多能量�；贑PO的通信的性能指標(biāo)曲線明顯高于可插拔接口。如下圖所示，在相同的距離范圍內(nèi)，CPO在單位面積和單位能耗下具有更高的帶寬密度，因此是一種客觀上更優(yōu)的互連方式。

這張圖表也印證了“能用銅纜就用銅纜，必須用光纖才用”這句格言。如果條件允許，短距離銅纜通信性能更優(yōu)。英偉達(dá)在其機(jī)架級GPU架構(gòu)中秉承了這一理念，其設(shè)計(jì)目的就是為了突破機(jī)架內(nèi)部密度的極限，最大限度地提高可通過銅纜聯(lián)網(wǎng)的GPU數(shù)量。這正是GB200 NVL72所采用的縱向擴(kuò)展網(wǎng)絡(luò)架構(gòu)背后的邏輯，而英偉達(dá)在其Kyber機(jī)架中更進(jìn)一步地實(shí)踐了這一理念。然而，CPO技術(shù)的成熟只是時間問題，它終將使縱向擴(kuò)展能夠充分利用其在性能優(yōu)化曲線中的優(yōu)勢，并從總體擁有成本（TCO）的角度帶來更高的性價比。

輸入/輸出 (I/O) 障礙和阻礙

雖然晶體管密度和計(jì)算能力（以 FLOPs 表示）得到了很好的擴(kuò)展，但 I/O 的擴(kuò)展速度卻慢得多，這造成了整體系統(tǒng)性能的瓶頸：由于要傳輸?shù)狡獾臄?shù)據(jù)需要通過有機(jī)封裝基板上有限數(shù)量的 I/O，因此可用于片外 I/O 的可用帶寬是有限的。

此外，提高每個I/O的信號傳輸速度變得越來越困難且耗電，進(jìn)一步限制了數(shù)據(jù)傳輸。這正是互連帶寬在過去幾十年中相對于其他計(jì)算趨勢而言擴(kuò)展性如此糟糕的一個關(guān)鍵原因。

由于單個倒裝芯片BGA封裝中凸點(diǎn)數(shù)量的限制，高性能計(jì)算（HPC）應(yīng)用的封裝外I/O密度已達(dá)到瓶頸。這制約了逃逸帶寬的擴(kuò)展。

電氣串行器/解串器擴(kuò)展瓶頸

在I/O數(shù)量有限的情況下，提高帶寬的關(guān)鍵在于提升每個I/O信號的傳輸頻率。目前，英偉達(dá)和博通在SerDes IP領(lǐng)域處于領(lǐng)先地位。英偉達(dá)在其Blackwell芯片中采用了224G SerDes，這正是其高速NVLink芯片的核心所在。同樣，博通也從2024年底開始在其光DSP中提供224G SerDes的樣品。這兩家在AI浮點(diǎn)運(yùn)算能力方面領(lǐng)先的公司同時也是高速SerDes IP領(lǐng)域的領(lǐng)軍者，這絕非巧合。這進(jìn)一步印證了AI性能與吞吐量之間的根本聯(lián)系：最大化數(shù)據(jù)傳輸效率與提供強(qiáng)大的計(jì)算能力同樣至關(guān)重要。

然而，在理想傳輸距離下提供更高的線路速度正變得越來越具有挑戰(zhàn)性。如下圖所示，隨著頻率的增加，插入損耗也會增加。我們可以看到，在更高的SerDes信號傳輸速度下，損耗會增加，尤其是在信號路徑延長的情況下。

SerDes 的擴(kuò)展性已接近瓶頸。在不增加信號恢復(fù)組件的情況下，更高的傳輸速率只能在極短的距離內(nèi)維持——而這些組件反過來又會增加復(fù)雜性、成本、延遲和功耗。因此，實(shí)現(xiàn) 224G SerDes 一直困難重重。

展望 448G SerDes，能否突破幾厘米的傳輸距離仍存在諸多不確定性。英偉達(dá)在 Rubin 芯片中采用雙向 SerDes 技術(shù)，實(shí)現(xiàn)了每個電通道 448G 的連接。要實(shí)現(xiàn)真正的 448G 單向 SerDes，還需要進(jìn)一步的研發(fā)。我們可能需要采用更高階的調(diào)制方式，例如 PAM6 或 PAM8，而不是自 56G SerDes 時代以來一直沿用的 PAM4 調(diào)制。使用每個信號編碼 2 位的 PAM4 來實(shí)現(xiàn) 448G 傳輸速率，需要 244Gbaud 的波特率，這很可能由于過高的功耗和插入損耗而難以實(shí)現(xiàn)。SerDes 擴(kuò)展瓶頸成為 NVLink 擴(kuò)展的障礙

在 NVLink 協(xié)議中，NVLink 5.0 的帶寬相比 NVLink 1.0 提升了 11 倍以上。然而，這種增長并非源于通道數(shù)量的顯著增加，通道數(shù)量僅從 NVLink 1.0 的 32 條略微增加到 NVLink 5.0 的 36 條。帶寬擴(kuò)展的關(guān)鍵驅(qū)動因素是 SerDes 通道速度的 10 倍提升，從 20G 提升至 200G。然而，在 NVLink 6.0 中，Nvidia 預(yù)計(jì)將繼續(xù)使用 200G SerDes，這意味著它必須將通道數(shù)量翻倍——Nvidia 巧妙地利用雙向 SerDes 實(shí)現(xiàn)了這一點(diǎn)，在物理銅線數(shù)量不變的情況下，有效地將通道數(shù)量翻倍。除此之外，無論是提升 SerDes 速度，還是克服有限的線路容量來容納更多通道，都將變得越來越困難，最終總帶寬將無法滿足需求。

對于那些以吞吐量作為競爭優(yōu)勢的尖端企業(yè)而言，擴(kuò)展逃逸帶寬至關(guān)重要。對于擁有NVLink擴(kuò)展架構(gòu)的英偉達(dá)來說，這一障礙可能會讓AMD等競爭對手以及超大規(guī)模數(shù)據(jù)中心運(yùn)營商更容易迎頭趕上。

解決這一難題的方案——或者說，必要的折衷方案——是盡可能縮短電氣輸入/輸出距離，并將數(shù)據(jù)傳輸卸載到盡可能靠近主機(jī)ASIC的光鏈路上，以實(shí)現(xiàn)更高的帶寬。這就是為什么CPO被認(rèn)為是互連領(lǐng)域的“圣杯”。CPO允許在ASIC封裝上進(jìn)行光通信，無論是通過基板還是中介層。電信號只需在封裝基板上傳輸幾毫米，理想情況下，通過更高質(zhì)量的中介層傳輸更短的距離，而無需像傳統(tǒng)方式那樣通過損耗較大的覆銅層壓板（CCL）傳輸數(shù)十厘米。

SerDes可以針對短距離傳輸進(jìn)行優(yōu)化，所需的電路比同等長距離的SerDes少得多。這不僅簡化了設(shè)計(jì)，還降低了功耗和芯片面積。這種簡化使得高速SerDes更容易實(shí)現(xiàn)，并擴(kuò)展了SerDes的擴(kuò)展路線圖。然而，我們?nèi)匀皇艿絺鹘y(tǒng)帶寬模型的限制，即帶寬密度仍然與SerDes的速度成正比。

為了實(shí)現(xiàn)更高的帶寬密度，在極短距離下，寬 I/O PHY 是更佳選擇，其單位功耗帶寬密度優(yōu)于 SerDes 接口。寬 I/O 也意味著需要更復(fù)雜的封裝。然而，對于 CPO 而言，這無關(guān)緊要：其封裝技術(shù)已經(jīng)非常先進(jìn)，因此集成寬 I/O PHY 幾乎不會增加額外的封裝復(fù)雜性。

寬 I/O 與 SerDes

一旦不再需要將電信號傳輸?shù)较鄬︔^遠(yuǎn)的距離，我們就可以完全擺脫串行接口，轉(zhuǎn)而使用寬接口，從而在短距離內(nèi)提供更好的海岸線密度。

UCIe接口就是一個例子。UCIe-A可提供高達(dá)~10 Tbit/s/mm的海岸線密度，專為高級封裝（例如，通過距離小于2mm的中介層連接的芯片組）而設(shè)計(jì)。在光罩尺寸芯片的長邊上，這相當(dāng)于高達(dá)330 Tbit/s（41TByte/s）的封裝外帶寬。這意味著從芯片兩側(cè)邊緣可獲得660 Tbit/s的雙向帶寬。相比之下，Blackwell接口的封裝外帶寬僅為23.6 Tbit/s，相當(dāng)于約0.4 Tbit/s/mm的海岸線密度，兩者差距巨大。

當(dāng)然，這并非完全等同的比較，因?yàn)檫@些封裝外的PHY芯片需要用于遠(yuǎn)距離傳輸。恰恰相反，這正是本文要說明的重點(diǎn)：采用CPO技術(shù)后，傳輸距離不再是問題，因?yàn)樾盘枱o需通過電信號進(jìn)行遠(yuǎn)距離傳輸。在10 Tbit/s/mm的帶寬密度下，瓶頸不再是電接口，而是鏈路的其他部分，即另一端光纖能夠傳輸多少帶寬。

達(dá)到這種限制條件距離目前的實(shí)際情況還很遙遠(yuǎn)，而且OE必須與主機(jī)共享一個中介層。將CPO集成到中介層本身，其研發(fā)進(jìn)度甚至比將OE可靠地集成到基板上還要慢。當(dāng)然，基板上的PHY性能會更差，UCIe-S的海岸線密度約為1.8Tbit/s/mm。但這仍然比我們認(rèn)為224G SerDes的約0.4Tbit/s/mm的性能有了顯著提升。

然而，盡管寬接口具有諸多優(yōu)勢，博通和英偉達(dá)仍然堅(jiān)持在其產(chǎn)品路線圖中推進(jìn)電控SerDes技術(shù)。主要原因是他們相信SerDes仍具有可擴(kuò)展性，并且需要針對銅纜進(jìn)行設(shè)計(jì)，尤其是在光芯片普及速度緩慢的情況下。此外，混合封裝的銅纜和光芯片解決方案似乎更有可能長期存在，這就要求他們同時針對這兩種封裝進(jìn)行優(yōu)化。采用這種方法是為了避免為不同的解決方案進(jìn)行多次芯片流片。

鏈路彈性（Link Resiliency）

鏈路彈性和可靠性是CPO技術(shù)的其他重要驅(qū)動因素。在大型AI集群中，鏈路中斷會顯著影響集群的整體可用性，即使鏈路可用性和穩(wěn)定性方面有微小的提升，也能為基礎(chǔ)設(shè)施投資帶來巨大的回報。

如今，在一個擁有近百萬條鏈路且采用可插拔模塊的大型人工智能集群中，每天可能會發(fā)生數(shù)十次鏈路中斷。其中一些是“硬”故障，由組件故障或硬件質(zhì)量問題導(dǎo)致；而許多則是“軟”故障，其根本原因多種多樣，源于可插拔解決方案固有的復(fù)雜性和可變性。故障模式多種多樣，包括但不限于信號完整性問題和波動、連接器和引線鍵合質(zhì)量、組件和引腳污染、噪聲注入以及其他瞬態(tài)效應(yīng)。這些故障與組件故障的相關(guān)性很低。因鏈路故障而退回的光模塊中，80%經(jīng)檢測“未發(fā)現(xiàn)故障”。

CPO 通過以下方式顯著降低了大規(guī)模 AI 網(wǎng)絡(luò)中高速信號路徑固有的復(fù)雜性和可變性：

1、顯著減少光接口中的組件數(shù)量。光子級和芯片/封裝級的高集成度降低了關(guān)鍵高速組件的復(fù)雜性，并提高了系統(tǒng)級的可靠性和良率。電光接口的數(shù)量也減少了，從而最大限度地降低了每個接口處的功率損耗。

2、顯著改善主機(jī)ASIC（例如交換機(jī)）與光引擎之間主機(jī)電氣接口的信號完整性。通過將光引擎封裝在具有非常明確且確定的設(shè)計(jì)規(guī)則和制造公差的第一級封裝上，顯著降低了插入損耗、反射和其他非線性損傷。

3、降低交換機(jī)高速信號路徑中端口間的差異，可以減少DSP信號處理、主機(jī)和模塊均衡、主機(jī)和模塊固件以及鏈路優(yōu)化算法的開銷和復(fù)雜性。所有可插拔模塊解決方案以及主機(jī)SerDes都必須設(shè)計(jì)成能夠適應(yīng)這種端口間性能的差異，否則會導(dǎo)致復(fù)雜性增加和故障點(diǎn)增多。

消除光鏈路配置中的“人為”因素。CPO交換機(jī)或光引擎在出廠前已完成組裝和測試，確�！耙阎己谩�，無需進(jìn)行大量的現(xiàn)場操作來配置交換機(jī)中的光模塊，從而避免了安裝差異、損壞、污染以及系統(tǒng)和光模塊之間的兼容性問題。

CPO上市及部署挑戰(zhàn)

CPO光學(xué)引擎制造考量及市場推廣

CPO 的產(chǎn)量尚未達(dá)到大規(guī)模應(yīng)用所需的水平。博通是唯一一家交付搭載 CPO 的生產(chǎn)系統(tǒng)的廠商，其產(chǎn)品包括 Bailly 和 Humboldt 交換機(jī)，但現(xiàn)在英偉達(dá)也加入了競爭。不過，這些產(chǎn)品的出貨量仍然非常低。CPO 引入了許多新的制造工藝，給生產(chǎn)制造帶來了巨大的挑戰(zhàn)。可以理解的是，考慮到供應(yīng)鏈的不成熟以及可靠性數(shù)據(jù)的缺乏，客戶也不愿貿(mào)然采用這項(xiàng)技術(shù)。

要使CPO獲得市場認(rèn)可，行業(yè)領(lǐng)導(dǎo)者必須投資于這些產(chǎn)品的交付，并推動供應(yīng)鏈開發(fā)可擴(kuò)展的制造和測試流程。英偉達(dá)率先邁出了這一步，他們的目標(biāo)是讓供應(yīng)鏈做好準(zhǔn)備，識別并解決問題，并幫助數(shù)據(jù)中心運(yùn)營商為我們認(rèn)為的“殺手級”應(yīng)用——縱向擴(kuò)展網(wǎng)絡(luò)——做好準(zhǔn)備。關(guān)于CPO，有幾個關(guān)鍵組成部分和注意事項(xiàng)需要關(guān)注，所有這些都會對性能和可制造性產(chǎn)生影響。這些組成部分和注意事項(xiàng)包括：

1、主機(jī)和光引擎封裝（Host and Optical Engine packaging）

2、光纖和光纖耦合（Fibers and Fiber coupling）

3、激光源和波長復(fù)用（Laser Sources and Wavelength Multiplexing）

4、調(diào)制器類型（Modulator Type）

一、主機(jī)和光引擎封裝

顧名思義，“共封裝光學(xué)器件”從根本上來說是一個封裝和組裝方面的挑戰(zhàn)。

光引擎包含光學(xué)元件和電子元件。光電探測器和調(diào)制器是光學(xué)元件，包含在光子集成電路（PIC）中。驅(qū)動器和跨阻放大器是電子電路，包含在電子集成電路（EIC）中。光引擎需要將PIC和EIC集成在一起才能正常工作。目前存在多種封裝方法來實(shí)現(xiàn)PIC-EIC的集成。

光引擎可以通過在同一片硅晶圓上制造光子集成電路 (PIC) 和電子集成電路 (EIC) 來實(shí)現(xiàn)單片集成。就寄生參數(shù)、延遲和功耗而言，單片集成是最理想的方案。

Ayar Labs 的第二代 TeraPHY 芯片就采用了這種方案（盡管他們的下一代芯片將轉(zhuǎn)向臺積電 COUPE 工藝）。GlobalFoundries、Tower 和 Advanced Micro Foundry 等代工廠可以提供單片 CMOS 和 SiPho 工藝。然而，由于光子工藝無法像傳統(tǒng) CMOS 工藝那樣擴(kuò)展，單片工藝的幾何尺寸通常止步于 35nm 左右。這限制了 EIC 的性能，尤其是在 CPO 系統(tǒng)中，由于需要更高的通道速度，單片集成就顯得尤為重要。

盡管單片集成本身具有簡潔性和優(yōu)勢，但這也使得它難以擴(kuò)展。因此，Ayar Labs 正在將其產(chǎn)品路線圖轉(zhuǎn)向異構(gòu)集成光引擎，以實(shí)現(xiàn)進(jìn)一步的擴(kuò)展。

異構(gòu)集成正逐漸成為主流方法，該方法包括使用硅光電（SiPho）工藝制造光子集成電路（PIC），并通過先進(jìn)封裝技術(shù)將其與CMOS晶圓上的電子集成電路（EIC）集成。目前存在多種封裝解決方案，更先進(jìn)的封裝方案可提供更高的性能。其中，3D集成可提供最佳的帶寬和能效。EIC與PIC通信的一大難題是寄生效應(yīng)，它會降低性能。大幅縮短走線長度可以顯著降低寄生效應(yīng)，從而提高耦合效率：從帶寬和功耗的角度來看，3D集成是實(shí)現(xiàn)CPO性能目標(biāo)的唯一途徑。

臺積電 COUPE 正在成為首選的集成方案

臺積電正迅速成為下一代光引擎（OE）的首選代工合作伙伴，無論是大型無晶圓廠廠商還是初創(chuàng)公司都對其青睞有加。首批采用CPO（緊湊型通用光子引擎）終端的大批量產(chǎn)品以“COUPE”之名推出，COUPE是“Compact Universal Photonic Engine”（緊湊型通用光子引擎）的縮寫。這包括EIC（電子集成電路）和PIC（光子集成電路）的制造，以及在臺積電COUPE解決方案下的異構(gòu)集成。

英偉達(dá)在GTC 2025大會上自豪地展示了其COUPE光引擎，這些產(chǎn)品將成為首批交付的COUPE產(chǎn)品。博通也已將COUPE納入其未來產(chǎn)品路線圖，盡管其現(xiàn)有幾代光引擎由其他供應(yīng)鏈合作伙伴提供。如前所述，此前依賴Global Foundries的Fotonix平臺制造單片光引擎的Ayar Labs，現(xiàn)在也已將COUPE納入其產(chǎn)品路線圖。

與在傳統(tǒng)CMOS邏輯領(lǐng)域的統(tǒng)治地位不同，臺積電此前在硅光子學(xué)領(lǐng)域的份額有限，GlobalFoundries和Tower Semi是其首選的代工合作伙伴。然而，近年來，臺積電在光子學(xué)方面的能力正在迅速追趕。臺積電在用于EIC組件的尖端CMOS邏輯方面擁有無可爭議的優(yōu)勢，以及領(lǐng)先的封裝能力——臺積電是唯一一家成功實(shí)現(xiàn)合理規(guī)模的芯片-晶圓混合鍵合技術(shù)的代工廠，已批量交付了多款A(yù)MD混合鍵合芯片。

混合鍵合是一種性能更高的PIC和EIC鍵合方法，但成本也顯著更高。英特爾正在努力開發(fā)類似的技術(shù)，但在開創(chuàng)這項(xiàng)技術(shù)方面面臨著諸多挑戰(zhàn)。

總體而言，盡管臺積電此前在獨(dú)立硅光電器件（SiPho）領(lǐng)域?qū)嵙︔^弱，但如今已成為封裝封裝（CPO）領(lǐng)域的關(guān)鍵參與者。與其他主要廠商一樣，臺積電的目標(biāo)是盡可能多地占據(jù)價值鏈。通過采用臺積電的COUPE解決方案，客戶實(shí)際上承諾使用臺積電制造的光子集成電路（PIC），因?yàn)榕_積電不封裝其他代工廠的硅光電晶圓。許多專注于封裝封裝的公司已果斷地將臺積電的COUPE方案納入其未來幾年的市場推廣解決方案中。

芯片制造：臺積電提供全面的芯片制造解決方案。EIC采用N7工藝制造，集成了高速光調(diào)制器驅(qū)動器和TIA。它還包含加熱器控制器，以實(shí)現(xiàn)波長穩(wěn)定等功能。而PIC則采用SOI N65工藝制造，臺積電為光子電路設(shè)計(jì)、光子布局設(shè)計(jì)和驗(yàn)證，以及光子電路的仿真和建模（涵蓋射頻、噪聲和多波長等方面）提供廣泛的支持。

EIC 和 PIC 采用 TSMC-SoIC 鍵合工藝進(jìn)行鍵合。如前所述，較長的走線長度意味著更多的寄生效應(yīng)，從而降低性能。TSMC 的 SoIC 是一種無凸點(diǎn)接口，可在不采用單片集成的情況下提供盡可能短的走線長度，因此是實(shí)現(xiàn) EIC 和 PIC 異構(gòu)集成的最佳性能方案。如下所示，在等功耗下，基于 SoIC 的 OE 的帶寬密度是采用凸點(diǎn)集成的 OE 的 23 倍以上。

COUPE 支持整個光學(xué)引擎設(shè)計(jì)和集成流程。在光學(xué) I/O 方面，它支持微透鏡設(shè)計(jì)，可在晶圓或芯片級集成微透鏡，并支持涵蓋反射鏡、微透鏡、光柵耦合器 (GC) 和反射器等光學(xué) I/O 路徑的仿真。在 3D 堆疊方面，它支持 3D 布局規(guī)劃、SoIC-X/TDV/C4 凸點(diǎn)布局實(shí)現(xiàn)、接口物理檢查以及高頻通道模型提取和仿真。為確保無縫開發(fā)，公司提供完整的 COUPE 設(shè)計(jì)和驗(yàn)證 PDK 和 EDA 工作流程，使設(shè)計(jì)人員能夠高效地實(shí)現(xiàn)其技術(shù)。

耦合：稍后我們將詳細(xì)介紹，主要有兩種耦合方式——光柵耦合 (GCgrating coupling ) 和邊緣耦合 (ECedge coupling)。COUPE 在無凸點(diǎn) PIC 堆疊結(jié)構(gòu)上使用相同的 EIC 來實(shí)現(xiàn) GC 和 EC。然而，COUPE-GC 結(jié)構(gòu)將采用硅透鏡 (Si 透鏡) 和金屬反射器 (MR)，而 COUPE-EC 結(jié)構(gòu)則具有獨(dú)特的 EC 端面（用于將 EC 端接至光纖）。對于 GC，Si 透鏡設(shè)計(jì)在 770μm 厚的硅載體 (Si 載體) 上，MR 位于 GC 正下方，并帶有優(yōu)化光學(xué)性能所需的介質(zhì)層。然后，Si 載體通過晶圓級 (WoW) 鍵合到芯片級 (CoW) 晶圓上。

光纖連接單元 (FAUFiber Attach Unit) ：FAU 的設(shè)計(jì)需要與 COUPE 的光路相匹配。FAU 的作用是以低插入損耗將來自硅透鏡的光耦合到光纖中。隨著 I/O 數(shù)量的增加，制造難度也會增加，但如果業(yè)界能夠遵循特定標(biāo)準(zhǔn)，則可以縮短開發(fā)時間并降低成本�？偠灾�，每個組件都需要優(yōu)化設(shè)計(jì)才能實(shí)現(xiàn)最佳光學(xué)性能。

產(chǎn)品路線圖：COUPE 的首批迭代產(chǎn)品將是基板上的光引擎，最終目標(biāo)是將光引擎放置在中介層上。中介層可提供更高的 I/O 密度，從而實(shí)現(xiàn)光引擎與 ASIC PHY 之間更大的帶寬，單個光引擎的帶寬最高可達(dá) 12.8Tbit/s，相當(dāng)于約 4Tbit/s/mm。集成中介層的挑戰(zhàn)在于如何縮小中介層的尺寸（中介層比封裝基板更昂貴）以容納光引擎。

這就是為什么博通盡管此前已采用SPIL開發(fā)的扇出型晶圓級封裝（FOWLP）技術(shù)迭代了多代CPO解決方案，最終還是決定轉(zhuǎn)向臺積電的COUPE技術(shù)。值得注意的是，博通已承諾在其未來的交換機(jī)和客戶加速器產(chǎn)品路線圖中采用COUPE技術(shù)。我們了解到，由于寄生電容過大，F(xiàn)OWLP技術(shù)無法實(shí)現(xiàn)單通道100G以上的擴(kuò)展，因?yàn)殡娦盘柋仨毻ㄟ^模內(nèi)通孔（TMV）才能到達(dá)EIC。為了保持產(chǎn)品路線圖的競爭力，博通必須轉(zhuǎn)向COUPE技術(shù)，因?yàn)樵摷夹g(shù)具有更優(yōu)異的性能和可擴(kuò)展性。這凸顯了臺積電的技術(shù)優(yōu)勢，使其即使在以往被認(rèn)為較弱的光學(xué)領(lǐng)域也能贏得市場。

將 OE 與主機(jī)打包

OE本身被放置在基板上，之后基板通過倒裝芯片鍵合連接到主機(jī)封裝上。共封裝OE需要很大的封裝面積。這就需要顯著增大封裝基板或中介層的尺寸，具體取決于OE的放置位置。例如，英偉達(dá)Spectrum-X Photonics開關(guān)ASIC封裝的基板尺寸為110mm x 110mm。相比之下，Blackwell封裝的尺寸為70mm x 76mm，而Blackwell本身也是一個非常大的芯片。

此外，將更多元件連接到基板上會帶來良率方面的挑戰(zhàn)。同樣，對于 Spectrum-X 而言，需要先將 36 個已知良率良好的 OE 元件倒裝鍵合到基板上，然后再將中介層模塊鍵合到基板上，完成“基板上”組裝步驟，從而完成 CoWoS 組件的組裝。

同樣，對于中介層而言，制造尺寸更大的中介層成本更高，需要粘合更多元件，這會帶來良率方面的挑戰(zhàn)。此外，隨著中介層/基板尺寸的增大，翹曲問題會更加突出，從而加劇這些挑戰(zhàn)。

二、FAU 和光纖耦合

光纖從OE引出用于數(shù)據(jù)傳輸。一條光通道由兩根光纖或一對光纖組成（發(fā)送加接收）。光纖耦合——即將光纖與片上波導(dǎo)精確對準(zhǔn)以實(shí)現(xiàn)平滑高效的光傳輸——是芯片光子輸出 (CPO) 中至關(guān)重要且極具挑戰(zhàn)性的步驟，而光纖陣列單元 (FAU) 在 CPO 中被廣泛用于輔助這一過程。實(shí)現(xiàn)光纖耦合主要有兩種方式：邊緣耦合 (EC) 和光柵耦合 (GC)。

邊緣耦合

邊緣耦合將光纖沿芯片邊緣對齊。從下圖可以看出，光纖末端必須與芯片的拋光邊緣精確對齊，以確保光束準(zhǔn)確進(jìn)入邊緣耦合器。光纖末端的微透鏡將光聚焦并導(dǎo)向芯片，引導(dǎo)光束進(jìn)入波導(dǎo)。波導(dǎo)的錐形部分逐漸變寬，從而實(shí)現(xiàn)平滑的模式過渡，減少反射和散射，確保耦合效率。如果沒有這樣的透鏡和錐形部分，光纖端面和波導(dǎo)端面之間的界面處將存在顯著的光損耗。

邊緣耦合因其耦合損耗低、可與寬波長范圍的光配合使用以及對偏振不敏感而備受青睞。然而，它也存在一些缺點(diǎn)：

1、制造過程更加復(fù)雜，需要進(jìn)行底切和深蝕刻；

2、由于纖維是一維結(jié)構(gòu)，因此纖維密度可能受到限制；

3、它與芯片堆疊不兼容（因?yàn)門SV需要減�。�；

4、機(jī)械可靠性方面的挑戰(zhàn)包括外形尺寸、機(jī)械應(yīng)力、翹曲和纖維處理；

5、它的熱可靠性較低；

6、總體而言，生態(tài)系統(tǒng)兼容性不足。

在今年的超大規(guī)模集成電路（VLSI）大會上，Global Foundries（GFS）展示了一款單片集成的SiN邊緣耦合器，該耦合器在其標(biāo)志性的45nm“Fotonix”平臺上實(shí)現(xiàn)了32個通道和127μm間距。

光柵耦合（GC）

在光柵耦合器（GC）中，光從頂部進(jìn)入，光纖以較小的角度位于光柵上方。當(dāng)光到達(dá)光柵時，周期性結(jié)構(gòu)會散射光并將其向下彎曲進(jìn)入波導(dǎo)。

光柵/垂直耦合的主要優(yōu)勢在于能夠容納多排光纖，從而允許每個光引擎使用更多光纖。此外，光柵耦合器無需放置在基板底部，因此可以將光引擎放置在中介層上。最后，光柵耦合器的定位精度要求不高，并且可以通過簡單的兩步蝕刻工藝輕松制造。光柵耦合器的缺點(diǎn)是單偏振光柵耦合器僅適用于有限的波長范圍，并且對偏振非常敏感。

英偉達(dá)之所以偏愛GC技術(shù)，是因?yàn)樗哂兄T多優(yōu)勢——它能實(shí)現(xiàn)二維高密度封裝，占地面積更小，制造工藝更簡便，并且相比EC技術(shù)，晶圓級測試也更簡單。然而，該公司也意識到GC技術(shù)的幾個缺點(diǎn)——它通常會引入更高的光損耗，并且光帶寬比EC技術(shù)更窄（后者通常可以容納更寬的光譜范圍）。

臺積電顯然也更偏愛GC，其COUPE平臺支持GC。

三、激光器類型和波分復(fù)用（WDM）

將激光器集成到 CPO 中主要有兩種方法。

第一種方法是片上激光器，它將激光器和調(diào)制器集成在同一光子芯片上，通常是通過將 III-V 族（InP）材料鍵合到硅上來實(shí)現(xiàn)的。雖然片上激光器簡化了設(shè)計(jì)并降低了插入損耗，但也存在一些挑戰(zhàn)：

眾所周知，激光器是系統(tǒng)中故障率最高的組件之一——如果將其集成到 CPO 引擎中，故障將產(chǎn)生巨大的影響范圍，因?yàn)樗鼤輾д麄€芯片；

激光器對熱也很敏感，將它們放在共封裝的 OE 上會使激光器暴露在高溫下，因?yàn)樗鼤浅？拷到y(tǒng)中溫度最高的部分——主體硅，這只會加劇這個問題；

片上激光器通常難以提供足夠高的功率輸出。

目前業(yè)界普遍認(rèn)同的方案是采用外部光源（ELS）。激光器位于一個獨(dú)立的模塊中，通過光纖連接到光引擎。通常，這種激光器采用可插拔封裝，例如OSFP。這種設(shè)計(jì)簡化了激光器故障（這種情況相當(dāng)常見）的現(xiàn)場維修。

ELS的缺點(diǎn)是功耗較高。如下圖所示，在基于ELS的系統(tǒng)中，由于連接器損耗、光纖耦合損耗和調(diào)制器效率低下等多種因素，輸出功率會在多個階段損失。因此，該系統(tǒng)中的每個激光器必須提供24.5 dBm的光功率來補(bǔ)償損耗并確�？煽總鬏敗８吖β始す馄鲿a(chǎn)生更多熱量，并且在熱應(yīng)力下性能下降更快，激光器和熱電冷卻器約占ELS功耗的70%。雖然激光器設(shè)計(jì)、封裝和光路方面的改進(jìn)有所幫助，但激光器高功率需求的問題尚未得到徹底解決。

在今年的 VLSI 大會上，Nvidia 重點(diǎn)介紹了其生態(tài)系統(tǒng)中的幾家激光合作伙伴：Lumentum 提供單個高功率 DFB，Ayar Labs 提供 DFB 陣列，Innolume 提供量子點(diǎn)鎖模梳，以及 Xscape、Enlightra 和 Iloomina 提供泵浦非線性諧振梳。

英偉達(dá)也曾討論過探索使用VCSEL陣列作為潛在的替代激光解決方案。雖然單根光纖的數(shù)據(jù)速率會較低，并且可能存在一些散熱問題，但VCSEL或許能夠提供更高的功率和成本效益，并且適用于“寬帶寬、低速”的應(yīng)用。不過，我們認(rèn)為這并非英偉達(dá)的當(dāng)務(wù)之急。

波分復(fù)用 (WDM) 是指在同一根光纖上傳輸多個不同波長（或稱λ）的光。WDM 的兩種常見變體是粗波分復(fù)用 (CWDM) 和密集波分復(fù)用 (DWDM)。CWDM 通常承載較少的通道，通道間距相對較大（通常為 20 nm），而 DWDM 則承載許多通道，通道間距非常�。ㄍǔＰ∮� 1 nm）。CWDM 較寬的通道間距限制了其容量，而 DWDM 較窄的通道間距可以容納 40、80 甚至 100 多個通道。WDM 非常重要，因?yàn)槟壳按蠖鄶?shù) CPO 實(shí)現(xiàn)方案都受到可連接到光引擎的光纖數(shù)量的限制。有限的光纖對意味著必須最大化利用每一對光纖。

四、調(diào)制器類型

當(dāng)激光進(jìn)入光子集成電路（PIC）時，它們會經(jīng)歷一個調(diào)制階段（由驅(qū)動器驅(qū)動），在此階段，電信號被編碼到激光的波長中。用于此過程的三種主要調(diào)制器是馬赫-曾德爾調(diào)制器（MZM）、微環(huán)調(diào)制器（MRM）和電吸收調(diào)制器（EAM）。每個波長（單個光路上的單個波長）都需要一個調(diào)制器。馬赫-曾德爾調(diào)制器（MZM）

1、馬赫-曾德爾調(diào)制器（ MZM：Mach-Zehnder Modulator ）

通過將連續(xù)波光信號分成兩路波導(dǎo)臂來編碼數(shù)據(jù)，這兩路波導(dǎo)臂的折射率可通過施加電壓來改變。當(dāng)兩路波導(dǎo)臂重新組合時，它們的干涉圖樣會調(diào)制信號的強(qiáng)度或相位。

在三種調(diào)制器中，MZM 最易于實(shí)現(xiàn)，且熱敏感性低，因此無需精確的溫度控制。其高線性度支持 PAM4 和相干 QAM 等高級調(diào)制格式（盡管 QAM 不適用于高性能計(jì)算/人工智能工作負(fù)載）。MZM 的低啁啾特性提高了高階調(diào)制和遠(yuǎn)距離傳輸?shù)男盘柾暾�。此外，MZM 還支持更高的單通道帶寬：已證實(shí)每通道 200G 的帶寬可行，并且據(jù)信使用非相干 PAM 調(diào)制可以實(shí)現(xiàn)每通道 400G 的帶寬。

然而，MZM的缺點(diǎn)是：

由于MZM需要兩個波導(dǎo)臂和一個合路區(qū)，其尺寸較大，以毫米級測量（相比之下，MRM的尺寸以微米級測量），這會占用更多的芯片面積，并限制光電集成電路（OE PIC）中調(diào)制器（以及通道）的密度。MZM的尺寸約為12,000mm2 ，EAM約為250mm2 （5x50mm），而MRM的尺寸在25mm2到225mm2之間（直徑5-15mm2 ）。這是MZM的一個關(guān)鍵缺點(diǎn)，會限制其尺寸的縮小。然而，如果考慮到包含驅(qū)動器和調(diào)制器周圍光電控制電路的完整PIC/EIC組合的尺寸，MZM的尺寸劣勢可能就不那么明顯了。

由于相移過程需要大量能量，因此馬赫-曾德爾調(diào)制器（MZM）的功耗較高。此外，其偏置條件（即啟動電壓）也高于工作在亞電壓下的MRM。然而，像Nubis這樣的公司正在嘗試開發(fā)巧妙的設(shè)計(jì)來改善MZM的功耗劣勢。

在創(chuàng)業(yè)生態(tài)系統(tǒng)中，Nubis是主要利用MZM構(gòu)建其規(guī)模化CPO解決方案的公司之一。由于MZM體積較大且lambda函數(shù)數(shù)量有限，因此在創(chuàng)業(yè)生態(tài)系統(tǒng)中并未得到廣泛應(yīng)用。微環(huán)調(diào)制器（MRM）

2、調(diào)制反射調(diào)制器（ MRM：Micro-Ring Modulators ）

使用一個緊湊的環(huán)形波導(dǎo)，該波導(dǎo)與一個或多個直波導(dǎo)耦合。電信號會改變環(huán)形波導(dǎo)的折射率，從而改變其諧振波長。通過調(diào)節(jié)諧振頻率使其與輸入光波長對齊或錯位，MRM 可以調(diào)制光信號的強(qiáng)度或相位，從而實(shí)現(xiàn)數(shù)據(jù)編碼。

光源從輸入端口進(jìn)入環(huán)形諧振器——對于大多數(shù)波長的光，環(huán)形諧振器不會發(fā)生諧振，因此光會從輸入端口穿過器件到達(dá)直通端口。如果波長滿足諧振條件，則光會在環(huán)形諧振器中發(fā)生相長干涉，并被引入下端口。如下圖所示的歸一化功率曲線所示，特定波長的光會在下端口引起傳輸功率的尖峰，并在直通端口引起相應(yīng)的傳輸功率下降。這種效應(yīng)可用于調(diào)制。

光引擎通常使用多個 MRM，每個環(huán)都可以調(diào)諧到不同的波長，從而可以使用環(huán)本身實(shí)現(xiàn)波分復(fù)用 (WDM)，而無需額外的設(shè)備來實(shí)現(xiàn) WDM。

MRM具有以下幾個主要優(yōu)勢：

它們極其緊湊（尺寸在幾十微米以內(nèi)），因此可以比 MZM 具有更高的調(diào)制器密度。MZM 的尺寸約為 12,000mm2 ，EAM 約為 250mm2 （5x50mm），MRM 的尺寸在 25mm2到225mm2之間（直徑 5-15mm2）；

環(huán)形天線非常適合 WDM 應(yīng)用（包括 8 或 16 個波長的 DWDM），并且具有內(nèi)置復(fù)用/解復(fù)用功能；

MRM 可以非常節(jié)能（每比特功耗更低）；

最后，環(huán)形天線的啁啾聲很低，這提高了信號質(zhì)量。

然而，MRM也面臨一些挑戰(zhàn)：

MRM 的溫度敏感度可能比 MZM 和 EAM 高 10-100 倍，因此需要非常精確的控制系統(tǒng)，而這些控制系統(tǒng)的設(shè)計(jì)和制造都具有挑戰(zhàn)性；

它們是非線性的，這使得 PAM4/6/8 等高階調(diào)制變得復(fù)雜；

由于每個設(shè)計(jì)都有精確的要求，因此 MRM 的靈敏度和嚴(yán)格的溫度控制公差使得標(biāo)準(zhǔn)化變得困難。

在眾多解決方案提供商中，英偉達(dá)對微控制器模塊（MRM）表現(xiàn)出明顯的偏好。他們聲稱是首家設(shè)計(jì)并將MRM應(yīng)用于CPO系統(tǒng)的公司。該公司認(rèn)為MRM的關(guān)鍵優(yōu)勢在于其緊湊的尺寸和低驅(qū)動電壓，這有助于降低功耗。然而，MRM技術(shù)也以難以控制而著稱，因此設(shè)計(jì)精度對于成功實(shí)施至關(guān)重要——而這恰恰是英偉達(dá)的優(yōu)勢所在。

在制造方面，臺積電先進(jìn)的CMOS技術(shù)非常適合制造高精度、高品質(zhì)因數(shù)的微反射鏡。此外，Tower公司在光子學(xué)節(jié)點(diǎn)方面也擁有強(qiáng)大的制造能力。

MRM（混合存儲器模塊）的實(shí)現(xiàn)雖然具有挑戰(zhàn)性，但并非完全不可行。它們有望實(shí)現(xiàn)比MZM（混合零模存儲器）更高的帶寬密度。正因如此，臺積電、英偉達(dá)以及眾多CPO（芯片產(chǎn)品）公司，例如Ayar Labs、Lightmatter和Ranovus，都將目光聚焦于這項(xiàng)技術(shù)路線圖。電吸收調(diào)制器（EAM）

3、電吸收調(diào)制器（EAM：Electro-Absorption Modulators）

通過改變其對光的吸收能力來調(diào)制信號，這種改變?nèi)Q于所施加的電壓。更具體地說，當(dāng)對EAM施加低電壓或無電壓時，該器件允許大部分入射激光通過，使其呈現(xiàn)透明或“開放”狀態(tài)。當(dāng)施加較高電壓時，鍺硅（GeSi）調(diào)制器的帶隙會移動以覆蓋高C波段范圍（1500nm以上），從而增加這些波長的吸收系數(shù)，并衰減“關(guān)閉”通過附近波導(dǎo)的光信號。這被稱為弗朗茨-凱爾迪什效應(yīng)。這種“開放”和“關(guān)閉”狀態(tài)之間的切換會調(diào)制光的強(qiáng)度，從而有效地將數(shù)據(jù)編碼到光信號上。

如今，采用電吸收調(diào)制激光器 (EML) 進(jìn)行調(diào)制的收發(fā)器也運(yùn)用了相同的原理。連續(xù)波 (CW：continuous wave) 分布式反饋 (DFB：distributed feedback) 激光器和基于磷化銦 (InP) 的電吸收調(diào)制器 (EAM) 耦合在一起，構(gòu)成一個獨(dú)立的 EML，可以調(diào)制一條光纖通道。例如，一個 800G DR8 收發(fā)器在 8 條獨(dú)立的光纖通道上使用 8 個 EML，每個 EML 使用 PAM4 調(diào)制（2 比特/信號），信令速率約為 56 GBaud。與基于鍺硅 (GeSi) 的調(diào)制器不同，InP 調(diào)制器的帶隙對應(yīng)于 O 波段 (1310nm)，這是所有數(shù)據(jù)通信 DR 光器件的標(biāo)準(zhǔn)波長，從而實(shí)現(xiàn)了高度的互操作性。

InP調(diào)制器存在一些缺點(diǎn)，使其不太適合用于CPO工藝。InP晶圓尺寸通常較小（3英寸或6英寸），且良率較低——這兩個因素都會導(dǎo)致基于InP的器件單位成本高于可采用8英寸或12英寸工藝制造的硅器件。此外，將InP與硅耦合也比將GeSi與其他硅器件耦合要困難得多。

與 MRM 和 MZI 相比，EAM 具有以下幾個優(yōu)勢：

顯然，EAM 和 MRM 都具有控制邏輯和加熱器，用于穩(wěn)定其工作溫度，但 EAM 對溫度的敏感性從根本上來說要低。與 MRM 相比，EAM 在 50°C 以上具有更好的熱穩(wěn)定性，而 MRM 對溫度非常敏感。MRM 的典型穩(wěn)定性為 70-90 pm/°C，這意味著 2°C 的溫度變化會導(dǎo)致諧振頻率偏移 0.14nm，遠(yuǎn)遠(yuǎn)超過 MRM 性能崩潰所需的 0.1nm 諧振頻率偏移。相比之下，EAM 可以承受高達(dá) 35°C 的瞬時溫度變化。這種耐受性對于 Celestial AI 的方案尤為重要，因?yàn)樗麄兊?EAM 調(diào)制器位于高功耗 XPU 計(jì)算引擎下方的中介層中，該引擎會消耗數(shù)百瓦的功率。EAM 還可以承受高達(dá) 80°C 的環(huán)境溫度，這可能適用于位于 XPU 旁邊而非下方的芯片組應(yīng)用。

與馬赫-曾德爾調(diào)制器 (MZI) 相比，電吸收調(diào)制器 (EAM) 的尺寸要小得多，功耗也更低。這是因?yàn)?MZI 的尺寸相對較大，需要較高的電壓擺幅，而 EAM 需要通過放大串行器/解調(diào)器 (SerDes) 來實(shí)現(xiàn) 0-5V 的擺幅。馬赫-曾德爾調(diào)制器 (MZM) 的面積約為 12,000mm2 ，EAM 約為 250mm2 ( 5x50mm)，而馬赫-曾德爾調(diào)制器 (MRM) 的面積則在 25mm2 到 225mm2 之間（直徑5-15mm2 ）。此外，MZI 還需要更高的功率來驅(qū)動加熱器，以維持如此大的器件在所需的偏置電壓下工作。

另一方面，使用GeSi EAM進(jìn)行CPO也存在一些缺點(diǎn)：

基于硅或氮化硅的物理調(diào)制器結(jié)構(gòu)，例如MRM和MZI，通常被認(rèn)為比基于GeSi的器件具有更高的耐久性和可靠性。事實(shí)上，鑒于鍺基器件的加工和集成難度，許多人對基于GeSi的器件的可靠性表示擔(dān)憂。但Celestial公司認(rèn)為，基于GeSi的EAM（本質(zhì)上是光電探測器的逆過程）的可靠性是毋庸置疑的，因?yàn)槿缃窆怆娞綔y器在收發(fā)器中應(yīng)用廣泛。

GeSi調(diào)制器的能帶邊緣天然位于C波段（即1530nm-1565nm）。設(shè)計(jì)量子阱將其移至O波段（即1260nm-1360nm）是一個非常棘手的工程難題。這意味著基于GeSi的EAM很可能構(gòu)成一個封閉式CPO系統(tǒng)，而難以融入開放式芯片生態(tài)系統(tǒng)。

與使用成熟的O波段連續(xù)波激光器生態(tài)系統(tǒng)相比，圍繞C波段激光器構(gòu)建激光生態(tài)系統(tǒng)可能會存在規(guī)模不經(jīng)濟(jì)的問題。大多數(shù)數(shù)據(jù)通信激光器都是為O波段設(shè)計(jì)的，但Celestial指出，目前也生產(chǎn)相當(dāng)數(shù)量的1577nm XGS-PON激光器。這些激光器通常用于家庭和企業(yè)光纖到戶連接應(yīng)用。

SiGe EAM 的插入損耗約為 4-5dB，而 MRM 和 MZI 的插入損耗約為 3-5dB。雖然 MRM 可以直接復(fù)用不同波長，但 EAM 需要單獨(dú)的復(fù)用器來實(shí)現(xiàn) CWDM 或 DWDM，這會略微增加潛在的損耗預(yù)算。

總體而言，EAM 在當(dāng)前的 CPO 實(shí)施中并未得到廣泛應(yīng)用，而 Celestial AI 是少數(shù)積極采用這種方法的公司之一。

OE路線圖——擴(kuò)大OE規(guī)模

目前市面上的光學(xué)引擎通常提供 1.6T 到 3.2T 的總帶寬。英偉達(dá)的 Quantum CPO 包含一個 1.6T 的引擎，并計(jì)劃為 Spectrum 推出 3.2T 版本。博通展示了其為 Bailly 平臺開發(fā)的 6.4T 光學(xué)引擎，但其尺寸非常大（寬度是英偉達(dá)產(chǎn)品的 2-3 倍），并且需要兩個 FAU，因此其帶寬密度可能與英偉達(dá)的產(chǎn)品類似。Marvell 的 6.4T 光學(xué)引擎也存在同樣的問題，需要兩個 FAU，因此占用空間較大。據(jù)我們所知，Marvell 的光學(xué)引擎近期也不會應(yīng)用于任何量產(chǎn)系統(tǒng)。

正如我們之前討論過的，英偉達(dá)Spectrum-X光子交換機(jī)中采用的3.2T光引擎（OE）方案，其海岸線帶寬密度并不比采用長距離SerDes的可插拔交換機(jī)更高。換句話說，光引擎密度必須成倍提升才能帶來顯著的性能優(yōu)勢并推動客戶采用。這意味著既要擴(kuò)展主機(jī)芯片與光引擎EIC之間的電氣接口，也要擴(kuò)展光纖輸出的帶寬。

但是，如果我們能夠自由地設(shè)計(jì)下一代互連技術(shù)，那么有哪些方法可以為這一代以及未來的互連技術(shù)釋放更大的帶寬呢？擴(kuò)展帶寬的關(guān)鍵方法

讓我們來探討一下擴(kuò)展共封裝光引擎帶寬的關(guān)鍵方法：

1、繼續(xù)采用基于電SerDes的PHY：通過使用短距離（SR）SerDes而非長距離SerDes，可以簡化設(shè)計(jì)實(shí)現(xiàn)、減小面積并降低功耗。但最終，這仍然會受到電接口處SerDes速度的限制，而我們在這方面已經(jīng)接近極限。此處的想法是采用一種過渡方案，使芯片設(shè)計(jì)人員無需重新設(shè)計(jì)其I/O。此外，使用電SerDes還可以靈活地在同一芯片上使用現(xiàn)有的可插拔光模塊和/或銅箔。

2、使用寬 I/O PHY（例如 UCIe），并采用較低的波特率（例如 56G）和 NRZ 調(diào)制。這可以降低光引擎的 EIC 要求，甚至可以省去昂貴的混合綁定，因?yàn)樵诘退賯鬏敃r寄生效應(yīng)的影響較小。然而，使用低信號速率意味著離開光引擎的光纖數(shù)量更容易成為瓶頸。波分復(fù)用 (WDM) 通過允許每根光纖并行傳輸多個數(shù)據(jù)流來解決這個問題。

3、使用諸如 UCIe 之類的寬 I/O PHY，然后讓 EIC 將信號串行化到較少數(shù)量的光纖通道。繼續(xù)使用高波特率和 PAM4 調(diào)制來最大化每條光通道的速度，如果需要，可以使用 WDM 方案添加多個波長，從而允許每對光纖傳輸多個波長，以進(jìn)一步提高帶寬。

解決了電氣方面的問題后，下一個挑戰(zhàn)是光纖能夠承載多大的逃逸帶寬。光纖總帶寬取決于三個關(guān)鍵因素：1）光纖數(shù)量（決定光通道數(shù)量）；2）每條光通道的傳輸速度；3）每根光纖的波長數(shù)量——每個因素都代表著一個擴(kuò)展維度。

近來，業(yè)界將光纖傳輸理念分為兩大類：快速窄帶和慢速寬帶（Fast and Narrow vs Slow and Wide）�？焖僬瓗Х桨冈O(shè)想每個光纖單元 (FAU) 使用較少的光纖（最多不超過兩位數(shù)），并且每對光纖都提供高速鏈路；而慢速寬帶方案則基于更多的光纖對（可能采用更小的間距）以及每對光纖更低的帶寬。

1、更多光纖對：光纖密度受光纖間距限制，而單個光纖陣列單元 (FAU) 內(nèi)的光纖總數(shù)則受限于制造工藝，超過此限制，良率就會受到影響。目前，光纖的最小間距為 127 微米 (μm)，這意味著每毫米最多可容納 8 根光纖。業(yè)界正致力于研發(fā) 80 μm 間距和多芯光纖，以進(jìn)一步提高特定區(qū)域可容納的光纖數(shù)量。然而，增加光纖數(shù)量會帶來制造方面的挑戰(zhàn)：

A) 光纖對準(zhǔn)仍然需要大量人工操作，容易造成良率損失，而且每增加一根需要對準(zhǔn)的光纖，F(xiàn)AU 的良率都會下降；雖然像 Ficontec 這樣的公司提供了自動化工具，但它們的吞吐量仍然很低；

B) 耦合方式的選擇也很重要：邊緣耦合將光纖陣列限制為單行，而光柵耦合可以支持多行。目前我們見過的最大光纖陣列是 Nubis 的二維 FAU，它包含 36 根光纖。

2、每lane的速度：影響lane速度的因素有兩個：

A)波特率：定義每秒發(fā)送的符號數(shù)；目前先進(jìn)的系統(tǒng)運(yùn)行在 100 Gbaud，而業(yè)界正在努力實(shí)現(xiàn) 200 Gbaud。然而，更高的波特率對調(diào)制器提出了更高的要求，即需要以更高的頻率進(jìn)行切換；在各種類型的調(diào)制器中，MZM 在這方面表現(xiàn)最佳，并且相對而言，實(shí)現(xiàn) 200 Gbaud 的路徑也最為清晰。

B)調(diào)制方式：定義每個符號攜帶的比特數(shù)。NRZ（每個符號 1 比特）和 PAM4（每個符號 2 比特，通過 4 種不同的幅度）目前被廣泛采用。研究正在擴(kuò)展到 PAM6（每個符號約 2.6 比特）和 PAM8（每個符號 3 比特）。通過使用不同相位的光信號以及多個幅度級別，可以實(shí)現(xiàn)更高階的調(diào)制方案。 DP-16QAM 可實(shí)現(xiàn)兩個正交平面，每個平面具有 4 種不同的幅度、4 種不同的相位，總共可產(chǎn)生 256 種可能的信號——每個信號可提供 8 位。

3、波分復(fù)用 (WDM) ：光纖可以同時傳輸多個波長的光。例如，一根具有 8 個波長的光纖，每個波長傳輸 200Gbit/s 的數(shù)據(jù)，總傳輸容量可達(dá) 1.6Tbit/s。目前市售的 DWDM 解決方案通常提供 8 波長或 16 波長配置。研究人員也在探索寬光譜、頻帶復(fù)用和交織技術(shù)來增加波長數(shù)量。擴(kuò)展波長數(shù)量的一個關(guān)鍵挑戰(zhàn)是開發(fā)能夠可靠高效地產(chǎn)生多條光通道的激光光源。

Ayar Labs 的 Supernova 光源配備了一個能夠產(chǎn)生 16 個波長的激光器（該激光器由 Sivers 提供）。Scintil 的晶圓級 InP 激光器同樣可以提供多達(dá) 16 個波長，而 Xscape Photonics 正在致力于開發(fā)一種可調(diào)諧的梳狀激光器，其波長可達(dá) 64 個。在調(diào)制器中，MRM 最適合處理多個波長，并且具有內(nèi)置的復(fù)用（mux）和解復(fù)用（demux）功能。

下表概述了將光學(xué)引擎擴(kuò)展到 12.8T 及以上的幾種方法。

CPO 的采用速度和部署挑戰(zhàn)

英偉達(dá)的首批CPO產(chǎn)品將面向后端橫向擴(kuò)展交換機(jī)，其中InfiniBand CPO交換機(jī)將于2025年下半年上市，以太網(wǎng)CPO交換機(jī)將于2026年下半年上市。我們認(rèn)為，這一初期階段主要目的是進(jìn)行市場測試，并為供應(yīng)鏈的成熟做好準(zhǔn)備。我們預(yù)計(jì)2026年的總出貨量將在1萬至1.5萬臺之間。

要使CPO部署能夠更快、更廣泛地推進(jìn)并真正普及，就必須有更令人信服的理由來支持采用CPO。可能的原因有兩種：一是采用CPO能夠顯著降低總體擁有成本；二是驅(qū)動信號從交換機(jī)ASIC傳輸?shù)浇粨Q機(jī)盒前面板所需的長距離SerDes在速度或傳輸距離方面遇到了瓶頸。

數(shù)據(jù)中心運(yùn)營商不喜歡部署基于 CPO 的系統(tǒng)，而這主要體現(xiàn)在兩個方面，即缺乏互操作性和可維護(hù)性挑戰(zhàn)，從而抵消了 TCO 的任何優(yōu)勢。

CPO的挑戰(zhàn)不僅限于封裝內(nèi)部，還延伸至整個系統(tǒng)。光纖管理、前面板密度、外部激光器等都是至關(guān)重要的環(huán)節(jié)，但也極具挑戰(zhàn)性。為了實(shí)現(xiàn)CPO，芯片公司需要提供客戶可部署的端到端解決方案。這延續(xù)了我們目前觀察到的趨勢，尤其是在英偉達(dá)（Nvidia）身上，該公司專注于系統(tǒng)設(shè)計(jì)以擴(kuò)展性能。

專有解決方案與標(biāo)準(zhǔn)

CPO 采用面臨的一個關(guān)鍵挑戰(zhàn)是實(shí)現(xiàn)互操作性，同時克服業(yè)界對成熟且高度互操作的可插拔光模塊模型的根深蒂固的依賴。

互操作性主要有三種類型：（1）電氣互操作性，（2）光學(xué)互操作性，以及（3）機(jī)械互操作性。對于可插拔設(shè)備而言，互操作性：

1、通常由光互聯(lián)網(wǎng)論壇 (OIF) 負(fù)責(zé)處理，

2、通常由 IEEE（有時也由 OIF）負(fù)責(zé)處理。IEEE 通過其 IEEE 802.3 標(biāo)準(zhǔn)發(fā)揮著核心作用，該標(biāo)準(zhǔn)定義了以太網(wǎng)物理介質(zhì)相關(guān) (PMD) 層。這些規(guī)范涵蓋了關(guān)鍵參數(shù)，例如調(diào)制格式、通道速度、通道數(shù)量、傳輸距離、介質(zhì)類型以及光信號的波長。通過遵循這些標(biāo)準(zhǔn)化的 PMD，不同廠商的收發(fā)器可以互換使用，從而確保在多廠商生態(tài)系統(tǒng)中實(shí)現(xiàn)真正的即插即用兼容性，

3、通常由多源協(xié)議 (MSA) 負(fù)責(zé)處理。MSA 定義了專門的解決方案，并確保在官方 IEEE 標(biāo)準(zhǔn)之外的多廠商互操作性。

通過 OIF、IEEE 標(biāo)準(zhǔn)和 MSA 的結(jié)合，可插拔收發(fā)器實(shí)現(xiàn)了廣泛的互操作性和強(qiáng)大的多廠商生態(tài)系統(tǒng)。對于 CPO 而言：

1、CPO 模塊的電氣兼容性至關(guān)重要，否則它們將無法與最先進(jìn)的 SerDes 通信。

2、光兼容性也十分重要，因?yàn)樗梢耘c集群中其他位置的標(biāo)準(zhǔn)可插拔設(shè)備兼容。

3、需要注意的是，CPO 目前仍處于“蠻荒西部”階段，一些解決方案和架構(gòu)決策導(dǎo)致了完全專有的外形尺寸。這正是新的 OIF 高密度互連方案（例如 CPX 范式）試圖解決的問題。

一旦滿足了 (1)+(2)+(3) 的要求，CPO 的操作方式將與可插拔設(shè)備非常相似，這將有助于其廣泛應(yīng)用。

然而，目前CPO在標(biāo)準(zhǔn)化方面還不如可封裝芯片那樣成熟，也無法像光收發(fā)器那樣保證互操作性。部分原因是廠商更傾向于推廣系統(tǒng)級解決方案，而不是單獨(dú)向芯片制造商銷售芯片。這是因?yàn)镃PO的挑戰(zhàn)不僅限于封裝內(nèi)部，還延伸到整個系統(tǒng)。光纖管理、前面板密度、調(diào)制器架構(gòu)和外部激光器等都是至關(guān)重要的環(huán)節(jié)，同時也帶來了諸多挑戰(zhàn)。為了推動CPO的普及，像英偉達(dá)這樣的公司需要首先提供端到端的解決方案。

實(shí)現(xiàn)這一目標(biāo)的一種方法是采用組件級標(biāo)準(zhǔn)化解決方案，其中共封裝的光電器件（OE）采用標(biāo)準(zhǔn)化的光纖接口，并集成符合以太網(wǎng)標(biāo)準(zhǔn)或多標(biāo)準(zhǔn)協(xié)議（MSA）的波長、速度和調(diào)制方式的光子組件，例如激光器、調(diào)制器和光電二極管。這將實(shí)現(xiàn)真正的互操作性，使客戶能夠混合搭配不同供應(yīng)商的產(chǎn)品，而無需從單一...

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.