多數(shù)據(jù)中心訓練：OpenAI、Google、Anthropic三家野心勃勃

2024-09-06 17:56:02　來源: dobigdata

北京舉報

分享至

【編者按】大模型競爭的背后也是基礎設施的競爭。隨著大模型規(guī)模越來越大，單體數(shù)據(jù)中心所能承受的訓練量逐步達到臨界值，未來多數(shù)據(jù)中心訓練成為趨勢。大模型三巨頭OpenAI、Google和Anthropic均在布局多數(shù)據(jù)中心訓練，Semianalysis對三巨頭多數(shù)據(jù)中心訓練的情況進行了分析，以下是具體內(nèi)容。

由于Scaling Laws不斷改進，當前的人工智能基礎設施愈發(fā)難以滿足需求。像OpenAI、Google Gemini等領(lǐng)先的前沿人工智能模型訓練集群今年已擴展到10 萬個 GPU ，并計劃到 2025 年將超過 30 萬個 GPU 集群?？紤]到建設時間、許可、法規(guī)和電力可用性等物理限制，傳統(tǒng)的同步訓練方法單個數(shù)據(jù)中心站點的大型模型已達到臨界點。

Google、OpenAI 和 Anthropic 已經(jīng)在執(zhí)行相關(guān)計劃，將其大型模型訓練從一個站點擴展到多個數(shù)據(jù)中心園區(qū)。谷歌擁有當今世界上最先進的計算系統(tǒng)，并率先大規(guī)模使用了許多關(guān)鍵技術(shù)，這些技術(shù)直到現(xiàn)在才被其他公司采用，例如機架級液冷架構(gòu)和多數(shù)據(jù)中心訓練。

Gemini 1 Ultra 在多個數(shù)據(jù)中心進行了培訓。盡管他們擁有更多的 FLOPS，但他們現(xiàn)有的模型仍落后于 OpenAI 和 Anthropic，因為他們在合成數(shù)據(jù)、強化學習和模型架構(gòu)方面仍在追趕，但即將發(fā)布的 Gemini 2 將改變這一現(xiàn)狀。此外，到 2025 年，谷歌將有能力在多個園區(qū)進行千兆瓦級的訓練，但令人驚訝的是，谷歌的長期計劃并不像 OpenAI 和微軟那么積極。

大多數(shù)公司才剛剛引入采用 Nvidia GB200 架構(gòu)的高密度液冷 AI 芯片，預計明年產(chǎn)量將達到數(shù)百萬顆。另一方面，谷歌已經(jīng)部署了數(shù)百萬個液冷 TPU，占液冷 AI 芯片容量超過 1 GW。谷歌的基礎設施與其競爭對手之間的差異肉眼可見。

上圖所示的人工智能培訓園區(qū)已擁有接近 300MW 的電力容量，明年將增至 500MW。除了規(guī)模龐大之外，這些設施還非常節(jié)能。我們可以在下面看到大型冷卻塔和集中設施供水系統(tǒng)，水管連接三座建筑物，能夠排出近 200 兆瓦的熱量。根據(jù)最新的環(huán)境報告，該系統(tǒng)允許 Google 全年大部分時間無需使用冷卻器即可運行，從而在 2023 年實現(xiàn) 1.1 PUE（電力使用效率）。

雖然上圖僅顯示了設施供水系統(tǒng)，但水也通過直接到芯片系統(tǒng)輸送到機架，液-液熱交換器將熱量從機架傳輸?shù)街醒朐O施供水系統(tǒng)。這種非常節(jié)能的系統(tǒng)類似于 Nvidia GB200 的 L2L 部署 - 在我們的GB200 深入研究中詳細描述。

另一方面，微軟當今最大的培訓集群（如下所示）不支持液體冷卻，并且每棟建筑的 IT 容量降低了約 35%，盡管建筑 GFA（總建筑面積）大致相似。已發(fā)布的數(shù)據(jù)顯示 PUE 為 1.223，但 PUE 計算對風冷系統(tǒng)有利，因為服務器內(nèi)部的風扇功率沒有得到正確考慮 - 對于風冷 H100 服務器來說，這是服務器功率的 15%+，而對于風冷 H100 服務器來說，PUE 計算為 <5%液體 DLC 冷卻服務器。因此，對于提供給芯片的每瓦特，微軟需要額外約 45% 以上的功率用于服務器風扇功率、設施冷卻和其他非 IT 負載，而谷歌則接近每瓦特 IT 功率約 15% 的額外負載。疊加 TPU 的更高效率，情況就變得模糊了。

此外，為了在沙漠（亞利桑那州）實現(xiàn)良好的能源效率，微軟需要大量的水 - 用水效率 (L/kWh) 為 2.24，遠高于集團平均值 0.49，谷歌的平均值略高于 1。用水量增加引起了媒體的負面關(guān)注，他們被要求為該園區(qū)即將建設的數(shù)據(jù)中心改用風冷式冷水機，這將減少每棟建筑的用水量，但會進一步增加 PUE，從而擴大與 Google 的能效差距。在未來的報告中，我們將更詳細地探討數(shù)據(jù)中心的工作方式和典型的超大規(guī)模設計。

因此，基于現(xiàn)有的數(shù)據(jù)中心參考設計，Google 擁有更高效的基礎設施，并且可以更快地建造兆瓦，因為每棟建筑的容量提高了 >50%，并且每個 IT 負載需要承包的公用電力更少。

0 1

谷歌的AI訓練基礎設施

谷歌總是有一種獨特的方式來構(gòu)建基礎設施。雖然他們各自的數(shù)據(jù)中心設計比當今的微軟、亞馬遜和 Meta 更先進，但這并不能全面體現(xiàn)他們的基礎設施優(yōu)勢。十多年來，谷歌也一直在建設大型園區(qū)。下圖所示的 Google 位于愛荷華州康瑟爾布拉夫斯的站點就是一個很好的例子，盡管已有多年歷史，但其西部地區(qū)的 IT 容量仍接近 300MW 。雖然大量容量被分配給傳統(tǒng)工作負載，但我們相信底層的建筑承載著大量的 TPU 。東部擴建采用最新的數(shù)據(jù)中心設計，將進一步提高人工智能培訓能力。

谷歌最大的人工智能數(shù)據(jù)中心也彼此非常接近。 Google 有兩個主要的多數(shù)據(jù)中心區(qū)域，位于俄亥俄州和愛荷華州/內(nèi)布拉斯加州。如今，康瑟爾布拉夫斯周圍的區(qū)域正在積極擴建，容量已達到現(xiàn)有容量的兩倍以上。除了上述園區(qū)外，谷歌還在該地區(qū)擁有其他三個站點，這些站點都在建設中，并且正在升級為高帶寬光纖網(wǎng)絡。

三個站點彼此相距約 15 英里（康瑟爾布拉夫斯、奧馬哈和 Papillon 愛荷華州），另一個站點位于內(nèi)布拉斯加州林肯市約 50 英里。下圖所示的 Papillion 園區(qū)將為 Google 在奧馬哈和康瑟爾布拉夫斯周圍的業(yè)務增加 >250MW 的容量，加上上述總?cè)萘?，?2023 年將超過 500MW，其中很大一部分分配給 TPU。

另外兩個站點尚未那么大，但正在快速發(fā)展：到 2026 年，所有四個園區(qū)合并起來將形成一個 GW 規(guī)模的人工智能訓練集群。約 50 英里外的林肯數(shù)據(jù)中心將成為 Google 最大的單個站點。

谷歌龐大的 TPU 足跡還不止于此。另一個即將到來的千兆瓦級集群位于俄亥俄州哥倫布市周圍 - 該地區(qū)遵循類似的主題，正在開發(fā)三個園區(qū)，到 2025 年底總裝機容量將達到 1 GW！

如下所示的新奧爾巴尼集群將成為 Google 最大的集群之一，并且已經(jīng)托管 TPU v4、v5、v6。

谷歌俄亥俄州和谷歌愛荷華州/內(nèi)布拉斯加州的集中區(qū)域也可以進一步互連，為訓練單個模型提供數(shù)千兆瓦的電力。我們在數(shù)據(jù)中心模型中擁有超過 5,000 個數(shù)據(jù)中心的精確詳細的季度歷史和預測電力數(shù)據(jù)。這包括人工智能實驗室、超大規(guī)模、新云和企業(yè)的集群構(gòu)建狀態(tài)。本報告稍后將詳細介紹多數(shù)據(jù)中心培訓的軟件堆棧和方法。

0 2

微軟和OpenAI開始反擊？

微軟和 OpenAI 很清楚他們短期內(nèi)在基礎設施方面的劣勢，并開始了一項雄心勃勃的基礎設施建設，以超越谷歌。他們正試圖在自己的水冷多數(shù)據(jù)中心訓練集群游戲中擊敗谷歌。

微軟和 OpenAI正在建設接近GW級的超密集液冷數(shù)據(jù)中心園區(qū)，并與Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作，幫助他們實現(xiàn)比 Google更大的總AI 訓練和推理能力。

其中一些園區(qū)一旦建成，將比目前任何一個谷歌園區(qū)還要大。事實上，微軟在威斯康星州的園區(qū)將比谷歌在俄亥俄州的所有園區(qū)加起來還要大，但建設它需要一些時間。

更雄心勃勃的是 OpenAI 和微軟計劃將各個超大型園區(qū)互連在一起，并在全國范圍內(nèi)開展大規(guī)模的分布式培訓。微軟和 OpenAI 將率先推出多 GW 計算系統(tǒng)。他們與供應鏈合作伙伴一起深入開展有史以來最雄心勃勃的基礎設施建設。

這份報告將在接近尾聲時詳細介紹微軟和 OpenAI 的基礎設施建設。在此之前，它將首先介紹多校區(qū)同步和異步訓練方法、落后者、容錯、靜默數(shù)據(jù)損壞以及與多數(shù)據(jù)中心訓練相關(guān)的各種挑戰(zhàn)。

0 3

多數(shù)據(jù)中心分布式訓練

大型語言模型 ( LLMs ) 主要是同步訓練的。訓練數(shù)據(jù)通常分為幾個較小的小批量，每個小批量都由在不同 GPU 組上運行的模型的單獨數(shù)據(jù)副本進行處理。處理完小批量后，每個副本都會計算梯度，然后所有副本必須在每個小批量處理結(jié)束時同步。

這種同步涉及聚合來自所有副本的梯度，通常通過像全歸約這樣的集體通信操作。一旦梯度被聚合，它們就會被平均并用于一致更新模型的參數(shù)。這確保了所有數(shù)據(jù)副本都維護一組相同的參數(shù)，從而使模型能夠以穩(wěn)定的方式收斂。此過程的鎖步性質(zhì)（所有設備在進入下一步之前等待彼此完成）確保沒有設備在模型狀態(tài)方面領(lǐng)先或落后太遠。

雖然同步梯度下降提供了穩(wěn)定的收斂，但它也帶來了重大挑戰(zhàn)，特別是當您在單個訓練作業(yè)中擴展到超過 100k+ 芯片時，通信開銷會增加。同步性質(zhì)還意味著您有嚴格的延遲要求，并且必須有一個連接所有芯片的大管道，因為數(shù)據(jù)交換會發(fā)生巨大的突發(fā)。

當您嘗試使用來自多個區(qū)域的 GPU 來處理相同的訓練工作負載時，它們之間的延遲會增加。即使光纖中的光速為 208,188 公里/秒，從美國東海岸到美國西海岸的往返時間 (RTT) 也為 43.2 毫秒 (ms)。此外，各種電信設備也會造成額外的延遲。這是一個很大的延遲，對于標準同步訓練來說很難克服。

根據(jù)阿姆達爾定律，當存在大量同步活動時，向工作負載添加更多芯片所帶來的加速效果會遞減。當您添加更多芯片時，并且程序運行時需要同步的部分（即對應于保持串行且無法并行化的計算比例）保持不變，將達到理論極限，即使 GPU 數(shù)量增加一倍不會使總體吞吐量增加超過 1%。

除了阿姆達爾定律描述的將更多 GPU 擴展到單個工作負載的理論限制之外，同步梯度下降還存在諸如落后者等實際挑戰(zhàn)。當只有一個芯片慢 10% 時，就會導致整個訓練運行慢 10%。例如，在下圖中，從第 7,500 步到第 19,000 步，字節(jié)跳動看到他們的 MFU 慢慢下降，因為工作負載中越來越多的芯片逐漸變慢，整個工作負載變得落后。

在識別并清除掉隊者后，他們從檢查點重新開始訓練工作量，將 MFU 增加到正常水平。正如您所看到的，MFU 從 40% 降至 30%，下降了 25%。當您擁有 100 萬個 GPU 時，MFU 減少 25% 相當于在任何給定時間有 25 萬個 GPU 處于空閑狀態(tài)，僅 IT 資本支出就相當于超過 10B 美元的成本。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.