国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

探討科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)

0
分享至

在大模型訓(xùn)練與人工智能應(yīng)用全面普及的今天,人工智能基礎(chǔ)設(shè)施也逐漸走進(jìn)大眾視野。

“我們的模型是怎么被訓(xùn)練出來(lái)的?”“大量算力究竟跑在什么地方?”

這些原本只屬于技術(shù)團(tuán)隊(duì)的討論,如今正成為企業(yè)數(shù)字化轉(zhuǎn)型中的核心議題。

隨著算力需求以指數(shù)級(jí)增長(zhǎng),如何構(gòu)建、驗(yàn)證并交付一套穩(wěn)定、高效、可擴(kuò)展的科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,正成為所有追求智能化競(jìng)爭(zhēng)力的組織無(wú)法回避的問(wèn)題。

本篇將以此為切入點(diǎn),探討新一代科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)與實(shí)施要點(diǎn)。

一、觀念重構(gòu):這不是服務(wù)器,是“算力生命體”

傳統(tǒng)IT基礎(chǔ)設(shè)施與科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,到底有哪些區(qū)別呢?

在智算時(shí)代,僅僅把服務(wù)器堆在一起并配置好傳統(tǒng)網(wǎng)絡(luò)是無(wú)法完全跑通的,至少在應(yīng)用層面會(huì)遇到各種各樣的問(wèn)題,最主要體現(xiàn)在兼容性、性能、可靠性等決定集群可用性的問(wèn)題。

IBM在人工智能基礎(chǔ)設(shè)施報(bào)告內(nèi)指出:傳統(tǒng) IT 的核心是“穩(wěn)定與兼容”,而人工智能基礎(chǔ)設(shè)施的使命是“性能與效率”。

我們可以通過(guò)一個(gè)表格來(lái)直觀對(duì)比兩者的差異:



科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的設(shè)計(jì)不再是單一服務(wù)器或集群的堆疊,而是一個(gè)“算力網(wǎng)絡(luò)”體系:



科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施真正的價(jià)值,在于讓算力像電力一樣可調(diào)用、像網(wǎng)絡(luò)一樣可擴(kuò)展、像系統(tǒng)一樣可自愈。

二、科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施交付標(biāo)準(zhǔn):從硬件一致到性能驗(yàn)收

在智算中心和人工智能集群的落地過(guò)程中,“交付”是質(zhì)量與可信度的分水嶺。

只有經(jīng)過(guò)嚴(yán)苛測(cè)試與標(biāo)準(zhǔn)化驗(yàn)證的系統(tǒng),才能在大模型訓(xùn)練中保持穩(wěn)定高效,來(lái)看看我們?cè)诮桓肚笆窃趺醋龅摹?/p>



數(shù)據(jù)中心基礎(chǔ)設(shè)施日益復(fù)雜,需要高效的解決方案來(lái)簡(jiǎn)化網(wǎng)絡(luò)運(yùn)營(yíng)。

NVIDIA Air 通過(guò)創(chuàng)建真實(shí)數(shù)據(jù)中心基礎(chǔ)設(shè)施部署的相同副本,提升云規(guī)模效率。

NVIDIA Air 允許用戶使用完整的軟件功能對(duì)數(shù)據(jù)中心部署進(jìn)行建模,從而創(chuàng)建數(shù)字孿生。通過(guò)仿真、驗(yàn)證以及自動(dòng)化變更和更新,轉(zhuǎn)變并加速人工智能落地時(shí)間。

基礎(chǔ)設(shè)施仿真:基于 Linux 的開(kāi)放、云原生架構(gòu),可通過(guò)瀏覽器 GUI 或 CLI 表示基于NVIDIA的以太網(wǎng)交換機(jī)與通用服務(wù)器;

網(wǎng)絡(luò)即服務(wù):適用于 Cumulus Linux、SONiC 和 NetQ 等網(wǎng)絡(luò)軟件堆棧的、基于裸金屬的仿真;

主機(jī)支持:x86 服務(wù)器仿真(包含操作系統(tǒng)、應(yīng)用等);

預(yù)構(gòu)建網(wǎng)絡(luò)模板:配備完備的葉脊網(wǎng)絡(luò)架構(gòu),運(yùn)行多種 NOS 以進(jìn)行網(wǎng)絡(luò)功能測(cè)試,減少了在實(shí)際項(xiàng)目中遇到的網(wǎng)絡(luò)配置等其他突發(fā)情況而造成的問(wèn)題,縮短了項(xiàng)目整體的構(gòu)建與交付時(shí)間。



①硬件一致性與健康性

CPU:在集群中,CPU不僅要關(guān)注單個(gè)核心的溫度與頻率,更需關(guān)注所有節(jié)點(diǎn)整體使用率的均衡性。

比如是否存在部分節(jié)點(diǎn)因軟件鎖或硬件瓶頸(如PCIe通道故障)而長(zhǎng)期降頻,影響性能導(dǎo)致利用率低等問(wèn)題。

驗(yàn)收需要關(guān)注型號(hào)、物理核心數(shù)、邏輯核心數(shù)、主頻。

GPU:這是智算集群的絕對(duì)核心。

診斷需覆蓋每張GPU卡的核心溫度、顯存溫度、功耗、計(jì)算與顯存使用率。

尤其在高強(qiáng)度模型訓(xùn)練中,顯存的健康(如ECC糾錯(cuò)計(jì)數(shù))至關(guān)重要,頻繁的糾錯(cuò)可能預(yù)示顯存顆粒的物理老化。

更關(guān)鍵的是,需要檢測(cè)是否存在慢節(jié)點(diǎn)——即節(jié)點(diǎn)內(nèi)某張GPU故障或ECC錯(cuò)誤而導(dǎo)致訓(xùn)練中斷集群性能測(cè)試的問(wèn)題,也就拖慢了交付的進(jìn)度。

驗(yàn)收時(shí)關(guān)注型號(hào)、數(shù)量、顯存、GPU驅(qū)動(dòng)版本、CUDA驅(qū)動(dòng)版本。


圖源:NVIDIA官網(wǎng)

存儲(chǔ):對(duì)于NVMe SSD,需監(jiān)控其讀寫(xiě)帶寬、IOPS(每秒讀寫(xiě)操作次數(shù))以及延遲。

更重要的是,通過(guò)SMART信息預(yù)測(cè)壽命,避免在訓(xùn)練中途因硬盤(pán)故障而導(dǎo)致的任務(wù)中斷。

InfiniBand(RDMA)/以太網(wǎng)(RoCE)網(wǎng)絡(luò):

需要在交付前進(jìn)行長(zhǎng)時(shí)間的性能壓力測(cè)試,以檢測(cè)交換機(jī)端口狀態(tài)、光模塊溫度與收發(fā)光功率。

光功率衰減是常見(jiàn)故障點(diǎn)。其次,需監(jiān)控鏈路帶寬利用率、誤碼率、丟包率與通信延遲。

通過(guò)運(yùn)行all-to-all測(cè)試。計(jì)算網(wǎng)卡(InfiniBand/以太網(wǎng))的型號(hào)、固件版本,同時(shí)網(wǎng)卡的版本與交換機(jī)的固件版本對(duì)應(yīng)。



②性能與穩(wěn)定性驗(yàn)證

通過(guò)系統(tǒng)化壓力測(cè)試,確保每個(gè)節(jié)點(diǎn)在高負(fù)載下仍能保持線性性能:

CPU/內(nèi)存壓力測(cè)試:Prime95或stress-ng持續(xù)運(yùn)行72小時(shí)無(wú)錯(cuò)誤;

GPU穩(wěn)定性測(cè)試:NVIDIA DCGM與GPU Burn監(jiān)控顯存、溫度與穩(wěn)定度;



存儲(chǔ)I/O性能測(cè)試:驗(yàn)證4K隨機(jī)讀寫(xiě)及順序帶寬達(dá)到預(yù)測(cè)標(biāo)準(zhǔn);

RDMA集合通信網(wǎng)絡(luò)性能測(cè)試:

在做大模型訓(xùn)練、科學(xué)計(jì)算應(yīng)用時(shí),很多服務(wù)器不是各自干各自的活,而是要一起協(xié)同工作。為了讓它們能又快又穩(wěn)地交換數(shù)據(jù),我們一般會(huì)用到 RDMA 這種比普通網(wǎng)絡(luò)更快、更低延遲的通信方式。

但問(wèn)題來(lái)了,這些服務(wù)器之間要經(jīng)常做“集合通信”,比如大家一起廣播一份參數(shù)、一起做 All-Reduce 聚合梯度。

如果網(wǎng)絡(luò)不穩(wěn)定、不夠快、延遲忽高忽低,就會(huì)拖慢整個(gè)訓(xùn)練進(jìn)度,甚至讓任務(wù)直接失敗。

所以在集群交付前整體測(cè)試一遍網(wǎng)絡(luò)性能是必須要做的事情,否則在交付后,很可能因?yàn)闊o(wú)法正常進(jìn)行通信,單點(diǎn)故障也可能導(dǎo)致無(wú)法正常訓(xùn)練、推理,從而導(dǎo)致集群無(wú)法交付。



③通信網(wǎng)絡(luò)健康與拓?fù)潋?yàn)證

人工智能集群性能瓶頸多源于通信層。

交付階段需要檢查交換機(jī)端口與光模塊狀態(tài);繪制“網(wǎng)絡(luò)心電圖”,提前排查慢鏈路;使用ibdiagnet與perftest工具進(jìn)行鏈路完整性驗(yàn)證。

唯有穩(wěn)定的通信底座,才能讓算力真正釋放,否則按照現(xiàn)有算力資源設(shè)計(jì),任何單節(jié)點(diǎn)的故障都可能導(dǎo)致集群的可用性降低,從而導(dǎo)致業(yè)務(wù)停滯。

三、人工智能未來(lái)的方向:智能化、綠色化、可觀測(cè)化

隨著人工智能應(yīng)用的規(guī)?;瘮U(kuò)展,科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)也在不斷演進(jìn):

①智能且高效的運(yùn)維算力基礎(chǔ)設(shè)施

通過(guò)GPU Telemetry、DCGM與IB監(jiān)控實(shí)現(xiàn)全棧可觀測(cè),支持預(yù)測(cè)性維護(hù)與自動(dòng)修復(fù)。

②彈性算力池化

隨著GPU虛擬化與云原生調(diào)度技術(shù)成熟,人工智能集群正向算力池化架構(gòu)演進(jìn),支持多任務(wù)、多租戶、優(yōu)先級(jí)的靈活調(diào)度,讓算力可以按需使用。

借助 GPU 資源切分與彈性伸縮技術(shù),平臺(tái)能將 GPU 利用率從傳統(tǒng)的 10%~20% 提升至 50%~60%,部分場(chǎng)景可達(dá) 70%~80%,為算力高效利用提供了技術(shù)保障。

③綠色數(shù)據(jù)中心

液冷系統(tǒng)與動(dòng)態(tài)功耗管理技術(shù)讓人工智能集群能效顯著提升,PUE可降至1.2以下,打造低碳智算中心。

④標(biāo)準(zhǔn)化交付體系(重點(diǎn))

從硬件驗(yàn)收、性能基線到文檔化驗(yàn)證,人工智能集群交付正邁向體系化與可追溯標(biāo)準(zhǔn),為企業(yè)提供可靠、透明的交付保障。

以下是我們?cè)趯?shí)施過(guò)超萬(wàn)卡GPU總結(jié)的驗(yàn)收標(biāo)準(zhǔn)項(xiàng):



四、人工智能基礎(chǔ)設(shè)施的建設(shè)與總結(jié)

現(xiàn)在的人工智能基礎(chǔ)設(shè)施,已經(jīng)遠(yuǎn)遠(yuǎn)不是“把服務(wù)器拼在一起”那么簡(jiǎn)單了。

隨著模型越來(lái)越大、業(yè)務(wù)越來(lái)越復(fù)雜,僅僅擁有算力并不能保證系統(tǒng)真正跑得快、跑得穩(wěn)。

企業(yè)需要一套標(biāo)準(zhǔn)化、智能化、可驗(yàn)證的建設(shè)與交付體系——

從機(jī)房規(guī)劃、硬件部署、網(wǎng)絡(luò)架構(gòu),到軟件環(huán)境、模型訓(xùn)練,再到性能驗(yàn)證、穩(wěn)定性測(cè)試,每一步都要做到可復(fù)現(xiàn)、可檢查、可追蹤。

只有這樣,企業(yè)才能真正實(shí)現(xiàn)從“堆算力”到“用好算力”的轉(zhuǎn)變,讓人工智能系統(tǒng)不僅能運(yùn)行,更能持續(xù)穩(wěn)定地輸出價(jià)值,加速智能應(yīng)用落地,最終完成從構(gòu)建算力基礎(chǔ)到釋放智能生產(chǎn)力的跨越。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
開(kāi)國(guó)十大元帥是如何離世的

開(kāi)國(guó)十大元帥是如何離世的

祁州校尉
2025-12-10 16:35:05
被中國(guó)說(shuō)根本沒(méi)資格入常,日本人氣炸了:信不信我們退出聯(lián)合國(guó)?

被中國(guó)說(shuō)根本沒(méi)資格入常,日本人氣炸了:信不信我們退出聯(lián)合國(guó)?

小鬼頭體育
2026-01-22 16:38:06
CCTV5調(diào)整直播!中國(guó)隊(duì)沖首座冠軍,決賽還未開(kāi)打,迎來(lái)2個(gè)壞消息

CCTV5調(diào)整直播!中國(guó)隊(duì)沖首座冠軍,決賽還未開(kāi)打,迎來(lái)2個(gè)壞消息

侃球熊弟
2026-01-22 00:10:35
32歲程序員周末暈倒后猝死,搶救期間曾被拉入工作群,工傷申請(qǐng)已被受理

32歲程序員周末暈倒后猝死,搶救期間曾被拉入工作群,工傷申請(qǐng)已被受理

上觀新聞
2026-01-22 15:12:18
高中各科考試規(guī)律:數(shù)學(xué)滿分150分,大部分人都是不及格狀態(tài)!

高中各科考試規(guī)律:數(shù)學(xué)滿分150分,大部分人都是不及格狀態(tài)!

好爸育兒
2026-01-08 15:58:19
中央?yún)R金堅(jiān)定持有多只龍頭寬基ETF

中央?yún)R金堅(jiān)定持有多只龍頭寬基ETF

財(cái)聯(lián)社
2026-01-21 22:54:06
韓國(guó)最大在野黨黨首張東赫絕食8天,樸槿惠到場(chǎng)看望

韓國(guó)最大在野黨黨首張東赫絕食8天,樸槿惠到場(chǎng)看望

瀟湘晨報(bào)
2026-01-22 16:33:38
特朗普弄混格陵蘭島與冰島,再提北約秘書(shū)長(zhǎng)叫他“爸爸”,稱北約一直都“愛(ài)”他,直到提起“冰島”一事

特朗普弄混格陵蘭島與冰島,再提北約秘書(shū)長(zhǎng)叫他“爸爸”,稱北約一直都“愛(ài)”他,直到提起“冰島”一事

魯中晨報(bào)
2026-01-22 10:31:02
帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅(jiān)持,別馬虎了!

帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅(jiān)持,別馬虎了!

垚垚分享健康
2026-01-19 20:30:10
錢(qián)再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

錢(qián)再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

削桐作琴
2025-12-10 16:53:18
美國(guó)終于回過(guò)味來(lái)了:這個(gè)世界上,不會(huì)再有第二個(gè)“中國(guó)”了

美國(guó)終于回過(guò)味來(lái)了:這個(gè)世界上,不會(huì)再有第二個(gè)“中國(guó)”了

忠于法紀(jì)
2026-01-16 21:06:27
利物浦1億歐報(bào)價(jià)求購(gòu)當(dāng)紅邊鋒,球員夢(mèng)想加盟安菲爾德

利物浦1億歐報(bào)價(jià)求購(gòu)當(dāng)紅邊鋒,球員夢(mèng)想加盟安菲爾德

夜白侃球
2026-01-22 15:52:18
麥當(dāng)勞發(fā)160萬(wàn)個(gè)雞蛋兩天被搶空,預(yù)制菜狂魔“養(yǎng)雞種地”是在打西貝的臉嗎?

麥當(dāng)勞發(fā)160萬(wàn)個(gè)雞蛋兩天被搶空,預(yù)制菜狂魔“養(yǎng)雞種地”是在打西貝的臉嗎?

Vista氫商業(yè)
2026-01-22 15:04:32
WTT阿曼站:林詩(shī)棟1-8逆轉(zhuǎn)險(xiǎn)勝西多仁科,雖勝但不足喜

WTT阿曼站:林詩(shī)棟1-8逆轉(zhuǎn)險(xiǎn)勝西多仁科,雖勝但不足喜

光輝與陰暗
2026-01-22 17:44:13
鄭麗文闡明兩岸立場(chǎng):拒絕“一國(guó)兩制”意味著什么?

鄭麗文闡明兩岸立場(chǎng):拒絕“一國(guó)兩制”意味著什么?

魯源寫(xiě)作讀書(shū)會(huì)
2026-01-22 17:30:05
瑞安航空宣布推出“大傻瓜”特價(jià)機(jī)票,稱專為馬斯克和 X 上的蠢貨準(zhǔn)備

瑞安航空宣布推出“大傻瓜”特價(jià)機(jī)票,稱專為馬斯克和 X 上的蠢貨準(zhǔn)備

中國(guó)能源網(wǎng)
2026-01-21 10:51:04
美國(guó)華裔黑馬傷退無(wú)緣挑戰(zhàn)阿卡,要拿澳網(wǎng)冠軍的15歲中國(guó)少女奪冠

美國(guó)華裔黑馬傷退無(wú)緣挑戰(zhàn)阿卡,要拿澳網(wǎng)冠軍的15歲中國(guó)少女奪冠

網(wǎng)球之家
2026-01-22 13:45:39
最小紅軍向軒:7歲投身革命9歲長(zhǎng)征路,1955年授銜他獲封什么軍銜

最小紅軍向軒:7歲投身革命9歲長(zhǎng)征路,1955年授銜他獲封什么軍銜

磊子講史
2026-01-14 11:16:27
“90后”曾患唇腭裂網(wǎng)紅給李亞鵬捐10萬(wàn),其曾申請(qǐng)嫣然天使基金幫助,但當(dāng)時(shí)沒(méi)排上隊(duì)“我們是天使,不是惡魔”

“90后”曾患唇腭裂網(wǎng)紅給李亞鵬捐10萬(wàn),其曾申請(qǐng)嫣然天使基金幫助,但當(dāng)時(shí)沒(méi)排上隊(duì)“我們是天使,不是惡魔”

揚(yáng)子晚報(bào)
2026-01-20 17:53:40
大寒后,使勁吃這菜,一養(yǎng)肝、二促消化、三強(qiáng)免疫、四強(qiáng)骨骼

大寒后,使勁吃這菜,一養(yǎng)肝、二促消化、三強(qiáng)免疫、四強(qiáng)骨骼

阿龍美食記
2026-01-21 13:20:05
2026-01-22 18:51:00
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1113文章數(shù) 715關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開(kāi)胃菜,AI基建還得再砸?guī)兹f(wàn)億

頭條要聞

加拿大有人眼紅:就算便宜 也別買(mǎi)中國(guó)車

頭條要聞

加拿大有人眼紅:就算便宜 也別買(mǎi)中國(guó)車

體育要聞

跑個(gè)步而已,他們?cè)谌际裁矗?/h3>

娛樂(lè)要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

潘功勝:繼續(xù)實(shí)施好適度寬松的貨幣政策

汽車要聞

配備多塊娛樂(lè)屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

房產(chǎn)
健康
數(shù)碼
教育
游戲

房產(chǎn)要聞

開(kāi)年王炸!四重政策紅利加碼,廣州置業(yè)窗口期邁入倒計(jì)時(shí)!

打工人年終總結(jié)!健康通關(guān)=贏麻了

數(shù)碼要聞

千元處理器搭DDR5內(nèi)存,中端游戲主機(jī)銳龍5 9600X性價(jià)比大勝

教育要聞

上海財(cái)經(jīng)大學(xué)排名怎么樣?全國(guó)前四,力壓清北復(fù)交的好選擇?

《寶可夢(mèng)傳說(shuō)Z-A》1月更新 樹(shù)果終于可以批量買(mǎi)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版