国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI持續(xù)擴(kuò)展的隱憂——靜默數(shù)據(jù)損壞

0
分享至

(本文編譯自Electronic Design)

隨著晶體管尺寸不斷縮小、系統(tǒng)復(fù)雜度持續(xù)提升,一個(gè)不容忽視的事實(shí)愈發(fā)清晰:靜默數(shù)據(jù)損壞的發(fā)生頻率和造成的影響,遠(yuǎn)超大多數(shù)系統(tǒng)架構(gòu)師的預(yù)期。這類錯(cuò)誤無跡可尋,極難識(shí)別,而單個(gè)錯(cuò)誤就可能篡改多個(gè)獨(dú)立節(jié)點(diǎn)的模型權(quán)重,悄然破壞一項(xiàng)可能持續(xù)數(shù)周、動(dòng)用超過2.5萬個(gè)圖形處理器(GPU)、成本超1億美元的訓(xùn)練任務(wù)。

即便在驗(yàn)證與測(cè)試環(huán)節(jié)投入巨大成本,未被檢測(cè)到的故障仍存在于大規(guī)模人工智能部署場(chǎng)景中,對(duì)芯片可靠性構(gòu)成嚴(yán)峻挑戰(zhàn)。

若單個(gè)芯片在同步過程中引入靜默錯(cuò)誤,錯(cuò)誤可能會(huì)在整個(gè)集群中擴(kuò)散。電氣和電子工程師協(xié)會(huì)(IEEE)的研究顯示,軟錯(cuò)誤率已急劇上升——從65納米工藝下的每年一次故障,攀升至16納米工藝下的每1.5小時(shí)一次(如下圖所示)。


圖:靜默數(shù)據(jù)損壞(SDC)之類的軟錯(cuò)誤發(fā)生率顯著上升。

Meta和阿里巴巴分別報(bào)告稱,在其人工智能及云基礎(chǔ)設(shè)施中,每3小時(shí)就會(huì)出現(xiàn)一次硬件錯(cuò)誤,百萬件缺陷率(DPPM)分別為361。雖然361的百萬件缺陷率甚至數(shù)千的數(shù)值在小規(guī)模場(chǎng)景下可能不會(huì)引發(fā)警報(bào),但在擁有數(shù)百萬臺(tái)設(shè)備的大規(guī)模集群中,情況會(huì)發(fā)生巨大變化,此時(shí)靜默數(shù)據(jù)損壞事件的發(fā)生頻率足以危及整個(gè)系統(tǒng)的可靠性。

人工智能規(guī)模擴(kuò)大,靜默數(shù)據(jù)損壞的威脅亦隨之加劇

對(duì)于不斷擴(kuò)展的生成式人工智能和機(jī)器學(xué)習(xí)(ML)工作負(fù)載(包括模型訓(xùn)練、推理及高性能人工智能應(yīng)用)而言,靜默數(shù)據(jù)損壞正成為日益嚴(yán)峻的可靠性威脅。這些流程往往將處理器推向性能極限,從而增加了靜默損壞的發(fā)生概率。

與通??赏ㄟ^糾錯(cuò)碼緩解的內(nèi)存位翻轉(zhuǎn)不同,靜默數(shù)據(jù)損壞源于細(xì)微的計(jì)算層面故障:時(shí)序違規(guī)、老化效應(yīng)或常規(guī)半導(dǎo)體測(cè)試中遺漏的邊緣缺陷。這些錯(cuò)誤會(huì)悄然扭曲整個(gè)計(jì)算過程,但往往不會(huì)觸發(fā)警報(bào),直到呈現(xiàn)為錯(cuò)誤輸出或潛在有缺陷的決策時(shí)才會(huì)被發(fā)現(xiàn)。人工智能系統(tǒng)規(guī)模越大、復(fù)雜度越高,此類故障發(fā)生的可能性就越大,造成的影響也越嚴(yán)重。

傳統(tǒng)冗余方法可保護(hù)內(nèi)存和通信路徑,但對(duì)執(zhí)行層面的故障幾乎無能為力,而執(zhí)行層面故障正是現(xiàn)代人工智能環(huán)境中靜默數(shù)據(jù)損壞的主要來源?,F(xiàn)實(shí)中的后果輕則是幾乎難以察覺的計(jì)算誤差,重則是影響業(yè)務(wù)的嚴(yán)重故障。行業(yè)報(bào)告已記錄多起相關(guān)案例,包括因有缺陷的CPU的數(shù)學(xué)運(yùn)算錯(cuò)誤導(dǎo)致數(shù)據(jù)庫文件丟失,以及存儲(chǔ)應(yīng)用程序因缺陷CPU出現(xiàn)用戶數(shù)據(jù)校驗(yàn)和不匹配的情況。

遏制靜默數(shù)據(jù)損壞問題的嘗試

隨著工藝節(jié)點(diǎn)不斷微縮、芯片架構(gòu)日益先進(jìn),掃描自動(dòng)測(cè)試圖形生成(ATPG)、內(nèi)置自測(cè)試(BIST)以及基礎(chǔ)功能測(cè)試等傳統(tǒng)測(cè)試方法已難以跟上步伐。這些方法雖足以檢測(cè)出離散的制造缺陷,卻往往無法識(shí)別導(dǎo)致靜默數(shù)據(jù)損壞的更細(xì)微的半導(dǎo)體工藝偏差。

這就形成了一個(gè)長期存在的監(jiān)測(cè)盲區(qū),凸顯了現(xiàn)場(chǎng)監(jiān)測(cè)的必要性。據(jù)Meta稱,調(diào)試靜默數(shù)據(jù)損壞問題可能需要數(shù)月時(shí)間。排查這類無跡可尋的故障不僅需要巧思,還通常要投入大量資源。更糟糕的是,盡管耗費(fèi)了巨額成本,許多靜默數(shù)據(jù)損壞的調(diào)查仍以無果告終,這實(shí)際上加劇了不確定性。

在2023年亞洲測(cè)試會(huì)議(ITC-Asia)的一場(chǎng)會(huì)議中,博通(Broadcom)報(bào)告稱,其高達(dá)50%的靜默數(shù)據(jù)損壞調(diào)查最終未能找到解決方案,被標(biāo)記為“未發(fā)現(xiàn)故障(No Trouble Found)”。這些挑戰(zhàn)凸顯了傳統(tǒng)測(cè)試方法的局限性,也迫切需要更先進(jìn)的解決方案。

現(xiàn)場(chǎng)測(cè)試同樣存在漏洞。使用預(yù)兆單元(canary circuits)的原位測(cè)試方法,往往無法監(jiān)測(cè)到實(shí)際的關(guān)鍵路徑時(shí)序裕量,該裕量可能會(huì)因芯片老化和工藝偏差而減小。正如《MRHIEP》中所提及的,隨著單芯片內(nèi)部差異的不斷增大,這一問題已變得至關(guān)重要。

定期維護(hù)測(cè)試的靈敏度也可能不足,大多只能識(shí)別明顯的故障,卻忽略了與單錯(cuò)糾正(SEC)相關(guān)的更細(xì)微問題。此外,由于測(cè)試設(shè)備會(huì)從集群中移除,這類測(cè)試缺乏原位監(jiān)測(cè)所具備的真實(shí)工作環(huán)境,導(dǎo)致那些可能引發(fā)靜默數(shù)據(jù)損壞的細(xì)微異常仍無法被檢測(cè)到。

一些機(jī)構(gòu)嘗試通過冗余計(jì)算方法克服這些局限,即在多個(gè)內(nèi)核上重復(fù)執(zhí)行計(jì)算,僅當(dāng)所有內(nèi)核都產(chǎn)生相同結(jié)果時(shí),才認(rèn)定計(jì)算正確。盡管這種方法可以防止靜默數(shù)據(jù)損壞的擴(kuò)散,但它對(duì)硬件要求極高、成本高昂,且在超大規(guī)模場(chǎng)景下不具備可擴(kuò)展性。

解決SDC的兩階段檢測(cè)方案

隨著數(shù)據(jù)中心規(guī)模不斷擴(kuò)大、能源需求持續(xù)攀升,投入大量工程時(shí)間追蹤數(shù)千臺(tái)服務(wù)器中難以察覺的故障已不再具備可持續(xù)性。一種具備可擴(kuò)展性的解決方案在于更先進(jìn)的測(cè)試方法,即基于人工智能的兩階段深度數(shù)據(jù)檢測(cè)技術(shù)。

在芯片制造和現(xiàn)場(chǎng)運(yùn)行兩個(gè)階段實(shí)施多階段檢測(cè),既能幫助芯片制造商重獲產(chǎn)品可靠性,也能讓集群運(yùn)營商重新建立對(duì)硬件的信心。通過深度數(shù)據(jù)可視性對(duì)多個(gè)階段進(jìn)行監(jiān)測(cè),可大幅提高在易發(fā)生靜默數(shù)據(jù)損壞的組件失效前將其檢測(cè)出來的概率。

要實(shí)現(xiàn)有效檢測(cè),測(cè)試必須突破“合格/不合格”的二元分級(jí)模式。采用考慮工藝偏差和預(yù)測(cè)性能裕量的參數(shù)分級(jí)進(jìn)行更高粒度的芯片測(cè)試,即便某些設(shè)備在技術(shù)上通過了標(biāo)準(zhǔn)測(cè)試,也能標(biāo)記出異常設(shè)備。這可防止“勉強(qiáng)能用”的問題芯片流入生產(chǎn)集群。

實(shí)現(xiàn)這一級(jí)別的檢測(cè)需要轉(zhuǎn)變芯片診斷思路:從邊界檢查轉(zhuǎn)向基于嵌入式人工智能的遙測(cè)技術(shù),對(duì)每臺(tái)設(shè)備的健康狀態(tài)進(jìn)行持續(xù)評(píng)估。通過在芯片中嵌入智能模塊,并將機(jī)器學(xué)習(xí)應(yīng)用于豐富的遙測(cè)數(shù)據(jù),能夠在制造階段和整個(gè)現(xiàn)場(chǎng)運(yùn)行周期內(nèi)實(shí)現(xiàn)持續(xù)的狀態(tài)可視性。

人工智能算法可以檢測(cè)到傳統(tǒng)測(cè)試方法所忽略的細(xì)微參數(shù)偏差,并預(yù)測(cè)故障模式,在潛在漏洞導(dǎo)致靜默故障的很早之前就將其識(shí)別出來。這種前瞻性的、數(shù)據(jù)驅(qū)動(dòng)的方法能夠及早發(fā)現(xiàn)漏洞,并為芯片分檔、部署以及集群級(jí)可靠性管理提供更明智的決策依據(jù),且無需增加大量成本或?qū)е卵诱`。

隨著人工智能規(guī)模持續(xù)擴(kuò)大,未被檢測(cè)到的故障所帶來的成本也將隨之上升。靜默數(shù)據(jù)損壞已不再是理論上的隱患,而是對(duì)性能、可靠性和業(yè)務(wù)構(gòu)成的實(shí)際風(fēng)險(xiǎn)。傳統(tǒng)測(cè)試方法并非為應(yīng)對(duì)這一挑戰(zhàn)而設(shè)計(jì),而融合深度數(shù)據(jù)、全生命周期監(jiān)測(cè)和人工智能驅(qū)動(dòng)分析的新解決方案則提供了一條清晰的前進(jìn)路徑。借助兩階段檢測(cè)方案,行業(yè)最終能夠在靜默數(shù)據(jù)損壞擾亂系統(tǒng)之前,搶占先機(jī),對(duì)其進(jìn)行有效遏制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陪伴并貼身保衛(wèi)毛主席 30 年的汪東興,晚年深陷懊悔,直言不諱:“當(dāng)年我瞎了眼,才讓主席用了這人!”

陪伴并貼身保衛(wèi)毛主席 30 年的汪東興,晚年深陷懊悔,直言不諱:“當(dāng)年我瞎了眼,才讓主席用了這人!”

桃煙讀史
2025-12-23 13:30:14
第76近衛(wèi)空降旅被“屠殺”?擊中俄軍裝備集結(jié)場(chǎng),又一烏奸被擊斃

第76近衛(wèi)空降旅被“屠殺”?擊中俄軍裝備集結(jié)場(chǎng),又一烏奸被擊斃

鷹眼Defence
2025-12-22 18:00:44
女警被3名歹徒侵犯活埋,臨終前還苦苦哀求歹徒

女警被3名歹徒侵犯活埋,臨終前還苦苦哀求歹徒

史記趣聞
2025-12-19 20:40:05
媒體人:李凱爾的國籍信息還是以FIBA為準(zhǔn),未來他大概率來CBA打球

媒體人:李凱爾的國籍信息還是以FIBA為準(zhǔn),未來他大概率來CBA打球

懂球帝
2025-12-24 11:25:03
克耶高斯稱輸薩巴倫卡就退役,網(wǎng)友替椰子擔(dān)心:難贏性別大戰(zhàn)規(guī)則

克耶高斯稱輸薩巴倫卡就退役,網(wǎng)友替椰子擔(dān)心:難贏性別大戰(zhàn)規(guī)則

網(wǎng)球之家
2025-12-24 22:30:20
神仙木有她美麗,黑絲哪有白襯衫性感

神仙木有她美麗,黑絲哪有白襯衫性感

貴圈真亂
2025-12-12 12:12:10
中國空軍改寫空戰(zhàn)規(guī)則?兩場(chǎng)實(shí)戰(zhàn)讓五角大樓驚覺:超視距打擊時(shí)代已至

中國空軍改寫空戰(zhàn)規(guī)則?兩場(chǎng)實(shí)戰(zhàn)讓五角大樓驚覺:超視距打擊時(shí)代已至

Hi秒懂科普
2025-12-22 17:44:22
意媒:弗拉霍維奇缺席尤文圣誕晚宴,是全隊(duì)唯一缺席的球員

意媒:弗拉霍維奇缺席尤文圣誕晚宴,是全隊(duì)唯一缺席的球員

懂球帝
2025-12-25 08:00:14
A股:股民站穩(wěn)扶好,深夜傳來4大利好,周四將迎更大級(jí)別行情?

A股:股民站穩(wěn)扶好,深夜傳來4大利好,周四將迎更大級(jí)別行情?

股市皆大事
2025-12-24 19:55:36
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
當(dāng)段奕宏和00后演員同框,一個(gè)健壯一個(gè)油頭粉面,才懂啥叫真男人

當(dāng)段奕宏和00后演員同框,一個(gè)健壯一個(gè)油頭粉面,才懂啥叫真男人

銀河史記
2025-12-24 14:32:30
劉俊杰:我?guī)煾覆辉诹?,趙偉洲是大師哥,他有權(quán)利把我逐出師門

劉俊杰:我?guī)煾覆辉诹?,趙偉洲是大師哥,他有權(quán)利把我逐出師門

丁丁鯉史紀(jì)
2025-12-24 16:34:35
釘在恥辱柱上!國家文物局出手,這三個(gè)跳梁小丑,徹底涼涼

釘在恥辱柱上!國家文物局出手,這三個(gè)跳梁小丑,徹底涼涼

八斗小先生
2025-12-24 09:37:51
沈陽3人因造謠被行政處罰

沈陽3人因造謠被行政處罰

沈陽百姓一家親
2025-12-25 00:12:04
蘋果折疊屏 iPhone 機(jī)模曝光,新形態(tài)來了

蘋果折疊屏 iPhone 機(jī)模曝光,新形態(tài)來了

全是技能
2025-12-24 15:21:53
姆伯莫近7次代表喀麥隆出場(chǎng),球隊(duì)打進(jìn)9球他一人直接參與5球

姆伯莫近7次代表喀麥隆出場(chǎng),球隊(duì)打進(jìn)9球他一人直接參與5球

懂球帝
2025-12-25 05:09:19
杰倫-布朗:不管你提誰,我就是目前NBA表現(xiàn)最好的球員

杰倫-布朗:不管你提誰,我就是目前NBA表現(xiàn)最好的球員

懂球帝
2025-12-24 16:11:05
鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認(rèn),一大把年紀(jì)還玩性感

鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認(rèn),一大把年紀(jì)還玩性感

黃小仙的搞笑視頻
2025-12-24 11:46:44
中共中央紀(jì)委印發(fā)《關(guān)于做好2026年元旦春節(jié)期間正風(fēng)肅紀(jì)工作的通知》

中共中央紀(jì)委印發(fā)《關(guān)于做好2026年元旦春節(jié)期間正風(fēng)肅紀(jì)工作的通知》

新京報(bào)
2025-12-24 16:09:07
內(nèi)蒙“女色虎”落馬,靠陪睡高官上位,大肆斂財(cái)為了整容

內(nèi)蒙“女色虎”落馬,靠陪睡高官上位,大肆斂財(cái)為了整容

文史旺旺旺
2024-10-31 12:26:20
2025-12-25 08:15:00
TechSugar incentive-icons
TechSugar
做你身邊值得信賴的科技新媒體
4950文章數(shù) 12727關(guān)注度
往期回顧 全部

科技要聞

老板監(jiān)視員工微信只需300元

頭條要聞

中美安理會(huì)激烈交鋒 委內(nèi)瑞拉:撕破美國假面

頭條要聞

中美安理會(huì)激烈交鋒 委內(nèi)瑞拉:撕破美國假面

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
手機(jī)
藝術(shù)
本地
公開課

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎(jiǎng)金

手機(jī)要聞

S Pen回歸?消息稱三星全新“Wide Fold”寬折疊手機(jī)將支持手寫筆

藝術(shù)要聞

毛主席草書背后的故事:小練字者迷失,書法之路揭示真相。

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版