国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一次AWS DNS故障如何級聯(lián)癱瘓半個互聯(lián)網(wǎng)

0
分享至

2025年10月20日,AWS最關(guān)鍵的 us-east-1 區(qū)域發(fā)生了一場持續(xù) 15 小時的重大故障,導(dǎo)致全球超過 1000 家企業(yè)服務(wù)中斷。 而這場故障背后的根因,竟然僅僅是一條 AWS 內(nèi)部 DNS 解析失效。

從凌晨的 DNS 解析失效開始,AWS DynamoDB、EC2、Lambda 等 142 項(xiàng)服務(wù)相繼受到影響,進(jìn)而導(dǎo)致全球互聯(lián)網(wǎng)的大部分功能停轉(zhuǎn)。 Snapchat、Roblox、Coinbase、Signal、Reddit、Robinhood 等熱門應(yīng)用離線,數(shù)十億美元在半天內(nèi)蒸發(fā),這不啻于一場賽博世界的地震。

更有甚者,因?yàn)?us-east-1 是所有 AWS 區(qū)域的公共控制平面所在地,即使工作負(fù)載部署在歐洲或亞洲的企業(yè)也未能幸免。 這場故障暴露了云計(jì)算時代最根本的脆弱性:一條損壞的 DNS 就能引發(fā)數(shù)十億美元的經(jīng)濟(jì)損失。 這不是技術(shù)能力問題,而是架構(gòu)哲學(xué)的失敗 —— us-east-1 成了全球互聯(lián)網(wǎng)依賴的中樞神經(jīng)系統(tǒng),而這個系統(tǒng)現(xiàn)在已經(jīng)證明,它會定期失靈。


賽博地震:數(shù)十億美元在半天內(nèi)蒸發(fā)

這場持續(xù)15小時的故障,在全球數(shù)字經(jīng)濟(jì)中掀起了一場"賽博地震"。Catchpoint CEO 受CNN采訪時表示:這次故障的預(yù)估經(jīng)濟(jì)損失達(dá)"數(shù)十億甚至數(shù)千億美元"。

金融服務(wù)首當(dāng)其沖。Robinhood 在美東交易時段完全離線,數(shù)百萬散戶投資者被鎖在賬戶之外; Coinbase 的宕機(jī)讓加密貨幣交易者在市場波動中束手無策; Venmo 收到8000份故障報告,用戶的數(shù)字錢包瞬間"消失"。在現(xiàn)代無現(xiàn)金社會,這相當(dāng)于所有人同時失去了錢包。

游戲行業(yè)損失同樣慘重。Roblox 7000萬日活用戶被迫下線,虛擬經(jīng)濟(jì)瞬間停擺; Epic Games 的 Fortnite、任天堂的 Pokémon GO、育碧的彩虹六號集體失聲。 對這些依賴用戶粘性的平臺而言,每小時的宕機(jī)都可能意味著永久的用戶流失。

英國的政府網(wǎng)站,稅務(wù),海關(guān),銀行系統(tǒng)受到影響,多家航空公司內(nèi)部系統(tǒng)受損導(dǎo)致部分航班運(yùn)營混亂。 更諷刺的是,Amazon 自家產(chǎn)品全線翻車 —— 購物網(wǎng)站、Alexa、Ring 門鈴、Prime Video,甚至 AWS 自己的工單系統(tǒng)都未能幸免。 這充分說明:即使是 AWS 的創(chuàng)造者,也無法避免對 us-east-1 的單點(diǎn)依賴


故障根因:DNS失效引發(fā)的蝴蝶效應(yīng)

太平洋夏令時2025年10月19日晚11:49,us-east-1 區(qū)域的多個服務(wù)錯誤率突然攀升。 直到22分鐘后,AWS 才在健康儀表板發(fā)布第一條確認(rèn)。截止到10月20日下午3:53分結(jié)束,整個故障持續(xù)了16小時。


根因看似簡單:AWS 內(nèi)部系統(tǒng)的 DNS 解析失敗。但這個"小故障"卻觸發(fā)了驚人的級聯(lián)效應(yīng)。 DynamoDB 無法訪問,而它恰恰是 AWS 控制平面的基石 —— IAM、EC2、Lambda、CloudWatch 等關(guān)鍵服務(wù)全部依賴它。

AWS 花了三個半小時修復(fù) DNS,以為萬事大吉,卻沒想到積壓的請求產(chǎn)生了"重試風(fēng)暴",再次壓垮了 DynamoDB。 EC2、負(fù)載均衡器、Lambda 與 DynamoDB 之間的循環(huán)依賴讓系統(tǒng)陷入死局。 AWS 被迫采用手工限流的方式,通過限制啟動 EC2 實(shí)例,限流 Lambda/SQS 輪詢來緩解壓力,直到下午才逐漸恢復(fù)。


級聯(lián)放大:互聯(lián)網(wǎng)的阿喀琉斯之踵

us-east-1 不是普通的數(shù)據(jù)中心,它是 AWS 全球基礎(chǔ)設(shè)施的中樞神經(jīng)系統(tǒng)。除了政務(wù)云和歐洲主權(quán)云,所有 AWS 區(qū)域的公共控制平面都在這里。


這意味著什么?即使你的應(yīng)用部署在東京或法蘭克福,當(dāng)需要進(jìn)行 IAM 認(rèn)證、配置 S3、訪問 DynamoDB 全局表、調(diào)用 Route 53 時,請求仍要路由到 us-east-1。 這次故障中,英國政府網(wǎng)站、Lloyds 銀行、加拿大 Wealthsimple —— 這些看似與美東無關(guān)的服務(wù),都因這種隱性依賴而癱瘓。

us-east-1 的特殊地位源于歷史 —— 作為 AWS 的第一個區(qū)域,19年的演進(jìn)讓它積累了大量技術(shù)債務(wù)。 重構(gòu)它?數(shù)百萬行代碼、數(shù)千個微服務(wù)、難以計(jì)數(shù)的客戶依賴,任何改動都可能引發(fā)更大災(zāi)難。 于是 AWS 選擇了維持現(xiàn)狀,直到故障再次提醒我們這個選擇的代價。

技術(shù)解剖:小故障如何演變?yōu)榇鬄?zāi)難

從2017年到2025年,us-east-1 的每次重大故障都暴露了相同的架構(gòu)反模式,而 AWS 似乎從未真正吸取教訓(xùn)。


循環(huán)依賴的死亡螺旋 : AWS 各項(xiàng)基礎(chǔ)服務(wù)依賴 DynamoDB,DynamoDB 又部署在 EC2 上,而 EC2/LB 又依賴 DynamoDB, —— 這種循環(huán)依賴會導(dǎo)致架構(gòu)復(fù)雜度指數(shù)增長, 系統(tǒng)復(fù)雜度被隱藏在微服務(wù)的層層抽象之下,極大拉高故障分析定位,處理解決的難度與時長。平時歲月靜好,故障時卻成為死亡陷阱。 我們已經(jīng)在 ,, 這些公司的翻車案例中見過太多類似的例子了。

中心化的單點(diǎn)故障 : 在2020年 Kinesis 故障后,AWS承諾實(shí)施蜂窩架構(gòu)以提供艙壁并限制爆炸半徑,但顯然并沒有落實(shí)到全局管控平面上來。 us-east-1 區(qū)域作為整個 AWS 全球全局控制平面的單點(diǎn),牽一發(fā)而動全身,這種集中化創(chuàng)建了系統(tǒng)性風(fēng)險。 盡管 AWS 聲稱在 us-east-1 部署了六個可用區(qū)提供冗余,但遇到 DNS 這種全局基礎(chǔ)服務(wù)故障時依然形同虛設(shè)。 這揭示了一個殘酷真相:再精妙的多區(qū)域設(shè)計(jì),也敵不過一個單點(diǎn)依賴。

監(jiān)控系統(tǒng)的自我失明 : 最荒謬的是,AWS 自己的監(jiān)控工具也依賴被監(jiān)控的服務(wù)。CloudWatch 也依賴 DynamoDB ,然而當(dāng) DynamoDB 失效,監(jiān)控系統(tǒng)也隨之失明。 這創(chuàng)造了一個悖論:最需要監(jiān)控?cái)?shù)據(jù)的時候,恰恰是監(jiān)控系統(tǒng)最不可用的時候。外部監(jiān)控平臺如 Datadog 同樣托管在 AWS 上,形成了"自己監(jiān)控自己"的閉環(huán)。 故障發(fā)生75分鐘后,AWS 狀態(tài)頁面仍顯示"一切正常" —— 也許不是他們在撒謊,而是監(jiān)控系統(tǒng)自己也癱瘓了。

斷路器的集體缺席 : 盡管 AWS 發(fā)布了大量關(guān)于實(shí)施斷路器的最佳實(shí)踐指南,但這次故障顯示出,AWS 自己的內(nèi)部服務(wù)網(wǎng)格可能并沒有實(shí)施這些機(jī)制。 斷路器本應(yīng)在檢測到下游服務(wù)故障時自動"熔斷",停止發(fā)送請求,避免雪崩。 但實(shí)際情況是,當(dāng) DynamoDB 出現(xiàn)問題,所有依賴服務(wù)繼續(xù)瘋狂重試,形成"重試風(fēng)暴"。 AWS 最終被迫手動介入,通過人工限流來控制局面 —— 這種原始的應(yīng)對方式,與其宣揚(yáng)的"自動化一切"理念形成鮮明對比。

知識流失:組織功能障礙的技術(shù)表現(xiàn)

在運(yùn)維圈里有句名言 —— “It’s always DNS” 。任何經(jīng)驗(yàn)豐富的 SRE 遇到這種事都會優(yōu)先檢查 DNS。 但 AWS 團(tuán)隊(duì)卻在黑暗中摸索了兩個多小時,然后又在斷路限流的路上掙扎了五個小時。精銳盡失的團(tuán)隊(duì)難堪大任,這無疑是草臺班子理論的又一例證。

2022-2025年間,亞馬遜裁員超過27000人。內(nèi)部文件顯示,各個級別 "不希望流失的人才" (Regretted Attrition)的流失率高達(dá)69-81%。 強(qiáng)制返回辦公室政策進(jìn)一步推動高級人才離職。Justin Garrison 在2023年離職時就預(yù)言會有更多大規(guī)模故障[1] —— 事實(shí)證明他還是太樂觀。

Regretted Attrition:即企業(yè)本不希望他們離職、但他們?nèi)灾鲃与x開的員工。 即在所有離職員工中,有 69–81% 屬于公司不希望失去的人。

機(jī)構(gòu)記憶的流失是不可逆的。那些知道系統(tǒng)隱秘依賴關(guān)系的老工程師走了,留下的新人即使再努力,也缺乏診斷復(fù)雜級聯(lián)故障的直覺。 這種隱性知識無法通過文檔傳承,只能通過多年的事故響應(yīng)經(jīng)驗(yàn)積累。 當(dāng)下一個"邊緣案例"出現(xiàn)時,缺乏經(jīng)驗(yàn)的團(tuán)隊(duì)只能眼睜睜看著系統(tǒng)崩潰,并花費(fèi)老司機(jī)幾十倍的時間去摸索定位與笨拙處理。

云經(jīng)濟(jì)學(xué)家 Corey Quinn 在《亞馬遜人才流失終于導(dǎo)致 AWS 走向衰落[2]》中辛辣諷刺道:“當(dāng)你炒掉最優(yōu)秀的工程師時,就別驚訝云廠商會忘記 DNS 是怎么工作的” —— "下一次大故障已經(jīng)在醞釀中,只是哪個人手不足的團(tuán)隊(duì)率先被哪個邊緣案例絆倒的問題而已。"


冷峻未來:應(yīng)對云計(jì)算帶來的脆弱性

在幾個月前,,僅僅半年不到,AWS DNS 故障又再一次把全球互聯(lián)網(wǎng)拉下水。

當(dāng)一家云廠商內(nèi)部的一條 DNS 記錄損壞,就能讓全球數(shù)千萬用戶的生活陷入混亂; 當(dāng)一個區(qū)域的數(shù)據(jù)中心網(wǎng)絡(luò)故障,能讓遍布五大洲的企業(yè)同時癱瘓,我們必須承認(rèn):云計(jì)算在帶來便利的同時,也創(chuàng)造了前所未有的系統(tǒng)性脆弱性。

更何況,當(dāng)三家美國公司控制全球63%的云基礎(chǔ)設(shè)施,這已經(jīng)不僅是技術(shù)問題,更是地緣政治風(fēng)險和數(shù)字主權(quán)挑戰(zhàn)。單一供應(yīng)商的便利性與全球性的脆弱性構(gòu)成了一個危險的悖論。


在云服務(wù)商的營銷話術(shù)中,“99.99% 可用性”、“全球多活冗余”、“企業(yè)級可靠性”是標(biāo)配承諾。 但將 AWS、Azure、Google Cloud 近年的實(shí)際故障記錄擺在一起,云可靠性的神話開始動搖。 Cherry Servers 在 2025 年發(fā)布的研究[3] 揭示了殘酷的數(shù)據(jù): 過去一年 AWS 發(fā)生了 38 次重大事件,平均恢復(fù)時間 1.5 小時;Google Cloud 發(fā)生了 78 次,平均 5.8 小時;Azure 雖僅 9 次,但平均時長高達(dá) 14.6 小時。


“下云” 正從異端想法變成現(xiàn)實(shí)選項(xiàng)。在此次 AWS 宕機(jī)中,馬斯克旗下的社交平臺 X(原推特)因使用自己的數(shù)據(jù)中心運(yùn)營而安然無恙。老馬在 X 對 AWS 發(fā)出多次嘲諷與揶揄。 知名 SaaS 廠商 37signals 則早在 2022 年就決定將 Basecamp 和 HEY 郵件服務(wù)遷出公有云,。 Dropbox 更是在 2016 年便開始逐步減少對 AWS 的依賴,重返自建數(shù)據(jù)中心。這并不是技術(shù)倒退,而是對過度集中化風(fēng)險的理性校正。


對于有能力的企業(yè)來說,混合部署——將核心系統(tǒng)自主可控部署,本地掌握底線,而將彈性擴(kuò)展需求交給云端處理,可能是更明智的選擇。 每一家依賴云的公司都需要認(rèn)真思考:是否所有工作負(fù)載都必須上云?那些關(guān)鍵系統(tǒng)是否應(yīng)該保留獨(dú)立運(yùn)行的能力,以在云崩潰時維持最基本的服務(wù)?

在脆弱性中構(gòu)建韌性,在依賴與集中化中保持獨(dú)立自主 —— 這不是技術(shù)選擇,而是生存哲學(xué)。 us-east-1 還會再次故障 —— 不是是否,而是何時。所以真正的問題是:下一次故障發(fā)生時,你是否已經(jīng)準(zhǔn)備好了?

小廣告

老規(guī)矩,寫文章不打廣告約等于沒寫。如果你想減少對集中式云服務(wù)的依賴,在故障時擁有自救的能力而非干坐著等死,那么從最重要的 PaaS 數(shù)據(jù)庫自建著手,增強(qiáng)自主可控與跨云運(yùn)營的能力,或許是一個明智的選擇。

老馮的 允許你在不依賴 DNS,S3,IAM,Docker,K8S,等外部系統(tǒng)的前提下,在物理機(jī) / 虛擬機(jī)裸 Linux 環(huán)境上一鍵部署企業(yè)級的 PostgreSQL RDS 集群,自帶 高可用,PITR,負(fù)載均衡,監(jiān)控系統(tǒng), 424 個 PG 擴(kuò)展,以及獨(dú)家 Supabase 支持 。軟件開源免費(fèi),本地優(yōu)先 —— 即使斷網(wǎng),也能持續(xù)擴(kuò)容,在云上云下運(yùn)行至地老天荒。

歡迎訪問 https://pgsty.com / https://pigsty.cc 了解更多詳情。


References

[1] Justin Garrison 在2023年離職時就預(yù)言會有更多大規(guī)模故障:https://justingarrison.com/blog/2023-12-30-amazons-silent-sacking/
[2]亞馬遜人才流失終于導(dǎo)致 AWS 走向衰落:https://www.theregister.com/2025/10/20/aws_outage_amazon_brain_drain_corey_quinn/
[3]Cherry Servers 在 2025 年發(fā)布的研究:https://www.cherryservers.com/blog/cloud-outages
[4]AWS: Update - AWS services operating normally:https://www.aboutamazon.com/news/aws/aws-service-disruptions-outage-update
[5]AWS: Service Health, Operational issue - Multiple services (N. Virginia):https://health.aws.amazon.com/health/status
[6]HackerNews: AWS multiple services outage in us-east-1:https://news.ycombinator.com/item?id=45640838
[7]CNN: Amazon says systems are back online after global internet outage:https://edition.cnn.com/business/live-news/amazon-tech-outage-10-20-25-intl
[8]Register: Today is when the Amazon brain drain finally sent AWS down the spout:https://www.theregister.com/2025/10/20/aws_outage_amazon_brain_drain_corey_quinn/
[9]Converge: DNS Failure Triggers Multi-Service AWS Disruption in US-EAST-1: https://convergedigest.com/aws-reports-major-outage-in-us-east-1-region/

專欄:云計(jì)算泥石流

云故障

云資源

下云記

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
建國后,毛主席讓人轉(zhuǎn)告鄧子恢:你不開除他,我就開除你

建國后,毛主席讓人轉(zhuǎn)告鄧子恢:你不開除他,我就開除你

鶴羽說個事
2026-01-08 11:00:54
美國官員稱:主宰這個世界的是實(shí)力 武力與權(quán)力

美國官員稱:主宰這個世界的是實(shí)力 武力與權(quán)力

看看新聞Knews
2026-01-08 11:01:03
果然在春曉油田動手了!日本對中方強(qiáng)烈抗議,要求馬上談判!

果然在春曉油田動手了!日本對中方強(qiáng)烈抗議,要求馬上談判!

達(dá)文西看世界
2026-01-09 08:09:34
中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

狐貍先森講升學(xué)規(guī)劃
2026-01-09 08:09:18
隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

近史談
2025-12-27 13:49:49
社評:面對霸權(quán)脅迫,歐洲不能再裝睡了

社評:面對霸權(quán)脅迫,歐洲不能再裝睡了

環(huán)球網(wǎng)資訊
2026-01-09 00:06:11
山姆一夜崩盤,3億中產(chǎn)天塌了

山姆一夜崩盤,3億中產(chǎn)天塌了

首席品牌觀察
2026-01-09 15:57:31
沒文化,真可怕!笑死了,因?yàn)闆]文化鬧出了太多笑話

沒文化,真可怕!笑死了,因?yàn)闆]文化鬧出了太多笑話

夜深愛雜談
2026-01-08 21:58:41
部分中國公民反映對來俄有一定擔(dān)心,駐俄羅斯使館發(fā)言人答問

部分中國公民反映對來俄有一定擔(dān)心,駐俄羅斯使館發(fā)言人答問

澎湃新聞
2026-01-08 15:17:04
公司 29 人合買基金,每人投了15萬,我因銀行系統(tǒng)沒加入

公司 29 人合買基金,每人投了15萬,我因銀行系統(tǒng)沒加入

今天說故事
2026-01-07 05:21:23
山東男籃遭打擊:國手高詩巖雙腿膝蓋積水嚴(yán)重 將無緣對陣北京

山東男籃遭打擊:國手高詩巖雙腿膝蓋積水嚴(yán)重 將無緣對陣北京

醉臥浮生
2026-01-09 14:13:53
江西男子駕車撞死一家三口被判死緩,法院:不管不顧公共安全,但曾采取避讓措施且自首

江西男子駕車撞死一家三口被判死緩,法院:不管不顧公共安全,但曾采取避讓措施且自首

瀟湘晨報
2026-01-09 13:47:24
誰能想到,馬云對美團(tuán)王興的復(fù)仇,一等就是整整十年

誰能想到,馬云對美團(tuán)王興的復(fù)仇,一等就是整整十年

流蘇晚晴
2025-12-29 18:31:44
年薪50萬遭妻子嫌棄后續(xù):丈夫身份曝光,工資全上交,挨罵是日常

年薪50萬遭妻子嫌棄后續(xù):丈夫身份曝光,工資全上交,挨罵是日常

單手搓核彈
2026-01-06 13:44:21
馬斯克的腦機(jī)接口公司不斷取得突破,那么中國的腦機(jī)接口技術(shù)到底有多強(qiáng)

馬斯克的腦機(jī)接口公司不斷取得突破,那么中國的腦機(jī)接口技術(shù)到底有多強(qiáng)

上觀新聞
2026-01-09 08:38:09
1月翻身轉(zhuǎn)運(yùn):這三大生肖貴人相助,財(cái)運(yùn)順?biāo)焐蠐P(yáng)

1月翻身轉(zhuǎn)運(yùn):這三大生肖貴人相助,財(cái)運(yùn)順?biāo)焐蠐P(yáng)

人閒情事
2026-01-07 13:44:15
郁亮的萬科35年:從“寶萬之爭”到“活下去”,他能放下焦慮了嗎?

郁亮的萬科35年:從“寶萬之爭”到“活下去”,他能放下焦慮了嗎?

時代財(cái)經(jīng)
2026-01-09 07:53:09
頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

老吳教育課堂
2026-01-07 09:59:57
馬杜羅被“綁架”到美國,徹底打臉國內(nèi)的某些軍事專家

馬杜羅被“綁架”到美國,徹底打臉國內(nèi)的某些軍事專家

微評社
2026-01-05 11:17:53
中國宣布斷供稀土,日本高市24小時內(nèi)遭罷免

中國宣布斷供稀土,日本高市24小時內(nèi)遭罷免

飛上自己的天空去
2026-01-09 13:50:34
2026-01-09 16:59:00
老馮云數(shù) incentive-icons
老馮云數(shù)
數(shù)據(jù)庫老司機(jī),云計(jì)算泥石流,PostgreSQL大法師
75文章數(shù) 28關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱若大陸改變臺灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

頭條要聞

特朗普稱若大陸改變臺灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

英偉達(dá)的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

本地
數(shù)碼
旅游
親子
公開課

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

數(shù)碼要聞

入門獨(dú)顯可以扔了!Intel銳炫B390集顯實(shí)測:《賽博朋克2077》超80FPS

旅游要聞

生肖免票刷屏點(diǎn)燃文旅消費(fèi)“第一把火”!各地花式促消費(fèi)背后,產(chǎn)業(yè)加速價值轉(zhuǎn)型

親子要聞

48歲媽媽懷孕7個月才發(fā)現(xiàn),孩子剛半歲肚子又大了?女兒緊急提問

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版