S2E35 AWS 大當機內幕:Race Condition 拖垮全球網路
Description
10 月 20 號星期一,亞馬遜雲端服務 AWS 的核心區域 us-east-1 爆出一個 Race Condition,
導致 DynamoDB 的 DNS 被清空,結果連帶拖垮了 113 項內部與外部服務。
從社群平台、交易所、航空公司、政府單位,甚至英超足球聯盟,全都中標。
這場十五小時的大當機,不只是 AWS 的災難,更是「雲端集中化」的一次警訊。
這集我們就來聊聊:
☁️ 為什麼 us-east-1 這麼關鍵?
⚙️ Race Condition 到底怎麼讓 DNS 全毀?
💥 為什麼 EC2、Network Manager 會跟著爆?
📉 為什麼 Amazon 股價幾乎沒動?
🧠 AWS 與用戶能怎麼避免下一次的災難?
🎧 如果你想知道這場當機背後的真實技術細節,
以及雲端世界最脆弱的一面,這集你一定要聽。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00 ) 開頭
(01:11 ) 為什麼我對 AI 新聞越來越無感?
(03:30 ) AWS 大當機
(04:58 ) 為什麼亞馬遜股價幾乎沒動?
(06:27 ) DynamoDB 一個月只能當機四分半
(07:41 ) 全球服務出事:從社群平台到航空公司
(08:27 ) 英超半自動越位系統原理是什麼?
(10:23 ) 或許「被迫離線」反而是好事
(11:01 ) Root cause 分析
(11:52 ) DynamoDB 是怎麼管理 DNS
(13:56 ) Race Condition 出現,災難開始擴散
(15:36 ) DynamoDB 修好後 EC2 卻開不了機
(17:46 ) EC2 開機了但沒網路
(19:25 ) AWS 工程師真的辛苦了
(20:00 ) 如何預防下一次:備援系統的關鍵思維
(23:14 ) 制定緊急應變 SOP + 定期演練的重要性
(24:06 ) 再怎麼準備,壞事還是會發生




