1 個月崩 3 次! 2021 年的 10 個宕機名場面
來源:InfoQ
這一年,那些“崩潰”過的互聯(lián)網(wǎng)企業(yè)。
B 站崩潰,讓年輕人無心睡覺



西安“一碼通”半個月崩潰兩次

國際宕機事件:小 Bug 引起大麻煩
Facebook 史上最嚴重宕機,市值一夜蒸發(fā)三千億
Roblox 發(fā)生超長宕機,表示關鍵業(yè)務堅決不上云
10 月 28 日,Roblox 發(fā)生了一次長達 73 小時的宕機事故。Roblox 是目前在全球范圍內(nèi)備受歡迎的在線游戲平臺,日活躍用戶超過 5000 萬,其中許多人的年齡在 13 歲或以下。值得一提的是,Roblox 還被認為是“元宇宙”(metaverse)的關鍵參與者。
Roblox 隨后發(fā)布了非常詳細的故障報告。在報告中,Roblox 的技術人員解釋到,Roblox 程序運行在他們自己的數(shù)據(jù)中心中。為了管理自己眾多的服務器,Roblox 使用了開源 Consul 進行服務發(fā)現(xiàn)、健康檢查。Roblox 表示宕機主要是因啟用了 Consul 里的流式傳輸功能代替長輪詢機制,但流式傳輸功能存在 bug,最終導致性能下降而引起系統(tǒng)崩潰。宕機 54 個小時后才排查出故障原因,通過禁止流式傳輸功能,逐漸恢復了系統(tǒng)的服務能力。
在這樣的服務中斷之后,很多人很自然地詢問 Roblox 是否會考慮遷移到公共云,讓第三方管理 Roblox 的基礎計算、存儲和網(wǎng)絡服務。
Roblox 技術人員表示,與使用公有云相比,自建數(shù)據(jù)中心能夠顯著控制成本。此外,擁有自己的硬件并構(gòu)建自己的邊緣基礎設施能使 Roblox 最大限度地減少性能變化并管理全球玩家的延時。但也并不拘泥于任何特定的方法:“我們將公共云用于對我們的玩家和開發(fā)人員最有意義的用例,例如突發(fā)容量、大部分 DevOps 工作流程以及大部分內(nèi)部分析。但對于對性能和延遲至關重要的工作負載,我們選擇在本地構(gòu)建和管理自己的基礎架構(gòu)。這樣才能使我們能夠建立一個更好的平臺。”
Salesforce 工程師走捷徑修 Bug 引起全球大宕機
Salesforce 是目前最受歡迎的云軟件應用程序之一。據(jù)報道該軟件應用程序已被全球大約 150,000 個組織中的數(shù)百萬名員工使用。Salesforce 提供的服務涉及客戶關系管理的各個方面,從普通的聯(lián)系人管理、產(chǎn)品目錄到訂單管理、機會管理、銷售管理等。用戶無需花費大量資金和人力用于記錄的維護、儲存和管理,所有的記錄和數(shù)據(jù)都儲存在 Salesforce.com 上面。
5 月 11 日,Salesforce 的服務開始不可用,宕機持續(xù)了 5 個小時。事后,Salesforce 公司組織了一次客戶簡報會,完整披露了事件情況與相關工程師的操作流程。雖然 Salesforce 向來以高度自動化的內(nèi)部業(yè)務流程為傲,但其中不少環(huán)節(jié)仍然只能手動操作完成——DNS 正是其中之一。工程師使用的配置腳本執(zhí)行一項配置變更,變更后需要重啟服務器生效,不幸的是,腳本更新發(fā)生超時失敗。隨后更新又在 Salesforce 各數(shù)據(jù)中心內(nèi)不斷部署,超時點也被不斷引爆...... 對這位決心繞開既有管理政策、意外肇事的工程師本人,Salesforce 表示“我們已經(jīng)對這位員工做出了適當處理?!?/span>
云計算巨頭 OVH 數(shù)據(jù)中心失火,360 萬個網(wǎng)站被迫下線
3 月份,歐洲云計算巨頭 OVH 位于法國斯特拉斯堡的機房近日發(fā)生嚴重火災,該區(qū)域總共有 4 個數(shù)據(jù)中心 (Strasbourg Data Center),發(fā)生起火的 SBG2 數(shù)據(jù)中心被完全燒毀,另有一個數(shù)據(jù)中心 SBG1 的建筑物部分受損。當?shù)貓蠹埛Q 115 位消防員投入 6 個小時才將其撲滅。經(jīng)過長達 6 個小時的持續(xù)燃燒,SBG2 內(nèi)的數(shù)據(jù)應該會損失慘重。
這場大火對歐洲范圍內(nèi)的眾多網(wǎng)站造成嚴重影響。據(jù)悉,總共有跨 464000 個域的多達 360 萬個網(wǎng)站下線。
受到此次大火影響的客戶包括歐洲航天局的數(shù)據(jù)與信息訪問服務 ONDA 項目,此項目負責為用戶托管地理空間數(shù)據(jù)并在云端構(gòu)建應用程序。Rust 旗下的游戲工作室 Facepunch Studios 證實,有 25 臺服務器被燒毀,他們的數(shù)據(jù)已在這場大火中全部丟失。即使數(shù)據(jù)中心重新上線后,也無法恢復任何數(shù)據(jù)。其他客戶還包括法國政府,其 data.gouv.Fr 網(wǎng)站也被迫下線。另外還有加密貨幣交易所 Deribit,以及負責跟蹤 DDoS 僵尸網(wǎng)絡與其他網(wǎng)絡濫用問題的信息安全威脅情報廠商 Bad Packets......
其中還有些人很不走運:“不!?。∥铱浚。?!我的服務器在機架 70C09 上,我就是個普通客戶,我沒有任何災難恢復計劃……”
搞癱全球大半個互聯(lián)網(wǎng),F(xiàn)astly 是何方神圣?
6 月 8 日,當全球各地數(shù)以億計的互聯(lián)網(wǎng)用戶登陸自己平日經(jīng)常登陸的網(wǎng)站時,發(fā)現(xiàn)頁面無法打開,并出現(xiàn)了“503 Errors”的錯誤提示,包括亞馬遜、Twitter、Reddit、Twitch、HBO Max、Hulu、PayPal、Pinterest 以及包括紐約時報、CNN 等在內(nèi)的各種類型的網(wǎng)站均悉數(shù)中招。
大約持續(xù)了一個小時之后,人們才發(fā)現(xiàn)這場大規(guī)模故障是由 CDN 服務公司 Fastly 引起的。Fastly 通過其官方推特和博客稱,“我們發(fā)現(xiàn)一個服務配置的更改引發(fā)了全球服務的短暫中斷,目前已將這一配置關閉,我們?nèi)蚍站W(wǎng)絡已恢復正常。”

于 2011 年成立的 Fastly 是全球為數(shù)不多的大型 CDN 供應商之一,可加快用戶瀏覽速度和體驗。有意思的是,出問題之后 Fastly 的股價在當天出現(xiàn)大漲,因為通過這起事件,投資者意識到,這家總部位于舊金山,員工數(shù)不到 1000 人的小公司,對互聯(lián)網(wǎng)世界有著舉足輕重的影響力。
谷歌云全球宕機 2 小時
11 月 16 日,據(jù)國外媒體報道,全球最大的云服務提供商之一谷歌云(Google Cloud)出現(xiàn)了宕機,導致許多依賴于谷歌云的大型公司網(wǎng)站中斷服務。
中斷持續(xù)約 2 個小時,其中包括家得寶、Spotify 等公司都接到用戶關于服務中斷的反饋,另外 Etsy 和 Snap 的服務也發(fā)生網(wǎng)絡故障。此外本次宕機對谷歌自家服務影響頗深,YouTube、Gmail、Google Search 均停止了工作。
據(jù)悉此事件是谷歌云用戶錯誤配置外部代理負載平衡 (GCLB) 所導致,算是一個漏洞,在 6 個月前被引入,極少數(shù)情況下,該漏洞允許損壞的配置文件被推送到 GCLB。11 月 12 日,一位 Google 工程師就發(fā)現(xiàn)此漏洞。谷歌原計劃于 11 月 15 日推出補丁,但是不巧的是還沒修復完,服務中斷就發(fā)生了。
AWS 一個月內(nèi)發(fā)生 3 次宕機
在 2021 年的最后一個月,AWS 發(fā)生了 3 次宕機。第一次宕機發(fā)生美國東部時間 7 日,從上午 10 點 45 分持續(xù)到下午 2 點 22 分,包括迪斯尼、奈飛、Robinhood、Roku 等大量熱門網(wǎng)站和應用都發(fā)生了網(wǎng)絡中斷。同時,亞馬遜的 Alexa AI 助理、Kindle 電子書、亞馬遜音樂、Ring 安全攝像頭等業(yè)務也受到影響。
12 月 10 日,AWS 公布了本次宕機的原因:某內(nèi)部客戶端的意外行為導致連接活動激增,使內(nèi)部網(wǎng)絡和主 AWS 網(wǎng)絡之間的聯(lián)網(wǎng)設備不堪重負,從而導致這些網(wǎng)絡之間的通信延遲。這些延遲增加了在網(wǎng)絡之間通信的服務延遲和錯誤,從而導致更多的連接嘗試和重試,最終引發(fā)持續(xù)的堵塞和性能問題。
12 月第二次宕機發(fā)生在 16 日上午 7 點 43 分左右,包括 Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online 和 Hulu 等在線服務均受到影響。AWS 隨后公布了故障原因:由于主網(wǎng)絡中某自動化軟件原因,錯誤得將一些流量轉(zhuǎn)移到主干網(wǎng),結(jié)果影響了一些互聯(lián)網(wǎng)應用的連接。
12 月第三次宕機發(fā)生在 23 日美國東部時間 7 點 30 分左右,包括 Slack、Epic Games、加密貨幣交易所 Coinbase Global、游戲公司 Fortnite 、約會應用程序 Grindr 和交付公司 Instacart。對于此次中斷,AWS 初步調(diào)查稱是數(shù)據(jù)中心供電的問題。
最后,希望 2022 年大家都不會經(jīng)歷宕機~
正文結(jié)束
1.救救大齡碼農(nóng)!45歲程序員在國務院網(wǎng)站求助總理!央媒網(wǎng)評來了...
5.37歲程序員被裁,120天沒找到工作,無奈去小公司,結(jié)果懵了...

