久久久久久无码日韩欧美电影,99青草在线免费观看视频,亚洲色诱,日本熟妇无码一区二区,精品人妻一区二区乱码,91尤物在线,日本苍井空特黄A片,午夜爽

來源：InfoQ

這一年，那些“崩潰”過的互聯(lián)網(wǎng)企業(yè)。

互聯(lián)網(wǎng)技術發(fā)展到了 2022 年，理論上來說是可以做到“永不宕機”的。但過去的 2021 年，宕機事故看起來一點也沒有減少。

隨著“國民級應用”增多，大家對技術的依賴程度越來越高，面臨的風險比以往任何時候都多。宕機影響的不僅是內(nèi)部用戶，連帶還會影響到客戶和合作伙伴的收入、信譽和生產(chǎn)力等各個方面。

宕機事故不可預測，因此它也被稱為系統(tǒng)中的“黑天鵝”。當前大型互聯(lián)網(wǎng)系統(tǒng)架構(gòu)日趨復雜，穩(wěn)定性風險也在升高，系統(tǒng)中一定會有一些黑天鵝潛伏著，只是還沒被發(fā)現(xiàn)。然而墨菲定律告訴我們“該出錯的終究會出錯”。我們整理了 2021 年發(fā)生的十個重大宕機事件，并總結(jié)了故障原因。這些故障大部分是人為造成的，并且依然是我們在系統(tǒng)建設中需要特別注意的地方。

國內(nèi)宕機事件：交待清楚故障原因也是一種能力

B 站崩潰，讓年輕人無心睡覺

7 月 13 日晚間，視頻網(wǎng)站嗶哩嗶哩（B 站）出現(xiàn)服務器宕機事故，無法登陸的用戶涌向其它站點，連鎖導致了一系列宕機事故?！癇站崩了”、“豆瓣崩了”、“A 站也崩了”、“晉江崩了”等接連沖上了熱搜。

據(jù)數(shù)據(jù)顯示，當時 B 站月活用戶為 2.23 億，其中 35 歲及以下的用戶比重超過 86%。顯然這些年輕人非常能熬夜，雖然宕機發(fā)生在深夜，但是大家吵吵鬧鬧地分析原因甚至還驚動了消防局。有網(wǎng)友認為“B 站崩了是因為有火情發(fā)生”，上海消防回復說：“經(jīng)了解，位于上海市政立路 485 號國正中心內(nèi)的嗶哩嗶哩彈幕網(wǎng) B 站（總部）未出現(xiàn)火情，未接到相關報警。具體情況以站方公布為準。”

半夜 2 點之后，B 站終于發(fā)了一個非常簡短的說明：“部分服務器機房發(fā)生故障，造成無法訪問?！?/span>

只是 B 站這個解釋，像是什么都說了，又像是什么都沒說。

富途證券服務中斷，創(chuàng)始人發(fā) 2000 字硬核長文解釋技術故障

10 月 9 日凌晨，互聯(lián)網(wǎng)券商富途證券 App 出現(xiàn)故障，用戶無法登錄進行交易。到了下午，富途證券發(fā)布了相關說明并致歉。富途證券表示，事故原因為“運營商機房電力閃斷導致的多機房網(wǎng)絡故障”，公司已于第一時間聯(lián)系運營商進行修復，并在 2 小時內(nèi)陸續(xù)恢復核心服務。

這次宕機本來并未引起證券行業(yè)之外的關注，但是隨后富途創(chuàng)始人李華（葉子哥）的文章卻讓這次宕機事件火出了圈。11 日中午，技術出身的李華發(fā)布了一篇 2000 字長文，向用戶致歉，文章里更多的篇幅卻是從技術角度解釋為什么會“宕機”。

雖然和 B 站一樣是因為服務器機房故障，李華卻從容災設計的各個環(huán)節(jié)給了大家詳細的說明。

李華表示，富途的證券系統(tǒng)中從行情到交易、從服務器到交易網(wǎng)關到網(wǎng)絡傳輸都有做雙路或多路的冗余設計。不同的子系統(tǒng)設計會有所不同。以行情為例，單向傳輸為主、對時延的敏感度也不是那么高，富途很早就作了多區(qū)域多 IDC 的容災設計；尤其像美股行情，涉及到越洋傳輸，為避免中斷，富途選擇了全球頂級的兩家行情供應商分別提供行情源，分別從美國、香港多地多點接入，當這些都不可用時，富途還保留了富途美國 IDC 直傳的能力。不考慮其他的冗余設計，光是因為行情源的冗余，富途一年增加的成本過千萬港元。

李華指出，在實時熱備的多路冗余交易系統(tǒng)的設計上會面臨著兩種選擇。一是較差的交易性能更大的訂單延時但更好容災能力的跨 IDC 多路冗余方案，二是更好的交易性能較小的訂單提交延時單一 IDC 的多路冗余方案，但 IDC 本身會成為故障的單點。這也間接導致了一定要做出選擇。在李華看來，考慮到 IDC 的建設標準，IDC 的大級別事故是罕見的，尤其是在電力故障方面。經(jīng)過綜合推演之后，富途選擇了更好性能的方案二，也因此留下了 IDC 的單點故障隱患。這次事故恰恰就是 IDC 出了問題，而且是最不應該出現(xiàn)問題的電力系統(tǒng)出了問題，不間斷電源和柴油發(fā)電機都沒能發(fā)揮應有的作用。

李華的硬核文章也得到了很多富途證券用戶的支持和鼓勵。

西安“一碼通”半個月崩潰兩次

2021 年 12 月 20 日，西安“一碼通”因訪問量過大導致系統(tǒng)崩潰。當時西安市大數(shù)據(jù)資源管理局稱，“一碼通”注冊用戶已達 4695.2 萬人，日均掃碼量超 800 萬人次。由于在各公共場所加大了掃碼查驗，同時開展多輪全員核酸檢測，“一碼通”每秒訪問量達到以往峰值的 10 倍以上，并建議市民非必要不展碼、亮碼。

2022 年 1 月 4 日上午 9 時，西安“一碼通”第二次崩潰。西安市開啟新一輪核酸篩查，許多西安網(wǎng)友反應，“西安一碼通”系統(tǒng)再次崩潰，無法顯示疫情防控碼。話題 # 西安一碼通 # 一度沖上微博熱搜第一。西安市相關部門公開回應稱，因訪問量太大，全市“一碼通”均出現(xiàn)無法正常顯示的問題。當天下午西安“一碼通”已經(jīng)逐步恢復正常使用。

據(jù)了解，西安“一碼通”是 2020 年 2 月西安市針對疫情防控牽頭開發(fā)的大數(shù)據(jù)平臺，業(yè)主單位是西安市大數(shù)據(jù)資源管理局。據(jù)工信部官網(wǎng) 1 月 4 日的報道，12 月 30 日 -31 日，工信部曾對陜西省通信管理局展開疫情防控工作調(diào)研，并要求西安“一碼通”加強技術改進和網(wǎng)絡擴容，確保不擁塞宕機。

碰巧的是，2022 年 1 月 10 日上午 8:30 左右，不少用戶反映“粵康碼”打不開了。上午 10:00 之后，情況逐漸得到緩解。隨后，“粵康碼”App 發(fā)布了一個很專業(yè)的官方說明。

今天（10 日）上午 8:31，平臺監(jiān)測到粵康碼流量異常增大，最高達每分鐘 140 萬次，超出承載極限，觸發(fā)系統(tǒng)保護機制，導致部分用戶訪問粵康碼緩慢或者異常，運行保障團隊緊急處置，于 9:04 部分緩解，9:56 完全恢復順暢運行。由此給您帶來不便，敬請諒解！

國際宕機事件：小 Bug 引起大麻煩

Facebook 史上最嚴重宕機，市值一夜蒸發(fā)三千億

10 月 4 日，美國社交媒體 Facebook、Instagram 和即時通訊軟件 WhatsApp 出現(xiàn)大規(guī)模宕機，此次宕機長達近 7 個小時，刷新了 Facebook 自 2008 年以來的最長宕機時長。

WhatsApp 和 Facebook Messenger 兩款“微信”類即時通信產(chǎn)品，分別在全球范圍擁有 20 億用戶和 13 億用戶，社交平臺 Instagram 用戶數(shù)也達到了 10 億用戶，也就是說這次宕機影響了超 30 億用戶。宕機期間，絕望的用戶涌向了 Twitter、Discord、Signal 和 Telegram，又導致這些應用程序的服務器紛紛崩潰。

Facebook 事后發(fā)表了故障報告，表示在一項日常維護工作中，工程師們發(fā)出一條用于評估全球骨干網(wǎng)容量可用性的指令，但意外切斷了骨干網(wǎng)絡中的所有連接，這實質(zhì)上就是斷開了 Facebook 全球數(shù)據(jù)中心之間的連接。服務中斷之后，F(xiàn)acebook 的工程師們因無法通過正常方式訪問 Facebook 數(shù)據(jù)中心進行修復，導致故障持續(xù)了 7 個小時之久。

據(jù)悉，這次事故讓臉書一夜之間市值蒸發(fā)約 473 億美元 (約合 3049 億元人民幣)。

Roblox 發(fā)生超長宕機，表示關鍵業(yè)務堅決不上云

10 月 28 日，Roblox 發(fā)生了一次長達 73 小時的宕機事故。Roblox 是目前在全球范圍內(nèi)備受歡迎的在線游戲平臺，日活躍用戶超過 5000 萬，其中許多人的年齡在 13 歲或以下。值得一提的是，Roblox 還被認為是“元宇宙”（metaverse）的關鍵參與者。

Roblox 隨后發(fā)布了非常詳細的故障報告。在報告中，Roblox 的技術人員解釋到，Roblox 程序運行在他們自己的數(shù)據(jù)中心中。為了管理自己眾多的服務器，Roblox 使用了開源 Consul 進行服務發(fā)現(xiàn)、健康檢查。Roblox 表示宕機主要是因啟用了 Consul 里的流式傳輸功能代替長輪詢機制，但流式傳輸功能存在 bug，最終導致性能下降而引起系統(tǒng)崩潰。宕機 54 個小時后才排查出故障原因，通過禁止流式傳輸功能，逐漸恢復了系統(tǒng)的服務能力。

在這樣的服務中斷之后，很多人很自然地詢問 Roblox 是否會考慮遷移到公共云，讓第三方管理 Roblox 的基礎計算、存儲和網(wǎng)絡服務。

Roblox 技術人員表示，與使用公有云相比，自建數(shù)據(jù)中心能夠顯著控制成本。此外，擁有自己的硬件并構(gòu)建自己的邊緣基礎設施能使 Roblox 最大限度地減少性能變化并管理全球玩家的延時。但也并不拘泥于任何特定的方法：“我們將公共云用于對我們的玩家和開發(fā)人員最有意義的用例，例如突發(fā)容量、大部分 DevOps 工作流程以及大部分內(nèi)部分析。但對于對性能和延遲至關重要的工作負載，我們選擇在本地構(gòu)建和管理自己的基礎架構(gòu)。這樣才能使我們能夠建立一個更好的平臺。”

Salesforce 工程師走捷徑修 Bug 引起全球大宕機

Salesforce 是目前最受歡迎的云軟件應用程序之一。據(jù)報道該軟件應用程序已被全球大約 150,000 個組織中的數(shù)百萬名員工使用。Salesforce 提供的服務涉及客戶關系管理的各個方面，從普通的聯(lián)系人管理、產(chǎn)品目錄到訂單管理、機會管理、銷售管理等。用戶無需花費大量資金和人力用于記錄的維護、儲存和管理，所有的記錄和數(shù)據(jù)都儲存在 Salesforce.com 上面。

5 月 11 日，Salesforce 的服務開始不可用，宕機持續(xù)了 5 個小時。事后，Salesforce 公司組織了一次客戶簡報會，完整披露了事件情況與相關工程師的操作流程。雖然 Salesforce 向來以高度自動化的內(nèi)部業(yè)務流程為傲，但其中不少環(huán)節(jié)仍然只能手動操作完成——DNS 正是其中之一。工程師使用的配置腳本執(zhí)行一項配置變更，變更后需要重啟服務器生效，不幸的是，腳本更新發(fā)生超時失敗。隨后更新又在 Salesforce 各數(shù)據(jù)中心內(nèi)不斷部署，超時點也被不斷引爆...... 對這位決心繞開既有管理政策、意外肇事的工程師本人，Salesforce 表示“我們已經(jīng)對這位員工做出了適當處理?！?/span>

云計算相關服務提供商：一旦出岔子，“爆炸半徑”就很大！

云計算巨頭 OVH 數(shù)據(jù)中心失火，360 萬個網(wǎng)站被迫下線

3 月份，歐洲云計算巨頭 OVH 位于法國斯特拉斯堡的機房近日發(fā)生嚴重火災，該區(qū)域總共有 4 個數(shù)據(jù)中心 (Strasbourg Data Center)，發(fā)生起火的 SBG2 數(shù)據(jù)中心被完全燒毀，另有一個數(shù)據(jù)中心 SBG1 的建筑物部分受損。當?shù)貓蠹埛Q 115 位消防員投入 6 個小時才將其撲滅。經(jīng)過長達 6 個小時的持續(xù)燃燒，SBG2 內(nèi)的數(shù)據(jù)應該會損失慘重。

這場大火對歐洲范圍內(nèi)的眾多網(wǎng)站造成嚴重影響。據(jù)悉，總共有跨 464000 個域的多達 360 萬個網(wǎng)站下線。

受到此次大火影響的客戶包括歐洲航天局的數(shù)據(jù)與信息訪問服務 ONDA 項目，此項目負責為用戶托管地理空間數(shù)據(jù)并在云端構(gòu)建應用程序。Rust 旗下的游戲工作室 Facepunch Studios 證實，有 25 臺服務器被燒毀，他們的數(shù)據(jù)已在這場大火中全部丟失。即使數(shù)據(jù)中心重新上線后，也無法恢復任何數(shù)據(jù)。其他客戶還包括法國政府，其 data.gouv.Fr 網(wǎng)站也被迫下線。另外還有加密貨幣交易所 Deribit，以及負責跟蹤 DDoS 僵尸網(wǎng)絡與其他網(wǎng)絡濫用問題的信息安全威脅情報廠商 Bad Packets......

其中還有些人很不走運：“不！?。∥铱浚。?！我的服務器在機架 70C09 上，我就是個普通客戶，我沒有任何災難恢復計劃……”

搞癱全球大半個互聯(lián)網(wǎng)，F(xiàn)astly 是何方神圣？

6 月 8 日，當全球各地數(shù)以億計的互聯(lián)網(wǎng)用戶登陸自己平日經(jīng)常登陸的網(wǎng)站時，發(fā)現(xiàn)頁面無法打開，并出現(xiàn)了“503 Errors”的錯誤提示，包括亞馬遜、Twitter、Reddit、Twitch、HBO Max、Hulu、PayPal、Pinterest 以及包括紐約時報、CNN 等在內(nèi)的各種類型的網(wǎng)站均悉數(shù)中招。

大約持續(xù)了一個小時之后，人們才發(fā)現(xiàn)這場大規(guī)模故障是由 CDN 服務公司 Fastly 引起的。Fastly 通過其官方推特和博客稱，“我們發(fā)現(xiàn)一個服務配置的更改引發(fā)了全球服務的短暫中斷，目前已將這一配置關閉，我們?nèi)蚍站W(wǎng)絡已恢復正常。”

于 2011 年成立的 Fastly 是全球為數(shù)不多的大型 CDN 供應商之一，可加快用戶瀏覽速度和體驗。有意思的是，出問題之后 Fastly 的股價在當天出現(xiàn)大漲，因為通過這起事件，投資者意識到，這家總部位于舊金山，員工數(shù)不到 1000 人的小公司，對互聯(lián)網(wǎng)世界有著舉足輕重的影響力。

谷歌云全球宕機 2 小時

11 月 16 日，據(jù)國外媒體報道，全球最大的云服務提供商之一谷歌云（Google Cloud）出現(xiàn)了宕機，導致許多依賴于谷歌云的大型公司網(wǎng)站中斷服務。

中斷持續(xù)約 2 個小時，其中包括家得寶、Spotify 等公司都接到用戶關于服務中斷的反饋，另外 Etsy 和 Snap 的服務也發(fā)生網(wǎng)絡故障。此外本次宕機對谷歌自家服務影響頗深，YouTube、Gmail、Google Search 均停止了工作。

據(jù)悉此事件是谷歌云用戶錯誤配置外部代理負載平衡 (GCLB) 所導致，算是一個漏洞，在 6 個月前被引入，極少數(shù)情況下，該漏洞允許損壞的配置文件被推送到 GCLB。11 月 12 日，一位 Google 工程師就發(fā)現(xiàn)此漏洞。谷歌原計劃于 11 月 15 日推出補丁，但是不巧的是還沒修復完，服務中斷就發(fā)生了。

AWS 一個月內(nèi)發(fā)生 3 次宕機

在 2021 年的最后一個月，AWS 發(fā)生了 3 次宕機。第一次宕機發(fā)生美國東部時間 7 日，從上午 10 點 45 分持續(xù)到下午 2 點 22 分，包括迪斯尼、奈飛、Robinhood、Roku 等大量熱門網(wǎng)站和應用都發(fā)生了網(wǎng)絡中斷。同時，亞馬遜的 Alexa AI 助理、Kindle 電子書、亞馬遜音樂、Ring 安全攝像頭等業(yè)務也受到影響。

12 月 10 日，AWS 公布了本次宕機的原因：某內(nèi)部客戶端的意外行為導致連接活動激增，使內(nèi)部網(wǎng)絡和主 AWS 網(wǎng)絡之間的聯(lián)網(wǎng)設備不堪重負，從而導致這些網(wǎng)絡之間的通信延遲。這些延遲增加了在網(wǎng)絡之間通信的服務延遲和錯誤，從而導致更多的連接嘗試和重試，最終引發(fā)持續(xù)的堵塞和性能問題。

12 月第二次宕機發(fā)生在 16 日上午 7 點 43 分左右，包括 Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online 和 Hulu 等在線服務均受到影響。AWS 隨后公布了故障原因：由于主網(wǎng)絡中某自動化軟件原因，錯誤得將一些流量轉(zhuǎn)移到主干網(wǎng)，結(jié)果影響了一些互聯(lián)網(wǎng)應用的連接。

12 月第三次宕機發(fā)生在 23 日美國東部時間 7 點 30 分左右，包括 Slack、Epic Games、加密貨幣交易所 Coinbase Global、游戲公司 Fortnite 、約會應用程序 Grindr 和交付公司 Instacart。對于此次中斷，AWS 初步調(diào)查稱是數(shù)據(jù)中心供電的問題。

最后，希望 2022 年大家都不會經(jīng)歷宕機～

感謝您的閱讀，也歡迎您發(fā)表關于這篇文章的任何建議，關注我，技術不迷茫！小編到你上高速。

· END ·

最后，關注公眾號互聯(lián)網(wǎng)架構(gòu)師，在后臺回復：2T，可以獲取我整理的 Java 系列面試題和答案，非常齊全。

正文結(jié)束

1 個月崩 3 次！ 2021 年的 10 個宕機名場面

1 個月崩 3 次！ 2021 年的 10 個宕機名場面