Facebook史上最嚴重宕機:互聯(lián)網(wǎng)企業(yè)是時候重新審視架構了?Hollis關注共 3362字,需瀏覽 7分鐘 ·2021-10-13 00:18 作者 | 核子可樂 褚杏娟扎克伯格個人財富一日蒸發(fā)逾 60 億美元。??剛被指責“利用放大仇恨言論的算法謀取利益”沒多久,F(xiàn)acebook 再次陷入危機。美國東部時間 10 月 4 日上午 11 點 39 分左右,美國社交媒體 Facebook、Instagram 和即時通訊軟件 WhatsApp 出現(xiàn)大規(guī)模宕機,此次宕機長達近 7 個小時,刷新了 Facebook 自 2008 年以來的最長宕機時長。美國互聯(lián)網(wǎng)監(jiān)控網(wǎng)站 DownDectors 的監(jiān)控情況顯示,F(xiàn)acebook 在歐洲、美洲、大洋洲幾乎是完全下線,在亞洲的日本、韓國、印度等國也無法訪問。據(jù)悉,WhatsApp 和 Facebook Messenger 兩款“微信”類即時通信產品,分別在全球范圍擁有 20 億用戶和 13 億用戶,社交平臺 Instagram 用戶數(shù)也達到了 10 億用戶。除了讓數(shù)十億用戶陷入困境之外, Facebook 服務中斷還使其員工無法使用內部工具相互交流。Facebook 的電子郵件和工具都是企業(yè)內部管理的,F(xiàn)acebook 很多員工也無法正常工作。Facebook 首席技術官 Mike Schroepfer 在推特上道歉?一條指令引發(fā)的“血案”Facebook 表示,這次故障的根本原因是例行維護工作發(fā)出了一條糟糕的指令,結果導致其 DNS 服務器不可使用,切斷了 Facebook 整個骨干網(wǎng)絡與數(shù)據(jù)中心之間的連接。所謂骨干網(wǎng),是 Facebook 為一切計算設施構建而成的全局連接網(wǎng)絡,由長達數(shù)萬英里的光纖線纜組成,跨越全球并將各地的數(shù)據(jù)中心連接了起來。Facebook 基礎設施副總裁 Santosh Janardhan 在文章中解釋道,數(shù)據(jù)中心主要有兩種形式,一種是存放著數(shù)百萬臺數(shù)據(jù)存儲與高強度計算負載運行設備的“巨大的建筑”,另一種則屬于小型設備,通過骨干網(wǎng)絡接入整體互聯(lián)網(wǎng)并構建起 Facebook 社交平臺的方方面面。當用戶打開應用并加載摘要或消息時,應用提出的數(shù)據(jù)請求會由當前設備傳輸至最近的設施,之后再直接通過骨干網(wǎng)絡與更大的數(shù)據(jù)中心進行通信。應用所需要的信息將在這些數(shù)據(jù)中心內進行檢索與處理,再把結果通過網(wǎng)絡發(fā)送回用戶手機上。維護基礎設施的日常工作非常繁重。工程師們還經常需要讓部分骨干網(wǎng)絡離線以實施維護——包括修復光纖線路、擴大容量或者更新路由器自身軟件等等。而這也是此次宕機事件的原因所在。Janardhan 表示,在一項日常維護工作中,工程師們發(fā)出一條用于評估全球骨干網(wǎng)容量可用性的指令,但意外切斷了骨干網(wǎng)絡中的所有連接,這實質上就是斷開了 Facebook 全球數(shù)據(jù)中心之間的連接。不幸的是,F(xiàn)acebook 的系統(tǒng)在設計上能夠審查此類指令以防止出現(xiàn)錯誤,但其功能只是發(fā)出錯誤提示,并不能真正阻止指令執(zhí)行。這次意外,導致 Facebook 的數(shù)據(jù)中心與互聯(lián)網(wǎng)之間的服務器連接完全斷開,由此帶來了一系列連鎖效應讓情況進一步惡化。在此次宕機事件中,由于整個骨干網(wǎng)都已陷入癱瘓,因此各 DNS 服務器位置均上報連接狀態(tài)問題并撤回邊界網(wǎng)關協(xié)議(BGP)通告。最終結果是,F(xiàn)acebook 的 DNS 服務器雖然仍在運行但卻無法正常訪問,導致其他互聯(lián)網(wǎng)用戶也無法正常接入其服務器。響應 DNS 查詢是小型設施執(zhí)行的一項重要任務。DNS 可以稱之為互聯(lián)網(wǎng)的地址簿,能夠將用戶在瀏覽器中輸入的簡單網(wǎng)絡名稱轉換為特定的服務器 IP 地址。這些轉換查詢由 Facebook 的權威名稱服務器給出應答,而這些服務器本身就占用著最眾所周知的 IP 地址。接下來,這些服務器再通過邊界網(wǎng)關協(xié)議(BGP)向互聯(lián)網(wǎng)的其余部分發(fā)布通告。為了確保運行可靠性,如果 DNS 服務器自身無法與數(shù)據(jù)中心通信,則所有 BGP 通告都將被禁用,表示當前網(wǎng)絡連接狀態(tài)不正確。簡單來說,F(xiàn)acebook 拿走了告訴世界計算機如何找到其各種在線資產的地圖。結果,當在 Web 瀏覽器中鍵入 Facebook.com 時,瀏覽器不知道在哪里可以找到 Facebook.com,因此返回到了錯誤頁面。?為什么無法及時修復為什么這次故障持續(xù)了近 7 個小時之久呢?Janardhan 表示,工程師們在修復這一故障時,面臨著兩個巨大的障礙:首先,F(xiàn)acebook 的工程師們無法通過正常方式訪問自己的 Facebook 數(shù)據(jù)中心,因為這時候骨干網(wǎng)已經出現(xiàn)了故障;其次,DNS 沒有響應致使 Facebook 無法使用調查及解決宕機問題的常規(guī)內部工具。骨干網(wǎng)與帶外網(wǎng)絡訪問均出現(xiàn)故障,這意味著工程師只能親自前往現(xiàn)場進行調試并嘗試重啟系統(tǒng)。但這需要時間,因為各處設施都遵循高水平的物理與系統(tǒng)安全保護政策。錯誤的更新阻止了 Facebook 員工(其中大多數(shù)是遠程工作)恢復和更改系統(tǒng)。與此同時,那些可以物理訪問 Facebook 大樓的人無法訪問 Facebook 的內部工具。“任何人員都很難進入,而且一旦進入并獲得物理訪問能力,這些硬件與路由器的設計也很難得到修改。因此,需要更多的時間將工程師們引導進機房,并為他們提供在服務器上工作所需要的安全訪問協(xié)議。只有這樣,我們才能確認問題并讓骨干網(wǎng)重新上線。”Janardhan 寫道。有專家估計,F(xiàn)acebook、Instagram、WhatsApp 全球服務中斷一小時將給全球經濟造成 1.6 億美元的損失。同時,F(xiàn)acebook 當日股價盤中暴跌 6%,扎克伯格個人財富一日蒸發(fā)逾 60 億美元。屋漏偏逢連夜雨。在 Facebook 全球網(wǎng)絡服務中斷期間,據(jù)稱在黑客論壇上有超過 15 億 Facebook 用戶的數(shù)據(jù)被出售。但 Facebook 方面否認了這次用戶數(shù)據(jù)泄露與服務中斷有關。“我們要明確表示,這次宕機背后沒有惡意活動,其根本原因是我們端的錯誤配置更改。我們也沒有證據(jù)表明用戶數(shù)據(jù)因此次停機而受到損害。”Janardhan 說道。?架構缺陷美國東部時間下午 6 點 33 分,F(xiàn)acebook 發(fā)推文稱其應用程序和服務已開始恢復運行。隨著各數(shù)據(jù)中心區(qū)域中的骨干網(wǎng)連接的恢復,一切都隨之復原。但問題還沒有真正結束。一次性對所有服務全部重啟會帶來新的隱患,因為流量激增很可能導致新一輪崩潰。個別數(shù)據(jù)中心還上報稱宕機導致設施耗電量下降了幾十兆瓦,而突然上線帶來的用電量暴增很可能給電氣系統(tǒng)、緩存等各類裝置帶來意外沖擊。Janardhan 表示,雖然 Facebook 一直在做“風暴”演習,對服務、數(shù)據(jù)中心乃至整個區(qū)域進行脫機,并針對一切相關基礎設施與軟件開展壓力測試以模擬主要系統(tǒng)故障,但并未演練過全球骨干網(wǎng)絡脫機的狀況,后續(xù)會找可行性方法作出應對。據(jù)監(jiān)測互聯(lián)網(wǎng)流量和故障的思科 ThousandEyes 的產品營銷主管 Angelique Medina 表示,這起事件暴露了 Facebook 架構的一個缺點:如果本身出現(xiàn) DNS 故障,又沒有后備 DNS,就可能會出現(xiàn)長時間的故障,“所以我認為,這件事帶來的一大經驗教訓就是要有冗余 DNS。”Medina 表示,一套更穩(wěn)健的架構將擁有雙 DNS 服務,那樣一個 DNS 服務可以支援另一個。據(jù) Medina 聲稱,比如說,亞馬遜(其 AWS 提供 DNS 服務)為其 DNS 使用兩項外部服務:Dyn 和 UltraDNS。同時,這次宕機事件也讓身處反壟斷調查的 Facebook 雪上加霜。美國國會眾議院成員 Alexandria Ocasio-Cortez 表示,F(xiàn)acebook 爆發(fā)大規(guī)模宕機事故,這凸顯出該公司在全球通信和其他服務領域的壟斷地位。其在推特上表示,F(xiàn)acebook 周一發(fā)生的大規(guī)模宕機事故是對該公司壟斷全球通訊和其他服務的一次提醒,再次表明 Facebook 應該被分拆。有道無術,術可成;有術無道,止于術歡迎大家關注Java之道公眾號好文章,我在看?? 瀏覽 37點贊 評論 收藏 分享 手機掃一掃分享分享 舉報 評論圖片表情視頻評價全部評論推薦 緩存踩踏:Facebook史上最嚴重的宕機事件分析互聯(lián)網(wǎng)架構師0史上最嚴重:Facebook 遭遇全球宕機近 7 小時后重新上線,股價下跌5%SegmentFault0是時候讓企業(yè)擁有“AI自由”了芯智訊0重新審視 undefined 和 null前端簡報0重新審視 undefined 和 null前端勸退師0重新審視 undefined 和 null人生不止有技術0是時候丟掉 BeanUtils 了!來源:cnblogs.com/jtea/p/17592696.html前言為了更好的進行開發(fā)和維護,我們都會對程序進行分層設計,例如常見的三層,四層,每層各司其職,相互配合。也隨著分層,出現(xiàn)了 VO,BO,PO,DTO,每層都會處理自己的數(shù)據(jù)對象,然后向上傳遞,這就避免不了經常要將一個對象的屬性拷貝該是重新點亮星星的時候了該是重新點亮星星的時候了0該是重新點亮星星的時候了【內容簡介】 安娜覺得自己有點失敗,作為一名背著外債的單身母親,就在剛剛,她被通知,自己被辭退是時候丟掉 BeanUtils 了!來源:cnblogs.com/jtea/p/17592696.html前言為了更好的進行開發(fā)和維護,我們都會對程序進行分層設計,例如常見的三層,四層,每層各司其職,相互配合。也隨著分層,出現(xiàn)了 VO,BO,PO,DTO,每層都會處理自己的數(shù)據(jù)對象,然后向上傳遞,這就避免不了經常要將一個對象的屬性拷貝點贊 評論 收藏 分享 手機掃一掃分享分享 舉報