Facebook全球6小時(shí)宕機(jī)原因已查明:一條指令所致,內(nèi)部工程師所為
來源丨量子位(ID:QbitAI)
博雯 發(fā)自 凹非寺
Facebook全球宕機(jī)6小時(shí)的原因,是公司內(nèi)部工程師的一條錯(cuò)誤指令。
最近,Facebook官方針對這次大規(guī)模宕機(jī)的原因做了回應(yīng)。

這一新聞已經(jīng)出現(xiàn)在了微博熱榜。

而在回復(fù)中,官方也(針對各種神奇的假說)強(qiáng)調(diào):
沒有黑客惡意攻擊行為,用戶的數(shù)據(jù)也沒有受到損害。

在第二天,F(xiàn)acebook又發(fā)了另一則聲明,詳細(xì)地說明了這次宕機(jī)的技術(shù)細(xì)節(jié)。
那么這場Facebook有史以來持續(xù)時(shí)間最長,規(guī)模最大,造成公司股價(jià)蒸發(fā)百億的宕機(jī)到底是因?yàn)槭裁矗?/p>
一起來看看。
日常維護(hù)切斷網(wǎng)絡(luò)
一切都開始于日常維護(hù)中的一條錯(cuò)誤指令。
也就是Facebook engineering平臺上的聲明中所提到的“配置變化”:
協(xié)調(diào)數(shù)據(jù)中心之間網(wǎng)絡(luò)流量的主干路由器的配置變化導(dǎo)致了通信中斷,進(jìn)而影響了數(shù)據(jù)中心的的通信方式,最后導(dǎo)致了服務(wù)中斷。

在日常維護(hù)網(wǎng)絡(luò)基礎(chǔ)設(shè)施時(shí),工程師經(jīng)常需要離線維護(hù)部分主干網(wǎng),比如修理一條光纖線路,增加更多容量,或者更新路由器本身的軟件。
而上面提到的“配置變化”,就是日常維護(hù)工作中主要用于檢測Facebook主干網(wǎng)絡(luò)的可用性的一條命令。
當(dāng)然肯定有應(yīng)對這種命令的保護(hù)措施,但不巧審計(jì)工具(audit tool)中出了個(gè)bug……

于是,這個(gè)“配置變化”就撒著歡兒,啪一下把Facebook主干網(wǎng)絡(luò)的所有連接都給切斷了。
這一斷,應(yīng)用程序?qū)?shù)據(jù)的刷新搜索,上傳下載等請求就無法從用戶設(shè)備傳到最近的數(shù)據(jù)中心了。
而這些數(shù)據(jù)中心不僅有容納了數(shù)百萬臺存儲數(shù)據(jù)機(jī)器,用于支撐平臺運(yùn)行的大型建筑,還有將主干網(wǎng)絡(luò)連接到更廣泛的互聯(lián)網(wǎng)和具體應(yīng)用平臺的較小設(shè)施。
嗯,差不多就是這樣的嚴(yán)重性……

這還沒完。
上述數(shù)據(jù)中心里的小型設(shè)施還有一個(gè)工作,那就是響應(yīng)DNS查詢。
DNS是互聯(lián)網(wǎng)的地址簿,能夠?qū)g覽器中鍵入的簡單網(wǎng)絡(luò)名稱轉(zhuǎn)換為特定的服務(wù)器IP地址。
而這些地址又通過邊界網(wǎng)關(guān)協(xié)議(BGP)向互聯(lián)網(wǎng)其他地址進(jìn)行廣播,類似一個(gè)地圖,提供通往各種目的地的線路。
當(dāng)DNS服務(wù)器發(fā)現(xiàn)主干網(wǎng)絡(luò)失去了與互聯(lián)網(wǎng)的連接時(shí),BGP的“廣播”也隨之停止。
相當(dāng)于Facebook短暫地被從互聯(lián)網(wǎng)這塊地圖上抹除了存在。
只有Facebook受傷的世界完成了
當(dāng)然,在派遣工程師進(jìn)入現(xiàn)場數(shù)據(jù)中心進(jìn)行修復(fù)之后,網(wǎng)絡(luò)服務(wù)也在10月4日下午4點(diǎn)左右逐漸恢復(fù)。

在官方回復(fù)的最后,他們也提到會通過這次的“演習(xí)”加強(qiáng)系統(tǒng)故障的測試、訓(xùn)練和整體恢復(fù)能力。
而縱觀這次全球大宕機(jī),不僅國外熱度爆表,就連國內(nèi)也上了熱搜。

國內(nèi)外的網(wǎng)友們弔圖一堆,苦中作樂。

同為社交媒體的Twitter則高傲盡數(shù)顯現(xiàn)。

甚至連Netflix都過來蹭了把熱度,順帶了夾雜了新劇宣傳私貨:

而Facebook在這次事件中股價(jià)暴跌6%,扎克伯格個(gè)人財(cái)富一日蒸發(fā)逾60億美元。

現(xiàn)在看來,只有小扎受傷的世界完成了(狗頭表情包)。
官方回應(yīng):
[1]https://engineering.fb.com/2021/10/04/networking-traffic/outage/
[2]https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/
-End-
最近有一些小伙伴,讓我?guī)兔φ乙恍?nbsp;面試題 資料,于是我翻遍了收藏的 5T 資料后,匯總整理出來,可以說是程序員面試必備!所有資料都整理到網(wǎng)盤了,歡迎下載!

面試題】即可獲取
