<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          B站崩了上熱搜,說好的高可用呢?

          共 2549字,需瀏覽 6分鐘

           ·

          2021-07-27 18:15

          來源:zhihu

          編輯:Emil、小勻


          一夜之間,年輕人最喜歡的彈幕視頻網(wǎng)站突然崩潰了半小時,隨后A站、豆瓣也如出一轍。有網(wǎng)友稱「著火」所至,但上海消防隊隨后出來辟謠。那么,究竟是怎么回事?


          崩了!


          勞累了一天的年輕人們,正準(zhǔn)備躺平拿出手機,打開那熟悉的小破站App,一鍵三連自己最喜愛的up主的最新視頻。突然發(fā)現(xiàn):



          瞬間,「B站崩了」的消息登上熱搜,微博運維心頭一緊。




          部分網(wǎng)友表示:A站、豆瓣等網(wǎng)站也出現(xiàn)訪問故障,重連Wi-Fi也沒有用。



          昨日凌晨,B 站發(fā)布公告稱,昨晚,B 站的部分服務(wù)器機房發(fā)生故障,造成無法訪問。技術(shù)團隊隨即進行了問題排查和修復(fù),現(xiàn)在服務(wù)已經(jīng)陸續(xù)恢復(fù)正常。




          「小站」發(fā)生什么事了?


          這份模棱兩可的聲明顯然無法阻擋住吃瓜群眾的熱情。


          短短幾分鐘,關(guān)于B站的各種揣測消息就變成了百家講壇:


          有火災(zāi)說、刪庫跑路說、刑事案件說、服務(wù)器供應(yīng)商說、黑客攻擊說、大樓坍塌說、外星人說……



          還有人煞有介事地Po出了B站運營小妹的朋友圈,說B站停電了……



          隨后立刻有專業(yè)人士指出:B站作為一個上市的互聯(lián)網(wǎng)公司,服務(wù)器多地備份是最最起碼的事,樓里停電這個解釋,估計只能騙騙沒有學(xué)過數(shù)據(jù)庫的高中生


          至于A站和晉江文學(xué)網(wǎng)為什么會掛,很可能是因為B站掛了,大批用戶無片可看,就涌入A站和豆瓣,造成網(wǎng)站的流量激增,哪怕A站和B站不共用云服務(wù),也可能被壓垮。


          B站7000多萬日活網(wǎng)友的威力可見一斑



          下面我們看看幾個相對靠譜的猜測:


          知乎作者@黃玨珅 盲猜了一下,應(yīng)該是etcd掛了



          通常來說,能造成幾乎所有請求都502的,要不就是前端和后端之間的網(wǎng)絡(luò)通路全掛了,要不就是后端的服務(wù)全都掛了。


          那么現(xiàn)在的大型互聯(lián)網(wǎng)公司的基礎(chǔ)設(shè)施是怎樣的呢,大多數(shù)使用了kubernetes,實現(xiàn)全國各地的數(shù)據(jù)中心的容器編排、網(wǎng)絡(luò)虛擬化等。


          而kubernetes的設(shè)計上,網(wǎng)絡(luò)插件和pod編排又是相對獨立的。


          如果只是網(wǎng)絡(luò)插件出問題了,那么部分服務(wù)器上的網(wǎng)絡(luò)插件的緩存還在,一定有部分用戶還能正常使用。


          現(xiàn)在所有的都掛了,那只能是etcd掛掉,導(dǎo)致反向代理無法通過etcd找到對應(yīng)的pod的虛擬ip,又無法通過網(wǎng)絡(luò)插件與對應(yīng)的pod通信。


          知乎作者@k8seasy 則認為這個基本屬于站點本身故障。從恢復(fù)時間看30分鐘左右,并且?guī)缀?00%恢復(fù),說明應(yīng)該是某個核心組件崩潰了,導(dǎo)致核心服務(wù)不可用。


          出現(xiàn)這種可能的不少,最有可能的原因是上線新版本,開始沒問題,升級了部分集群,結(jié)果新版本有bug,到了某個時刻直接掛了,老版本的壓力一大也沒扛住。然后緊急定位,回滾解決。


          也有網(wǎng)友提出,此次事件與云服務(wù)商離不開干系:



          云服務(wù)提供商提供的CDN出現(xiàn)意外之后,大量請求繞過CDN直接打到網(wǎng)關(guān),網(wǎng)關(guān)收到大量請求,自動啟動了容災(zāi)策略。


          容災(zāi)策略啟動服務(wù)降級。服務(wù)降級了但沒完全降,CDN掛了,網(wǎng)關(guān)也跟著掛了,服務(wù)雪崩,一直崩到整個環(huán)境。


          盤點史上嚴(yán)重的服務(wù)宕機事件:最高損失上億美元


          在互聯(lián)網(wǎng)歷史上,「小破站」這樣的宕機事件只能算是「灑灑水」,不信?我們來看看其他互聯(lián)網(wǎng)大咖們是如何玩轉(zhuǎn)宕機的。


          7小時不能上微信:2013年7月22日,微信服務(wù)宕機,造成了將近7個小時的網(wǎng)絡(luò)中斷。據(jù)微信官方公布信息,由于上海一支施工隊挖斷了通信光纜,導(dǎo)致騰訊華東數(shù)據(jù)處理中心的業(yè)務(wù)請求紛紛轉(zhuǎn)向華南和華北,進而導(dǎo)致了業(yè)務(wù)的全面癱瘓。


          用支付寶「剁手」失敗:2015年5月27日下午,部分用戶反映其支付寶出現(xiàn)網(wǎng)絡(luò)故障,賬號無法登錄或支付。支付寶官方表示,故障是由于杭州市蕭山區(qū)某地光纖被挖斷導(dǎo)致,該事件造成部分用戶無法使用支付寶。隨后支付寶工程師緊急將用戶請求切換至其他機房,受影響的用戶開始逐步恢復(fù)。到了晚上7點20分,支付寶方面宣布用戶服務(wù)已經(jīng)完全恢復(fù)正常。



          而在國外,網(wǎng)絡(luò)宕機的事件更是屢見不鮮。


          亞馬遜云服務(wù)罷工:2015年9月,亞馬遜的云服務(wù)器因收到來自新上線的DynamoDB功能帶來的大量數(shù)據(jù)請求,導(dǎo)致其因過載而宕機。于是,包括Reddit、Tinder、Netflix和IMDB在內(nèi)的眾多流行應(yīng)用和網(wǎng)址直接罷工了數(shù)小時


          除了Netflix,絕大多數(shù)亞馬遜云服務(wù)的客戶在此次“突擊檢查”中,都被發(fā)現(xiàn)毫無準(zhǔn)備。而Netflix此前已經(jīng)使用過一種名為“混沌工程”的技術(shù)來模擬類似服務(wù)中斷事件的發(fā)生,使得這起事故對其影響降到了最小。



          納斯達克停擺:2013年8月22日,由于納斯達克交易所的備用服務(wù)器中出現(xiàn)了一個嚴(yán)重的bug,直接導(dǎo)致納斯達克停擺了3個多小時。當(dāng)其恢復(fù)運作時,已經(jīng)引起了市場恐慌,大量交易員涌向交易窗口,出售交易所運營商納斯達克OMX集團的股票,導(dǎo)致OMX集團的股價當(dāng)日一度大跌逾5%。


          事后有人評估,由于納斯達克停擺造成的經(jīng)濟損失可能達數(shù)億美元



          全美大宕機:2016年10月21日早晨,許多美國用戶突然發(fā)現(xiàn)包括Twitter、CNN、Spotify等大型網(wǎng)站均無法登陸。這場網(wǎng)絡(luò)癱瘓從美國東部開始,一路蔓延至全美區(qū)域。事后發(fā)現(xiàn)查明,原因是服務(wù)器遭受了黑客的DDoS攻擊


          關(guān)于B站宕機事故,新智元的熱心讀者,開源基礎(chǔ)軟件公司Zilliz的質(zhì)量保障團隊負責(zé)人喬燕良做了較為專業(yè)客觀的分析:


          現(xiàn)在的網(wǎng)站故障造成的原因主要可分為軟件服務(wù)引起的故障硬件服務(wù)引起的故障。軟件服務(wù)故障一般可理解為代碼邏輯缺陷,常見的是新增或更新某個功能而引入缺陷導(dǎo)致整個服務(wù)中斷,硬件服務(wù)故障一般是由于某些服務(wù)設(shè)備的損壞造成的服務(wù)中斷,比如光纖被挖斷了。


          如果要降低宕機風(fēng)險,就需要提高服務(wù)的高可用性。首先從架構(gòu)上,建議采用云原生架構(gòu),實現(xiàn)自動容錯機制和故障隔離,從而能夠在服務(wù)出現(xiàn)故障時快速遷移或回滾。


          其次為防止硬件故障類風(fēng)險,需要有完善的災(zāi)備方案,同城雙活或異地災(zāi)備目前都已經(jīng)有比較成熟的方案,國內(nèi)企業(yè)在這塊投入相對比較“節(jié)約”


          Bilibili,下次一定!



          參考資料:http://www.zhihu.com/question/472065470

          瀏覽 21
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩一级A片 | caoporm超碰 | 狼人永久地址在线观看高清无码 | 黄色福利 | 婷婷综合久久五月天丁香 |