<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)

          共 1970字,需瀏覽 4分鐘

           ·

          2022-07-25 18:16

          本文來自“數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)”,從云和數(shù)據(jù)中心的發(fā)展趨勢、產(chǎn)業(yè)互聯(lián)網(wǎng)時代的智能化運營需求和TIFDS故障診斷系統(tǒng)進行分析。


          隨著云技術(shù)的普及,尤其是“新基建”,“數(shù)字化轉(zhuǎn)型”等需求驅(qū)動著數(shù)字經(jīng)濟的高速發(fā)展,服務(wù)器在CDC數(shù)據(jù)中心的部署規(guī)模也呈指數(shù)級增長。隨之而來的運維管理復(fù)雜度和難度也越來越大,而傳統(tǒng)的海量服務(wù)器數(shù)據(jù)中心的故障運營也面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運維、工具運維到平臺運維演進至今,人力已接近極限,越來越無法滿足快速修復(fù)故障和恢復(fù)業(yè)務(wù)運行的要求。


          大規(guī)模數(shù)據(jù)中心運維存在如下的痛點問題:

          1. 機器故障后,重要的日志信息不全,無法自動準(zhǔn)確進行故障部件定位;


          2. 故障診斷效能較低,服務(wù)器出現(xiàn)問題后主要基于人工分析和經(jīng)驗判斷結(jié)果,自動化與智能化程度不高。


          3. 成本高時效性差,人工經(jīng)驗分析依賴大量運維人力投入并導(dǎo)致較長的運維時間(MTTR),影響業(yè)務(wù)的快速恢復(fù)。


          4. 由于診斷結(jié)果的明確化率低,引起二次故障維修比例較高,導(dǎo)致額外數(shù)據(jù)遷移成本和業(yè)務(wù)影響。


          TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統(tǒng)是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱,旨在實現(xiàn)運維工作任務(wù)由人工離線分析向自動智能在線識別的方向發(fā)展,建立一套以帶外BMC為中心的自動化故障診斷系統(tǒng),提升服務(wù)器故障預(yù)警能力、故障診斷明確率、以及停機維護效率,減少非計劃停機時間,提升服務(wù)器全生命周期的健壯的RAS特性(可靠性,可用性及可維護性)。


          該系統(tǒng)依托騰訊超過100萬臺服務(wù)器的維護數(shù)據(jù),深度定制了服務(wù)器事件日志,通過AI技術(shù)對服務(wù)器運營數(shù)據(jù)進行實時的分析,從而實現(xiàn)了對CPU,內(nèi)存、硬盤,PCIe等設(shè)備的自動化預(yù)警,將服務(wù)器故障診斷自動明確化率提升至95%以上。



          宕機類故障診斷

          TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統(tǒng)宕機故障,并精準(zhǔn)地定位出故障部件,如CPU,內(nèi)存,主板,PCIe外插卡,存儲等設(shè)備。服務(wù)器運行過程中一旦發(fā)生異常,TIFDS系統(tǒng)會立刻響應(yīng)并準(zhǔn)確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號信息、維修建議等信息及時上報至運維管理系統(tǒng)。運維管理系統(tǒng)可自動生成維修工單,運維人員根據(jù)維修建議,需要更換部件信息,快捷更換故障部件或者依據(jù)TIFDS指導(dǎo)排除故障,迅速使機器恢復(fù)健康狀態(tài)。傳統(tǒng)的以小時計算維修時間級別壓縮至分鐘級別。極大提升運維效率,實現(xiàn)云業(yè)務(wù)快速恢復(fù)。



          非宕機類故障診斷

          TIFDS系統(tǒng)通過BMC實時監(jiān)控服務(wù)器系統(tǒng)上遍布各處的電壓、電流、溫度傳感器信息,實時監(jiān)控電源、風(fēng)扇、以及各部件的工作狀態(tài)和工作負荷情況;根據(jù)可在線更新的告警閾值、預(yù)警閾值和故障判定規(guī)則,可實現(xiàn)對服務(wù)器中存在風(fēng)險的位置進行故障預(yù)警、故障告警或故障判定,并時刻上報智能運維系統(tǒng)。



          故障預(yù)警與隔離

          TIFDS可以對服務(wù)器內(nèi)所有部件進行全生命周期的壽命和運行狀態(tài)進行跟蹤,通過機器學(xué)習(xí)的算法對高風(fēng)險的部件提前進行預(yù)警,降低服務(wù)器在高負荷運行狀態(tài)下的突然失效。另外對已發(fā)生故障的部件,TIFDS可以按部件類別做出相應(yīng)的隔離措施處理,避免單一非必要部件故障影響整機系統(tǒng)的運行。



          TIFDS是騰訊云運維監(jiān)控系統(tǒng)中的重要組成部分,是服務(wù)器帶外數(shù)據(jù)的主要來源,在內(nèi)存,CPU,PCIe等部件的故障監(jiān)控,失效預(yù)測,大規(guī)模告警上有極大貢獻。通過定制化的日志自動適配騰訊云備件系統(tǒng),給騰訊云健康管理系統(tǒng)增加參考維度,并基于帶內(nèi)帶外日志開發(fā)出線上診斷系統(tǒng),深度的定制化模式和簡單易用的維護工具使整個運維系統(tǒng)能更加智能,高效。


          下載鏈接:
          數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)
          國產(chǎn)MCU技術(shù)及廠商梳理
          ARM行業(yè)重點跟蹤(2021)
          ARM行業(yè)研究框架(2021)

          ARM架構(gòu)參考手冊及文檔

          ARM的體系結(jié)構(gòu)與編程.pdf

          ARM架構(gòu)參考手冊.pdf

          ARM架構(gòu)參考手冊ARM V9.pdf

          CPU之戰(zhàn):ARM vs Intel.pdf

          ARM系列處理器應(yīng)用技術(shù)完全手冊。

          CPU和GPU研究框架合集
          深入介紹FPGA
          FPGA入門教程

          本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。



          免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。



          電子書<服務(wù)器基礎(chǔ)知識全解(終極版)>更新完畢,知識點深度講解,提供182頁完整版下載。

          獲取方式:點擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。



          溫馨提示:

          請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實時掌握深度技術(shù)分享,點擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。


          瀏覽 72
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中国老太卖婬HD视频 | 欧美精品一区二区三区成人片在线 | 青青草成人无码视频 | 国产午夜在线观看 | 国产区在线观看 |