<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          運維數(shù)智化時代——京東數(shù)科AIOps落地實踐(一)

          共 3604字,需瀏覽 8分鐘

           ·

          2021-01-16 15:14


          自從2016年Gartner提出AIOps概念以來,平臺化和智能化已經(jīng)成為了運維體系發(fā)展的大趨勢。從整體來看,運維發(fā)展可以分為5個階段,分別為手工及腳本運維工具標(biāo)準(zhǔn)化運維平臺自動化運維DevOpsAIOps


          自動化運維給手工及腳本運維的效率帶來了很大提升,但是系統(tǒng)軟件只能預(yù)置和按照我們制定的流程運行工作,不能自主適應(yīng),不能夠處理相似的“新”問題,AI的種種特質(zhì)給運維當(dāng)前的一些痛點提供了良好的解決方案,AIOps應(yīng)運而生,以AI的能力,賦能IT運維領(lǐng)域。


          智能運維(ArtificialIntelligence for IT Operations,AIOps)通過引入大數(shù)據(jù)和人工智能技術(shù),從海量監(jiān)控數(shù)據(jù)和復(fù)雜的IT軟硬件中學(xué)習(xí)和總結(jié)規(guī)律,自動、準(zhǔn)確、快速地發(fā)現(xiàn)異常、定位故障和預(yù)測風(fēng)險,提高企業(yè)IT系統(tǒng)可用性和運維效率,可以進(jìn)一步處理自動化運維不能解決的問題。AIOps賽道的拓展主要來自標(biāo)準(zhǔn)運維數(shù)據(jù)積累和運維業(yè)務(wù)發(fā)展需求雙重驅(qū)動的影響:


          • CMDB平臺、監(jiān)控系統(tǒng)平臺、流程管理中心等成熟的一體化運維平臺為標(biāo)準(zhǔn)運維數(shù)據(jù)的積累打下堅實的基礎(chǔ);

          • 監(jiān)控系統(tǒng)覆蓋面足夠多,但缺乏系統(tǒng)化的處理流程和方法,規(guī)模更大的數(shù)據(jù)、更復(fù)雜的動態(tài)運維環(huán)境使得自動化運維難以為繼。


          為了應(yīng)對以上的驅(qū)動需求,AIOps的著力點在于:


          • 賦能DevOps:通過AI的能力進(jìn)一步處理自動化運維不能解決的問題;

          • 實時分析及處理:通過AIOps的智能算法和不斷提升的自動化水平,對問題進(jìn)行實時診斷并給出操作建議,大幅度降低平均檢測時間(MTTD)和平均修復(fù)時間(MTTR);

          • 降低報警噪音:通過AIOps的數(shù)據(jù)關(guān)聯(lián)能力,確定基礎(chǔ)設(shè)施、業(yè)務(wù)程序和業(yè)務(wù)之間的關(guān)系,不斷完善算法,可以不斷提高過濾警報噪音的水平減少誤報;

          • 故障原因分析及預(yù)測:通過AIOps的海量數(shù)據(jù)分析能力,可以幫助識別造成問題的根本原因,并挖掘時間序列中的事件模式從而對預(yù)期行為進(jìn)行檢測,提供運維建議。


          面對AIOps的賽道,京東數(shù)科智能運維團(tuán)隊合理配置團(tuán)隊角色,運維工程師、開發(fā)工程師和算法工程師扮演著不同的角色,三者缺一不可。以下是數(shù)科智能運維團(tuán)隊基于內(nèi)部人員職能分配的一些嘗試和經(jīng)驗。



          • 運維工程師:能從業(yè)務(wù)的技術(shù)運營中,提煉出智能化的需求點。在開發(fā)實施前能夠考慮好需求方案,規(guī)范數(shù)據(jù)格式。前期可以通過仿真手法探索和驗證方案可行性,起草合適的解決方案;

          • 開發(fā)工程師:負(fù)責(zé)進(jìn)行平臺相關(guān)功能和模塊的開發(fā),以降低用戶使用門檻,提升用戶使用效率,并且將運維數(shù)據(jù)工程師交付的數(shù)據(jù)通過友好的方式展示給用戶;

          • 算法工程師:針對來自運維工程師和算法方案進(jìn)行理解和梳理,完成最終落地方案的輸出工作;在工程落地上能夠考慮好健壯性、魯棒性、敏捷性等,合理拆分任務(wù),保障成果落地,以提升最終業(yè)務(wù)運營質(zhì)量。


          京東數(shù)科智能運維團(tuán)隊在行業(yè)內(nèi)已經(jīng)有了長期的耕耘,在各著力點大量投入,打通各個環(huán)節(jié),在運維知識沉淀和算法積累上有著持續(xù)的積累,不僅賦能內(nèi)部,還可提供大量外部服務(wù)。在運維各場景下應(yīng)用AI的能力提供可靠的算法服務(wù),在日常運維和大促期間各算法學(xué)件都有著卓越的表現(xiàn),在保證高性能的前提下,運維場景解決方案的通用性、自動化、魯棒性都是我們追求的第一目標(biāo)。我們對AIOps的不斷探索和對運維全場景不斷鉆研,可以讓迭代的AIOps學(xué)件和產(chǎn)品不斷地為內(nèi)部和外部賦能,以AI驅(qū)動運維數(shù)字化轉(zhuǎn)型。


          AIOps圍繞質(zhì)量保障、成本管理和效率提升的基本運維場景,逐步構(gòu)建智能化運維場景。在質(zhì)量保障方面,細(xì)分為異常檢測、故障診斷、故障預(yù)測和故障自愈等基本場景;在成本管理方面,細(xì)分為指標(biāo)監(jiān)控、異常檢測、資源優(yōu)化、容量規(guī)劃和性能優(yōu)化等基本場景;在效率提升方面,分為智能預(yù)測、智能變更、智能問答和智能決策等基本場景。



          AIOps的建設(shè)可以先由單個場景的探索開始,逐步完善和串聯(lián),直至解決整個完整問題的運維算法學(xué)件,在算法學(xué)件的基礎(chǔ)上打磨成具有通用性和流程性的智能運維整體解決方案。行業(yè)通用的演進(jìn)路線如下:


          • 開始嘗試應(yīng)用AI能力,還無較為成熟的單點應(yīng)用。

          • 具備單場景的AI運維能力,可以初步形成供內(nèi)部使用的學(xué)件。

          • 有由多個單場景AI運維模塊串聯(lián)起來的流程化AI運維能力,可以對外提供可靠的運維AI學(xué)件。

          • 主要運維場景均已實現(xiàn)流程化免干預(yù)AI運維能力,可以對外提供供可靠的AIOps服務(wù)。

          • 有核心中樞AI,可以考慮成本、質(zhì)量、效率三個方面,達(dá)到業(yè)務(wù)不同生命周期對三個方面不同的指標(biāo)要求,可實現(xiàn)多目標(biāo)下的最優(yōu)或按需最優(yōu)。


          目前,京東數(shù)科智能運維團(tuán)隊對內(nèi)提供服務(wù)形式:指標(biāo)鑒明平臺、告警辨明平臺、日志闡明平臺和故障探明平臺四大產(chǎn)品平臺,此外還可提供特定場景算法模型文件、算法學(xué)件容器化部署方案。


          2020年京東數(shù)科智能運維團(tuán)隊在打通數(shù)字化運維、加速AIOps落地過程中將AI賦能智能解決方案全場景。其中,對異常發(fā)現(xiàn)和根因定位展開說明如下:結(jié)合指標(biāo)數(shù)值和日志文本兩大數(shù)據(jù)源特點構(gòu)建“榫卯’”型算法設(shè)計,在保證平臺可遷移性的基礎(chǔ)上增強算法匹配場景豐富度、算法自動編排準(zhǔn)確度、算法定制拓展自由度。我們會繼續(xù)加大投入,在進(jìn)行業(yè)務(wù)及運維知識積累的同時讓AIOps賦能業(yè)務(wù)研發(fā)、產(chǎn)品和運營團(tuán)隊,對內(nèi)降本增效提高生產(chǎn)效率,對外以AI驅(qū)動產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型。



          京東數(shù)科智能運維平臺內(nèi)嵌眾多可插拔學(xué)件,配置簡單,使用方便,并且具有高準(zhǔn)確性和高時效性。下面詳細(xì)介紹故障檢測、故障定位和故障修復(fù)三個模塊:


          • 故障檢測模塊:快速發(fā)現(xiàn)時序監(jiān)控數(shù)據(jù)的異常。

          • 故障定位模塊:精準(zhǔn)定位復(fù)雜系統(tǒng)的根源問題。

          • 故障修復(fù)模塊:結(jié)合運維知識圖譜和運維專家經(jīng)驗,推薦智能的解決方案,快速修復(fù)故障。


          三個模塊層層遞進(jìn),共同提升運維體驗和運維效率。整體流程可以快速發(fā)現(xiàn)故障并進(jìn)行自動異常定位,對于異常事件提供解決方案推薦并實現(xiàn)部分場景故障自愈,能極大地降低研發(fā)配置固定閾值和運維排查問題的成本,極大地提升運維服務(wù)質(zhì)量和業(yè)務(wù)可用率。


          運維監(jiān)控系統(tǒng)數(shù)據(jù)除靜態(tài)配置屬性外絕大多數(shù)為時序數(shù)據(jù),表現(xiàn)形式為時序指標(biāo)和時序日志,基于海量的時序數(shù)據(jù)判斷業(yè)務(wù)是否異常是故障發(fā)現(xiàn)的重要手段。對于種類繁多、關(guān)系復(fù)雜的數(shù)值指標(biāo),指標(biāo)異常檢測學(xué)件組不僅可以實現(xiàn)快速自動編排、覆蓋運維指標(biāo)多特征突升突降、斷崖式波峰波谷、趨勢走向異常等異常類型,對于指標(biāo)維度、周期性或隱性規(guī)律、節(jié)假日及活動、突發(fā)事件等影響因素皆有自適應(yīng)算法和既定策略安排,無需人工配置閾值和規(guī)則,幫助研發(fā)和運維人員快速發(fā)現(xiàn)規(guī)則難以識別的異常,并支持自主配置異常告警方式,避免誤報和告警風(fēng)暴。在指標(biāo)異常檢測模塊我們引入波形分析技術(shù),結(jié)合空間和時間特征,分析指標(biāo)間異常聯(lián)動影響,提升異常檢測準(zhǔn)確度。時空數(shù)據(jù)分析手段的引入是發(fā)現(xiàn)規(guī)則和策略難以識別的異常的重要手段。


          對于業(yè)務(wù)黃金指標(biāo)和重點監(jiān)控指標(biāo),配置告警日志分析既可以在文本日志層面捕捉瞬間發(fā)生的異常,又可以解析日志內(nèi)容,確定異常主體,歸并異常事件類型,同時起到對異常檢測及后續(xù)根因定位關(guān)聯(lián)分析的驗證作用。經(jīng)過大量異常事件實踐和理論驗證,三個算法學(xué)件組具有特定地編排方式,內(nèi)部的算法學(xué)件可以自動適配接入的指標(biāo)數(shù)據(jù),覆蓋運維全場景。



          傳統(tǒng)的運維故障定位高度依賴運維人員的經(jīng)驗和排查方向的正確與否,如何將運維專家經(jīng)驗沉淀并智能化是解決故障定位的問題關(guān)鍵。靜態(tài)的CMDB配置和調(diào)用鏈關(guān)系是可以查詢的,但是異常往往是發(fā)生在動態(tài)變化的過程之中,運維知識圖譜就是我們團(tuán)隊?wèi)?yīng)對該場景最高效的武器。智能故障定位是為了解決龐雜系統(tǒng)中根因定位的問題,運維知識圖譜結(jié)合強化學(xué)習(xí)算法是AI賦能該場景的卓越方式。


          強化學(xué)習(xí)算法是按照層次在全局進(jìn)行搜索的,它將搜索所有可能關(guān)聯(lián)的節(jié)點,確保了根因定位算法的準(zhǔn)確性。運維知識圖譜為搜索提供規(guī)范和方向,使得搜索并非是獨立的而是兼顧調(diào)用變更和配置變更的。


          我們采用的運維知識圖譜是動態(tài)可拓展的,配置數(shù)據(jù)、日志、告警、變更等信息都已經(jīng)接入其中。標(biāo)準(zhǔn)化數(shù)據(jù)的接入是快速的、自動的,對其他運維系統(tǒng)具有較高的兼容性。


          當(dāng)搜索過程結(jié)束時,算法會自動地對故障根因進(jìn)行修正和排序,并調(diào)用日志分析系統(tǒng)計算推薦根因的置信度。故障定位結(jié)果會按照故障分析報告的格式存儲,便于運維復(fù)盤時查詢和檢驗算法準(zhǔn)確度。



          在故障智能修復(fù)階段,運維專家經(jīng)驗也將指導(dǎo)我們對故障事件進(jìn)行分析并給出可行操作建議和操作風(fēng)險指標(biāo)。故障定位模塊發(fā)出推薦根因的同時,調(diào)取知識圖譜中關(guān)聯(lián)的數(shù)據(jù),通過關(guān)聯(lián)分析算法挖掘故障關(guān)聯(lián)關(guān)系,生成事件信息描述報告。運維知識圖譜將根據(jù)調(diào)用鏈依賴進(jìn)行全鏈路的檢查,給出故障修復(fù)建議和操作風(fēng)險提示,對于部分場景已實現(xiàn)故障自愈。





          瀏覽 60
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  综合玖玖| AV天堂中文字幕 | 影音先锋红桃视频 | 在线A∨视频 | 国产亚洲日韩在线 |