<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          帶你認(rèn)識AIOps智能運(yùn)維

          共 3477字,需瀏覽 7分鐘

           ·

          2021-04-13 03:18

          一、AIOps智能運(yùn)維

          早在2016年之前,著名IT研究機(jī)構(gòu)Gartner在其詞庫就添加了AIOps[1]這一詞條,彼時AIOps是Algorithmic IT Operations的縮寫,按照字面理解,AIOps是一種基于算法的運(yùn)維方式。

          清華大學(xué)裴丹教授對AIOps的定義是:AIOps將人工智能應(yīng)用于運(yùn)維領(lǐng)域,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決自動化運(yùn)維沒辦法解決的問題。AIOps 不依賴于人為指定規(guī)則,主張由機(jī)器學(xué)習(xí)算法自動地從海量運(yùn)維數(shù)據(jù)中不斷地學(xué)習(xí),不斷地提煉并總結(jié)規(guī)則。

          智能運(yùn)維(AIOps),根據(jù) Gartner 的最新闡釋,意指整合大數(shù)據(jù)和機(jī)器學(xué)習(xí)能力,通過松耦合、可擴(kuò)展方式去提取和分析數(shù)據(jù)量(volume)、種類(variety)和速度(velocity)這三個維度不斷增長的 IT 數(shù)據(jù),進(jìn)而為 IT 運(yùn)維管理產(chǎn)品提供支撐。

          云智慧: AIOps與其說是產(chǎn)品,不如說是一種理念和策略。通過以數(shù)據(jù)為基礎(chǔ)、算法為支撐,場景為導(dǎo)向的AIOps平臺,為企業(yè)現(xiàn)有運(yùn)維管理工具和管理體系賦予統(tǒng)一數(shù)據(jù)管控能力和智能化數(shù)據(jù)分析能力,全面提升運(yùn)維管理效率?,F(xiàn)階段AIOps的目標(biāo)不是NoOps,而是BetterOps,通過更高效的運(yùn)維幫助企業(yè)快速洞察人力難以企及的故障和問題,準(zhǔn)確預(yù)測風(fēng)險,化被動運(yùn)維為主動運(yùn)維。

          二、AIOps智能運(yùn)維的出現(xiàn)

          在過去二十年里,人工智能技術(shù)的發(fā)展間歇性影響了ITOM[2]的進(jìn)步,而AIOps只是這種影響的最新例證。因此,對于傳統(tǒng)企業(yè)來說,智能運(yùn)維并不是一個全新的理念,而是IT運(yùn)營分析/運(yùn)維管理(ITOA[3]/ITOM)體系與大數(shù)據(jù)和人工智能技術(shù)結(jié)合的產(chǎn)物。AIOps智能運(yùn)維平臺以ITOM/ITOA系統(tǒng)所采集的運(yùn)維大數(shù)據(jù)為基礎(chǔ),利用人工智能和機(jī)器學(xué)習(xí)算法對運(yùn)維數(shù)據(jù)進(jìn)行深入分析,涵蓋IT監(jiān)控,應(yīng)用性能管理、外網(wǎng)監(jiān)控、日志分析,系統(tǒng)安全等方面。

          通過如下一張圖就可以看到運(yùn)維發(fā)展的幾個階段,早期的手工運(yùn)維,到流程化、標(biāo)準(zhǔn)化運(yùn)維,再到平臺化、自動化運(yùn)維,最后到近十年的 DevOps[4](研發(fā)運(yùn)營一體化)和 AIOps(智能運(yùn)維)。

          市面上流行的ITOM平臺,其核心組件缺少大數(shù)據(jù)采集、分析和機(jī)器學(xué)習(xí)的能力,需要AIOps平臺予以完善。AIOps智能運(yùn)維平臺能夠接入不同業(yè)務(wù)系統(tǒng)、監(jiān)控系統(tǒng)、管理系統(tǒng)的海量IT數(shù)據(jù),并運(yùn)用各種算法進(jìn)行快速分析、學(xué)習(xí)甚至預(yù)測。立足于AIOps,IT部門可以獲得強(qiáng)大的IT決策和運(yùn)營管理能力,并能對業(yè)務(wù)質(zhì)量和用戶體驗(yàn)進(jìn)行準(zhǔn)確檢測和持續(xù)優(yōu)化。

          三、AIOps智能運(yùn)維構(gòu)建

          3.1 AIOps能力

          AIOps平臺主要通過整合分析IT基礎(chǔ)設(shè)施、APM[5]、NPM[6]、日志、數(shù)字化體驗(yàn)監(jiān)測數(shù)據(jù),來提升IT運(yùn)維流程的效率,而AIOps平臺能力的ROI多是基于平均故障接手時間(MTTA)和平均故障修復(fù)(MTTR)時間這兩個指標(biāo)的降低進(jìn)行評估的。

          目前 AIOps 的主要應(yīng)用場景有異常告警、告警收斂、故障分析、趨勢預(yù)測、異常檢測、根因分析等

          現(xiàn)階段,數(shù)字化轉(zhuǎn)型的IT挑戰(zhàn)在于一方面要控制IT成本,另一方面又要提供支持更高復(fù)雜度的運(yùn)維管理能力。傳統(tǒng)ITOM產(chǎn)品在處理海量、多種類和高速數(shù)據(jù)時常常會遇到極大的壓力。更重要的是,這些監(jiān)控工具無法提供橫向業(yè)務(wù)追蹤和根因定位所需的多系統(tǒng)數(shù)據(jù)。

          數(shù)字化業(yè)務(wù)要求IT運(yùn)維提供更快的響應(yīng)速度和更高的處理效率,因此AIOps智能運(yùn)維平臺需要提供如下能力:

          • 提供獨(dú)立、開放的歷史/實(shí)時數(shù)據(jù)采集、算法分析平臺,整合IT數(shù)據(jù)和業(yè)務(wù)指標(biāo)數(shù)據(jù);

          • 提供告警消噪(包括告警抑制、告警收斂等),消除誤報或冗余事件;

          • 提供跨系統(tǒng)追蹤和關(guān)聯(lián)分析,有效進(jìn)行故障的根因分析;

          • 設(shè)定動態(tài)基線捕獲超出靜態(tài)閾值的異常,實(shí)現(xiàn)單/多指標(biāo)異常檢測;

          • 根據(jù)機(jī)器學(xué)習(xí)結(jié)果,預(yù)測未來事件,防止?jié)撛诘墓收希?/p>

          • 直接或通過集成啟動解決問題的動作;

          AIOps將基于自動化運(yùn)維,將AI和運(yùn)維很好地結(jié)合起來,這個過程需要三方面的知識:

          • 行業(yè)、業(yè)務(wù)領(lǐng)域知識,跟業(yè)務(wù)特點(diǎn)相關(guān)的知識經(jīng)驗(yàn)積累,熟悉生產(chǎn)實(shí)踐中的難題。

          • 運(yùn)維領(lǐng)域知識,如指標(biāo)監(jiān)控、異常檢測、故障發(fā)現(xiàn)、故障止損、成本優(yōu)化、容量規(guī)劃和性能調(diào)優(yōu)等。

          • 算法、機(jī)器學(xué)習(xí)知識,把實(shí)際問題轉(zhuǎn)化為算法問題,常用算法包括如聚類、決策樹、卷積神經(jīng)網(wǎng)絡(luò)等。

          AIOps具體的能力框架如下所示:

          3.2 團(tuán)隊建設(shè)

          AIOps團(tuán)隊內(nèi)部人員根據(jù)職能可分為三類團(tuán)隊,分別為SRE團(tuán)隊、開發(fā)工程師(穩(wěn)定性保障方向)團(tuán)隊和算法工程師團(tuán)隊,他們在AIOps相關(guān)工作中分別扮演不同的角色,三者缺一不可。

          • SRE能從業(yè)務(wù)的技術(shù)運(yùn)營中,提煉出智能化的需求點(diǎn),在開發(fā)實(shí)施前能夠考慮好需求方案,產(chǎn)品上線后能對產(chǎn)品數(shù)據(jù)進(jìn)行持續(xù)的運(yùn)營。

          • 開發(fā)工程師負(fù)責(zé)進(jìn)行平臺相關(guān)功能和模塊的開發(fā),以降低用戶的使用門檻,提升用戶的使用效率,根據(jù)企業(yè)AIOps程度和能力的不同,運(yùn)維自動化平臺開發(fā)和運(yùn)維數(shù)據(jù)平臺開發(fā)的權(quán)重不同,在工程落地上能夠考慮好健壯性、魯棒性、擴(kuò)展性等,合理拆分任務(wù),保障成果落地。

          • 算法工程師則針對來自于SRE的需求進(jìn)行理解和梳理,對業(yè)界方案、相關(guān)論文、算法進(jìn)行調(diào)研和嘗試,完成最終算法落地方案的輸出工作,并不斷迭代優(yōu)化。

          各團(tuán)隊之間的關(guān)系圖如下所示:

          四、AIOps演變路線

          在質(zhì)量保障方面的訴求最迫切,服務(wù)運(yùn)維部先從故障管理領(lǐng)域探索AIOps實(shí)踐。在故障管理體系中,從故障開始到結(jié)束主要有四大核心能力,即故障發(fā)現(xiàn)、告警觸達(dá)、故障定位、故障恢復(fù)。故障發(fā)現(xiàn)包含了指標(biāo)預(yù)測、異常檢測和故障預(yù)測等方面,主要目標(biāo)是能及時、準(zhǔn)確地發(fā)現(xiàn)故障;告警觸達(dá)包含了告警事件的收斂、聚合和抑制,主要目標(biāo)是降噪聚合,減少干擾;故障定位包含了數(shù)據(jù)收集、根因分析、關(guān)聯(lián)分析、智能分析等,主要目標(biāo)是能及時、精準(zhǔn)地定位故障根因;故障恢復(fù)部分包含了流量切換、預(yù)案、降級等,主要目標(biāo)是及時恢復(fù)故障,減少業(yè)務(wù)損失。

          故障管理體系核心能力關(guān)系圖:

          其中在故障管理智能化的過程中,故障發(fā)現(xiàn)作為故障管理中最開始的一環(huán),在當(dāng)前海量指標(biāo)場景下,自動發(fā)現(xiàn)故障和自動異常檢測的需求甚為迫切,能極大地簡化研發(fā)策略配置成本,提高告警的準(zhǔn)確率,減少告警風(fēng)暴和誤告,從而提高研發(fā)的效率。除此之外,時序數(shù)據(jù)異常檢測其實(shí)是基礎(chǔ)能力,在后續(xù)告警觸達(dá)、故障定位和故障恢復(fù)環(huán)節(jié)中,存在大量指標(biāo)需要進(jìn)行異常檢測。所以將故障發(fā)現(xiàn)作為當(dāng)前重點(diǎn)探索目標(biāo),解決當(dāng)前海量數(shù)據(jù)場景下人工配置和運(yùn)營告警策略、告警風(fēng)暴和準(zhǔn)確率不高的核心痛點(diǎn)。

          整個AIOps體系的探索和演進(jìn)路線如下圖所示。每個環(huán)節(jié)均有獨(dú)立的產(chǎn)品演進(jìn),故障發(fā)現(xiàn)-Horae(美團(tuán)服務(wù)運(yùn)維部與交易系統(tǒng)平臺部共建項(xiàng)目)、告警觸達(dá)-告警中心、故障定位-雷達(dá)、故障恢復(fù)-雷達(dá)預(yù)案。

          參考文檔:

          • [1] zsfruyi.個人圖書館: http://www.360doc.com/content/19/0418/18/29088297_829711343.shtml ,2019-04-18.

          • [2] 王雅琪 ,陳思.智能運(yùn)維系列(一)| AIOps 的崛起與實(shí)踐: https://www.infoq.cn/article/fqUfkjhecOla1zKUKycN ,2020-6-24

          • [3] 胡原,錦冬,俊峰,長偉,永強(qiáng).AIOps在美團(tuán)的探索與實(shí)踐——故障發(fā)現(xiàn)篇:https://tech.meituan.com/2020/10/15/mt-aiops-horae.html ,2020-10-15


          1. AIOps: 智能運(yùn)維, Algorithmic IT Operations ?

          2. ITOM: 運(yùn)維管理, IT Operation Management ?

          3. ITOA: IT運(yùn)營分析, IT Operations Analytics ?

          4. DevOps: 研發(fā)運(yùn)營一體化, Development和Operations ?

          5. APM: 應(yīng)用性能管理, Application Performance Management ?

          6. NPM: 網(wǎng)管系統(tǒng), Network Performance Management ?


          瀏覽 74
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99这里有精品视频 | 天天爽夜夜爽夜夜爽 | 国产精品女人18水真多 | 日韩人妻精品中文字幕专区不卡 | 亚洲精品99久久精品爆乳 |