事件、故障排查處理思路,你值得試試
在講解事件、故障處理思路前,先講一個(gè)故障場(chǎng)景(以呼叫中心系統(tǒng)作為一例子):
優(yōu)先故障處理過(guò)程的時(shí)間:”能通過(guò)鼠標(biāo)完成的工作,不要用鍵盤(pán)“ 提前發(fā)現(xiàn)故障,加強(qiáng)監(jiān)控:“技術(shù)早于業(yè)務(wù)發(fā)現(xiàn)問(wèn)題,監(jiān)控不僅是報(bào)警,還要協(xié)助故障定位” 完善故障應(yīng)急方案:“應(yīng)急方案是最新的、準(zhǔn)確的、簡(jiǎn)單明了的” 長(zhǎng)遠(yuǎn)目標(biāo):故障自愈:“能固化的操作自動(dòng)化,能機(jī)器做的讓機(jī)器做”
服務(wù)整體性能下降或異常,可以考慮重啟服務(wù); 應(yīng)用做過(guò)變更,可以考慮是否需要回切變更; 資源不足,可以考慮應(yīng)急擴(kuò)容; 應(yīng)用性能問(wèn)題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù); 數(shù)據(jù)庫(kù)繁忙,可以考慮通過(guò)數(shù)據(jù)庫(kù)快照分析,優(yōu)化SQL; 應(yīng)用功能設(shè)計(jì)有誤,可以考慮緊急關(guān)閉功能菜單; 還有很多……
召集相關(guān)人員 描述故障現(xiàn)狀 說(shuō)明正常應(yīng)用邏輯流程 陳述變更 排查進(jìn)展,展示信息 領(lǐng)導(dǎo)決策
交易性能數(shù)據(jù):平均交易耗時(shí)、系統(tǒng)內(nèi)部模塊交易耗時(shí)(IVR交易耗時(shí)、接口總線(xiàn)交易耗時(shí))、關(guān)聯(lián)系統(tǒng)交易耗時(shí)(核心交易耗時(shí)、工單系統(tǒng)交易耗時(shí)等) 重要交易指標(biāo)數(shù)據(jù):交易量、IVR交易量、話(huà)務(wù)量、座席通話(huà)率、核心交易筆數(shù)、工單等系統(tǒng)交易量 交易異常情況數(shù)據(jù):交易成功率、失敗率、錯(cuò)誤碼最多交易 按服務(wù)器分析交易數(shù)據(jù):按server統(tǒng)計(jì)各服務(wù)交易處理筆數(shù),交易總耗時(shí)
應(yīng)急方案缺乏持續(xù)維護(hù),缺乏演練,信息不及時(shí)、不準(zhǔn)確; 應(yīng)急方案過(guò)于追求大而全,導(dǎo)致不利于閱讀與使用; 應(yīng)急方案形式大于實(shí)際使用效果,方案針對(duì)性不強(qiáng); 只關(guān)注應(yīng)急方案的內(nèi)容,但沒(méi)有關(guān)注運(yùn)維人員對(duì)方案的理解;
知道應(yīng)用系統(tǒng)這個(gè)是干什么的,基本的業(yè)務(wù)是什么; 知道應(yīng)用架構(gòu)部署、上下游系統(tǒng)邏輯關(guān)系; 知道應(yīng)用下的服務(wù)的作用、端口、服務(wù)級(jí)的應(yīng)急處理,日志等數(shù)據(jù)信息如何找到并簡(jiǎn)單定位。 知道應(yīng)用系統(tǒng)重要的時(shí)間點(diǎn)及任務(wù),比如開(kāi)業(yè)、停業(yè)、換日、定時(shí)任務(wù)的時(shí)間點(diǎn)以及如何判斷這些任務(wù)是否正確 知道最重要的幾個(gè)交易的流程; 知道常見(jiàn)數(shù)據(jù)庫(kù)表結(jié)構(gòu),并能使用。

評(píng)論
圖片
表情
