能解決 80% 故障的排查思路
往期熱門文章: 1、40 個 SpringBoot 常用注解:讓生產(chǎn)力爆表! 2、3種常見的數(shù)據(jù)脫敏方案 3、BigDecimal使用不當(dāng),造成P0事故! 4、改造BeanUtils,優(yōu)雅實現(xiàn)List數(shù)據(jù)拷貝 5、SpringBoot 啟動時自動執(zhí)行代碼的幾種方式,還有誰不會??
服務(wù)整體性能下降或異常,可以考慮重啟服務(wù);
應(yīng)用做過變更,可以考慮是否需要回切變更;
資源不足,可以考慮應(yīng)急擴容;
應(yīng)用性能問題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù);
數(shù)據(jù)庫繁忙,可以考慮通過數(shù)據(jù)庫快照分析,優(yōu)化SQL;
應(yīng)用功能設(shè)計有誤,可以考慮緊急關(guān)閉功能菜單;
還有很多……
召集相關(guān)人員
描述故障現(xiàn)狀
說明正常應(yīng)用邏輯流程
陳述變更
排查進展,展示信息
領(lǐng)導(dǎo)決策
交易性能數(shù)據(jù):平均交易耗時、系統(tǒng)內(nèi)部模塊交易耗時(IVR交易耗時、接口總線交易耗時)、關(guān)聯(lián)系統(tǒng)交易耗時(核心交易耗時、工單系統(tǒng)交易耗時等)
重要交易指標(biāo)數(shù)據(jù):交易量、IVR交易量、話務(wù)量、座席通話率、核心交易筆數(shù)、工單等系統(tǒng)交易量
交易異常情況數(shù)據(jù):交易成功率、失敗率、錯誤碼最多交易
按服務(wù)器分析交易數(shù)據(jù):按server統(tǒng)計各服務(wù)交易處理筆數(shù),交易總耗時
應(yīng)急方案缺乏持續(xù)維護,缺乏演練,信息不及時、不準(zhǔn)確;
應(yīng)急方案過于追求大而全,導(dǎo)致不利于閱讀與使用;
應(yīng)急方案形式大于實際使用效果,方案針對性不強;
只關(guān)注應(yīng)急方案的內(nèi)容,但沒有關(guān)注運維人員對方案的理解;
知道應(yīng)用系統(tǒng)這個是干什么的,基本的業(yè)務(wù)是什么;
知道應(yīng)用架構(gòu)部署、上下游系統(tǒng)邏輯關(guān)系;
知道應(yīng)用下的服務(wù)的作用、端口、服務(wù)級的應(yīng)急處理,日志等數(shù)據(jù)信息如何找到并簡單定位;
知道應(yīng)用系統(tǒng)重要的時間點及任務(wù),比如開業(yè)、停業(yè)、換日、定時任務(wù)的時間點以及如何判斷這些任務(wù)是否正確;
知道最重要的幾支交易的流程;
知道常見數(shù)據(jù)庫表結(jié)構(gòu),并能使用。

最近熱文閱讀:
1、40 個 SpringBoot 常用注解:讓生產(chǎn)力爆表! 2、3種常見的數(shù)據(jù)脫敏方案 3、BigDecimal使用不當(dāng),造成P0事故! 4、改造BeanUtils,優(yōu)雅實現(xiàn)List數(shù)據(jù)拷貝 5、讓人上癮的新一代開發(fā)神器,徹底告別Controller、Service、Dao等方法 6、SpringBoot 啟動時自動執(zhí)行代碼的幾種方式,還有誰不會?? 7、延時消息常見實現(xiàn)方案 8、勁爆!Java 通用泛型要來了。。 9、如何寫出讓同事吐血的代碼? 10、遭棄用的 Docker Desktop 放大招!宣布支持 Linux 關(guān)注公眾號,你想要的Java都在這里
