互聯(lián)網(wǎng)產(chǎn)品線上故障管理規(guī)范
備注:一年半以前網(wǎng)上搜索參考了多篇文章,結(jié)合實(shí)踐做了修正和細(xì)化之后進(jìn)行的內(nèi)部規(guī)范,忘記收藏參考文的鏈接了。
為了讓產(chǎn)品人員和開發(fā)人員可以更快速解決問題,也為探索更好保證軟件質(zhì)量的方法,針對線上故障,需要規(guī)范的處理流程。QA/軟件測試人員,在這個(gè)過程中需承擔(dān)非常重要的規(guī)范制定和推動落地實(shí)施的責(zé)任。
線上故障定義:
產(chǎn)品研發(fā)完成,驗(yàn)收通過并發(fā)布生產(chǎn)環(huán)境后,用戶反饋的問題都算線上故障。
線上故障級別:
與互聯(lián)網(wǎng)軟件缺陷規(guī)范一文中的缺陷嚴(yán)重程度定義保持一致。

故障報(bào)告標(biāo)準(zhǔn)
什么情況的線上故障需要報(bào)告?
block/critical - p0級
- 需要故障調(diào)查報(bào)告 & 復(fù)盤會議
對收益有很大影響。例如無法打開頁面,無法操作
對用戶有很大影響。例如無法支付或提現(xiàn)什么情況的不需要報(bào)告?
- 無需報(bào)告,但需要記錄&簡短案例分析
簡單用戶體驗(yàn)或純UI顯示問題
不影響用戶使用核心功能的問題
線上故障處理流程
快速處理故障先讓系統(tǒng)恢復(fù)正常以減少損失,比找到問題原因更重要。

線上故障發(fā)現(xiàn)途徑
這個(gè)環(huán)節(jié)建議由QA/測試人員負(fù)責(zé)追蹤,確保所有線上問題及其解決方案等系統(tǒng)化管理,并被詳細(xì)記錄。
主動發(fā)現(xiàn)——開發(fā)或者運(yùn)維不經(jīng)意間查看生產(chǎn)環(huán)境的error日志,或者例行檢查監(jiān)控項(xiàng)時(shí),看到了一些異常的現(xiàn)象,進(jìn)而發(fā)現(xiàn)了故障;
系統(tǒng)監(jiān)控告警——通常包括cpu、內(nèi)存、io、tcp連接數(shù)、disk、線程數(shù)、GC、連接池等各個(gè)服務(wù)器指標(biāo)異常,可能是服務(wù)器出現(xiàn)了異常,但業(yè)務(wù)還未受到大面積影響;
業(yè)務(wù)監(jiān)控告警——如用戶登錄失敗率增加,訂單堆積量增大,則意味著系統(tǒng)的異常已經(jīng)很嚴(yán)重,影響了業(yè)務(wù)處理;
關(guān)聯(lián)系統(tǒng)故障追溯——上游系統(tǒng)或者下游系統(tǒng)的故障處理追溯,可能和本系統(tǒng)有關(guān)系,而且情況已經(jīng)變得很糟糕了,需要快速定位;
客服事件上報(bào)——通常業(yè)務(wù)異常帶來的影響傳遞到用戶,再從用戶傳遞到客服人員,再到技術(shù)人員手里,存在一定時(shí)延,所以一旦有生產(chǎn)事件上報(bào),嚴(yán)重性已經(jīng)到了最高,技術(shù)人員的壓力也會增大,會有領(lǐng)導(dǎo)的關(guān)注,產(chǎn)品經(jīng)理詢問和催促,客戶人員焦慮帶來的壓力。
線上故障處理常規(guī)思路
研發(fā)人員需針對具體業(yè)務(wù)線形成線上故障處理思路,收集當(dāng)前業(yè)務(wù)線故障常發(fā)的服務(wù)/系統(tǒng)及其解決方案并同步給團(tuán)隊(duì)。

故障調(diào)查報(bào)告
模板參考
建議語言簡潔明了,快速輸出調(diào)查報(bào)告,解決方案側(cè)重描述當(dāng)前解決方案,長遠(yuǎn)改進(jìn)措施也可后續(xù)輸出。
線上故障復(fù)盤會議
人員:產(chǎn)品/研發(fā)發(fā)起,產(chǎn)品/開發(fā)/測試等相關(guān)人員參與
時(shí)間:故障發(fā)生后一周之內(nèi)
Actions:
復(fù)盤故障原因、解決方案
進(jìn)一步討論改進(jìn)措施,建立任務(wù)追蹤并分配到人
改進(jìn)措施的初步排期
故障協(xié)調(diào)人
1.?按產(chǎn)品線或項(xiàng)目組安排
2.?協(xié)調(diào)人需有backup,能夠第一時(shí)間響應(yīng)并積極主動協(xié)

