一個(gè)有意思的報(bào)告:線上故障引發(fā)問題原因分布。
今天看了個(gè)線上故障原因排行分析,數(shù)據(jù)采樣不是很廣,但也不致于不能參考,樣本率本身也很難界定,當(dāng)然越大越準(zhǔn),根據(jù)我個(gè)人開發(fā)經(jīng)驗(yàn)來看,這個(gè)數(shù)據(jù)還是很符合我日常開發(fā)出現(xiàn)問題的規(guī)律的。對業(yè)務(wù)影響度最高的原因主要集中在以下幾個(gè)方面:
?

1. 配置數(shù)據(jù)參數(shù)錯(cuò)誤:(1.0)屬于操作不當(dāng),粗心。
2. 代碼邏輯錯(cuò)誤:(0.74)純粹的bug,測試沒有覆蓋到。
3. 架構(gòu)設(shè)計(jì)問題:(0.45)開發(fā)對系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)不足,個(gè)人無法避免,可以通過團(tuán)隊(duì)規(guī)范(技術(shù)評審)來避免,早發(fā)現(xiàn)早治療。
4. 網(wǎng)絡(luò)故障:(0.4)面對網(wǎng)絡(luò)抖動(dòng)問題,看公司基礎(chǔ)架構(gòu)能力了,完善的備用網(wǎng)絡(luò),自動(dòng)切換,以及告警機(jī)制,能否及時(shí)通知到所有受影響的業(yè)務(wù)方。
5. 硬件損壞問題:(0.35)開發(fā)無能為力,不需要關(guān)心,遇到就是倒霉。
6. 其他類別問題:(0.34)詭異問題。
7. 性能不足問題:(0.28)取決于對線上業(yè)務(wù)量提前評估,運(yùn)營如果搞活動(dòng)提前通知技術(shù),突發(fā)流量需要看公司基礎(chǔ)架構(gòu)有無自動(dòng)彈性擴(kuò)容能力,如果有,開發(fā)是否接入且正確配置參數(shù)。
8. 遭受攻擊導(dǎo)致:(0.09)這個(gè),看公司安全團(tuán)隊(duì)了,開發(fā)一般也做不了什么。
總結(jié):代碼邏輯錯(cuò)誤和配置參數(shù)錯(cuò)誤引發(fā)的P0問題最多,主要由初次上線或者變更引起,但是,由于代碼邏輯變更及灰度流程相對成熟,配置數(shù)據(jù)變更影響度最高。這需要配置中心有完善的灰度機(jī)制,且需要開發(fā)人員嚴(yán)格遵守,這就取決于團(tuán)隊(duì)如何約定執(zhí)行開發(fā)規(guī)范了,有的靠開會(huì)教育,效果不好就靠KPI強(qiáng)制要求,就是誰出問題誰背最低績效,這個(gè)完全看老板風(fēng)格,不同團(tuán)隊(duì),做的好壞的程度也參差不齊。
通過這個(gè)分析,面試時(shí)如果被問在工作中遇到的故障,如何發(fā)現(xiàn),如何修復(fù)等類似問題,可以按照這個(gè)故障原因優(yōu)先級來歸類。
如果你還遇到其他原因,歡迎留言,你都遇到過什么問題?

評論
圖片
表情
