如何解決Prometheus的告警管理問題?
Prometheus發(fā)展到今天,已經(jīng)全面接管了 K8s 上的監(jiān)控體系,形成了一套以它為核心的統(tǒng)一方案,但監(jiān)控依然是云原生領域非常讓人頭疼的問題之一。

一方面是因為監(jiān)控非常重要,直接關(guān)系到應用的高效、平穩(wěn)運行;另一方面,云原生使監(jiān)控更加復雜了,除了業(yè)務方面,集群、節(jié)點、Service、Pod 等等維度眾多,并且還要應對短時間內(nèi)不斷變化的現(xiàn)實,同時還面臨降低資源開銷的挑戰(zhàn)。
?
拿告警來說,現(xiàn)實困境包括:
沒有告警:系統(tǒng)裝箱過度,導致節(jié)點 CPU 100%,業(yè)務已崩而調(diào)度器還在不停調(diào)度Pod;
海量告警=沒有告警:一天 200 個告警電話,處理一個告警的時候同時又收到10個告警;
可自愈的告警不該告警:周末背著電腦和朋友聚餐,接到告警電話立馬處理,登錄系統(tǒng)后發(fā)現(xiàn)已經(jīng)自動恢復,關(guān)上電腦結(jié)果又出現(xiàn)告警…
?
在具體的監(jiān)控指標規(guī)劃上,業(yè)界通用的兩個原則是 USE 和 RED 。
?
從資源監(jiān)控指標來看,如節(jié)點和容器的資源使用情況等等,需要考慮利用率(Utilization),資源被有效利用起來提供服務的平均時間占比;飽和度(Saturation),資源擁擠的程度,比如工作隊列的長度;錯誤率(Errors),錯誤的數(shù)量。
從服務監(jiān)控指標來看,比如 kube-apiserver 或者某個應用的工作情況,要考慮每秒請求數(shù)量(Rate)、每秒錯誤數(shù)量(Errors)、服務響應時間(Duration)。
?
怎么樣,是不是感覺實現(xiàn)起來復雜度挺高的?
今天給你推薦一個監(jiān)控方面的優(yōu)質(zhì)公開課:Prometheus 監(jiān)控體系構(gòu)建:架構(gòu)設計與告警實現(xiàn),騰訊技術(shù)專家孟凡杰原理+實操結(jié)合,幫你掃清監(jiān)控方面的障礙,掌握可復制的解決方案。
公號粉絲0元領??
添加后
獲取免費報名鏈接和配套課件哦~
??本專題不適合學生群體
如有相關(guān)編程經(jīng)驗可酌情考慮
另外,公號粉絲還加贈
云原生領域經(jīng)典電子書
及Prometheus拓展學習文檔
千萬別錯過!


?
公開課里含2節(jié)視頻課,8大內(nèi)容要點,包括以 Prometheus 為核心的監(jiān)控系統(tǒng)的架構(gòu)設計以及如何實現(xiàn)有效告警。讓你在建立對監(jiān)控體系的整體認知基礎上進一步實操,對企業(yè)級的應用做到心中有數(shù)。
如果你存在以下困惑都建議你來學習一下:
對 Prometheus 上手難有怨言
對通過修改配置文件來管理 Prometheus 的方式有痛點
對因為數(shù)據(jù)量過大而無法擴展您的 Prometheus 感到有困擾
在生產(chǎn)環(huán)境運行多套 Prometheus 集群面臨管理和使用上的不便
在企業(yè)數(shù)字化轉(zhuǎn)型過程中對于如何架構(gòu)適合您的云原生監(jiān)控方案有困惑
添加后
獲取免費報名鏈接和配套課件哦~
??本專題不適合學生群體
如有相關(guān)編程經(jīng)驗可酌情考慮
