限流監(jiān)控,通常需要關(guān)注哪些指標(biāo)?
點(diǎn)擊上方藍(lán)字“設(shè)為星標(biāo)”
大家好,我是架構(gòu)擺渡人。這是流量治理系列的第8篇文章,如果有收獲,還請(qǐng)分享給更多的朋友。
?
限流是一種自我保護(hù)的方式,雖然保護(hù)了系統(tǒng)的穩(wěn)定性,但是對(duì)用戶體驗(yàn)是有影響的,那么在觸發(fā)的時(shí)候我們能不能夠知道影響范圍有多大呢?
?
這就需要有完整的監(jiān)控體系來幫助我們?nèi)チ私庀蘖鞯囊恍┬畔ⅲ裉旄蠹伊囊涣男枰?jīng)常關(guān)注的指標(biāo)。如果你要構(gòu)建限流的監(jiān)控大盤,那么這些指標(biāo)或許對(duì)你有參考意義。
?

有沒有觸發(fā)流控?
首先我們要關(guān)注的重點(diǎn)就是到底有沒有觸發(fā)限流,一旦觸發(fā)了限流,也就意味著流量的突然上漲,是正常的活動(dòng)導(dǎo)致,還是被爬蟲了,還是什么原因。
?

?
?
上圖展示了最基本的指標(biāo)數(shù)據(jù),一眼就能看出是否有流控,流控的力度有多大。當(dāng)然我這只是一個(gè)示意圖,真正的監(jiān)控都是有很多圖表,曲線之類的,會(huì)更直觀更精美。
?

哪些接口被流控了?
通過監(jiān)控大盤,能夠很直觀的看到當(dāng)前被流控了。這個(gè)時(shí)候你肯定想知道,怎么會(huì)流控這么多量,到底是哪些接口被流控了,所以第二個(gè)指標(biāo)就是更細(xì)粒度的接口級(jí)別。
?

除了接口級(jí)別的流控我們需要直觀的展示出來,其實(shí)還有很多更細(xì)粒度的流控指標(biāo)。比如MQ消費(fèi)的流控,Mysql Sql級(jí)別的流控等。
?

流控時(shí)的資源利用率

流控時(shí)的資源利用率
流控時(shí)需要關(guān)注的還有依賴的資源利用率,比如當(dāng)前機(jī)器的CPU, 內(nèi)存等是否過高。數(shù)據(jù)庫(kù)的性能是否有下降,如果其他很多指標(biāo)都比較正常,那么可以提高限流的門檻,也就是不需要限制這么低的水位了,稍微放高點(diǎn)。
?

?
所以,在監(jiān)控大盤中還要有這些基礎(chǔ)設(shè)施的指標(biāo)信息。當(dāng)然有寫接口可能不是直接走數(shù)據(jù)的,有可能是一個(gè)聚合接口,能力都是下游提供的,那么這種接口需要關(guān)注的就是下游服務(wù)調(diào)用的RT,如果下游RT正常,那么也可以提高限流閥值。
?

?

流控預(yù)警

流控預(yù)警
前面講的都是已經(jīng)觸發(fā)了流控,我們需要通過哪些指標(biāo)哪判斷當(dāng)前的情況如何,能否提高限流閥值。其實(shí)一旦發(fā)生限流,也就意味著用戶體驗(yàn)受到了影響,那么能否有一些措施可以提前讓我們準(zhǔn)備起來,這就是流控預(yù)警。
?
舉例說明:你的限流閥值是1WQPS, 當(dāng)前QPS正在緩慢上升,到底6000QPS的時(shí)候,監(jiān)控提前進(jìn)行預(yù)警,電話或者短信都可以,這樣你就知道有流量突發(fā)情況,而且即將達(dá)到限流的閥值,這個(gè)時(shí)候你就去看監(jiān)控大盤,再根據(jù)我們之前說過的那些指標(biāo)去判斷,是否要提高一下閥值,減少用戶的影響。
?
大家好,我是從古代穿越過來的美男子:架構(gòu)擺渡人。我將把我的武功秘籍全部傳授與你們,覺得有用請(qǐng)分享給身邊的朋友。來個(gè)三連吧,感謝各位!另外我還在B站錄制了《真實(shí)訂單業(yè)務(wù),億級(jí)數(shù)據(jù)帶你實(shí)戰(zhàn)分庫(kù)分表》的實(shí)戰(zhàn)課程,記得去學(xué)習(xí)哦!
?
點(diǎn)擊閱讀原文直達(dá)主頁(yè)
