使用 Node Exporter 監(jiān)控 Linux 主機(jī)(2)
前文我們介紹了如何使用 Node Exporter 監(jiān)控 Linux 主機(jī)的 CPU 使用率,接下來我們來介紹如何監(jiān)控 Linux 的磁盤空間、磁盤 IO、網(wǎng)絡(luò) IO 等方面。
內(nèi)存監(jiān)控
除了 CPU 監(jiān)控之外,我們可能最關(guān)心的就是節(jié)點(diǎn)內(nèi)存的監(jiān)控了,平時我們查看節(jié)點(diǎn)的內(nèi)存使用情況基本上都是使用 free 命令來查看:

free 命令的輸出會顯示系統(tǒng)內(nèi)存的使用情況,包括物理內(nèi)存、交換內(nèi)存(swap)和內(nèi)核緩沖區(qū)內(nèi)存等,所以要對內(nèi)存進(jìn)行監(jiān)控我們需要先了解這些概念,我們先了解下 free 命令的輸出內(nèi)容:
Mem 行(第二行)是內(nèi)存的使用情況Swap 行(第三行)是交換空間的使用情況total列顯示系統(tǒng)總的可用物理內(nèi)存和交換空間大小used列顯示已經(jīng)被使用的物理內(nèi)存和交換空間free列顯示還有多少物理內(nèi)存和交換空間可用使用shared列顯示被共享使用的物理內(nèi)存大小buff/cache列顯示被 buffer 和 cache 使用的物理內(nèi)存大小available列顯示還可以被應(yīng)用程序使用的物理內(nèi)存大小
其中我們需要重點(diǎn)關(guān)注的 free 和 available 兩列。free 是真正尚未被使用的物理內(nèi)存數(shù)量,而 available 是從應(yīng)用程序的角度看到的可用內(nèi)存,Linux 內(nèi)核為了提升磁盤操作的性能,會消耗一部分內(nèi)存去緩存磁盤數(shù)據(jù),就是 buffer 和 cache,所以對于內(nèi)核來說,buffer 和 cache 都屬于已經(jīng)被使用的內(nèi)存,只是應(yīng)用程序需要內(nèi)存時,如果沒有足夠的 free 內(nèi)存可以用,內(nèi)核就會從 buffer 和 cache 中回收內(nèi)存來滿足應(yīng)用程序的請求。所以從應(yīng)用程序的角度來說 available = free + buffer + cache,不過需要注意這只是一個理想的計算方式,實際中的數(shù)據(jù)有較大的誤差。
如果要在 Prometheus 中來查詢內(nèi)存使用,則可以用 node_memory_* 相關(guān)指標(biāo),同樣的要計算使用的,我們可以計算可使用的內(nèi)存,使用 promql 查詢語句 node_memory_Buffers_bytes + node_memory_Cached_bytes + node_memory_MemFree_bytes。

然后計算可用內(nèi)存的使用率,和總的內(nèi)存相除,然后同樣用 1 減去即可,語句為 (1- (node_memory_Buffers_bytes + node_memory_Cached_bytes + node_memory_MemFree_bytes) / node_memory_MemTotal_bytes) * 100,這樣計算出來的就是節(jié)點(diǎn)內(nèi)存使用率。

當(dāng)然如果想要查看各項內(nèi)存使用直接使用對應(yīng)的監(jiān)控指標(biāo)即可,比如要查看節(jié)點(diǎn)總內(nèi)存,直接使用 node_memory_MemTotal_bytes 指標(biāo)即可獲取。

磁盤監(jiān)控
接下來是比較中的磁盤監(jiān)控,對于磁盤監(jiān)控我們不僅對磁盤使用情況感興趣,一般來說對于磁盤 IO 的監(jiān)控也是非常有必要的。
磁盤容量監(jiān)控
要監(jiān)控磁盤容量,需要用到 node_filesystem_* 相關(guān)的指標(biāo),比如要查詢節(jié)點(diǎn)磁盤空間使用率,則可以同樣用總的減去可用的來進(jìn)行計算,磁盤可用空間使用 node_filesystem_avail_bytes 指標(biāo),但是由于會有一些我們不關(guān)心的磁盤信息,所以我們可以使用 fstype 標(biāo)簽過濾關(guān)心的磁盤信息,比如 ext4 或者 xfs 格式的磁盤:

要查詢磁盤空間使用率,則使用查詢語句 (1 - node_filesystem_avail_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"}) * 100 即可:

這樣就可以得到我們關(guān)心的磁盤空間使用率了。
磁盤 IO 監(jiān)控
要監(jiān)控磁盤 IO,就要區(qū)分是讀的 IO,還是寫的 IO,讀 IO 使用 node_disk_reads_completed 指標(biāo),寫 IO 使用 node_disk_writes_completed_total 指標(biāo)。
磁盤讀 IO 使用 sum by (instance) (rate(node_disk_reads_completed_total[5m])) 查詢語句即可:

當(dāng)然如果你想根據(jù) device 進(jìn)行聚合也是可以的,我們這里是全部聚合在一起了。
磁盤寫 IO 使用 sum by (instance) (rate(node_disk_writes_completed_total[5m])) 查詢語句即可:

網(wǎng)絡(luò) IO 監(jiān)控
上行帶寬需要用到的指標(biāo)是 node_network_receive_bytes,由于我們對網(wǎng)絡(luò)帶寬的瞬時變化比較關(guān)注,所以一般我們會使用 irate 函數(shù)來計算網(wǎng)絡(luò) IO,比如計算上行帶寬用查詢語句 sum by(instance) (irate(node_network_receive_bytes_total{device!~"bond.*?|lo"}[5m])) 即可:

下行帶寬用到的指標(biāo)為 node_network_transmit_bytes,同樣的方式查詢語句為 sum by(instance) (irate(node_network_transmit_bytes{device!~"bond.*?|lo"}[5m])):

當(dāng)然我們還可以根據(jù)網(wǎng)卡設(shè)備進(jìn)行分別聚合計算,最后還可以根據(jù)自己的需求將結(jié)果進(jìn)行單位換算。
