Prometheus hang 住問題定位解決

更多奇技淫巧歡迎訂閱博客:https://fuckcloudnative.io
前言
1. 概述
這里我簡單描述了一下我遇到的一次 prometheus hang 住但是卻不太完全的一個定位過程。雖然不是一個完整的定位過程,但是,卻是一個參考方向,那就是存儲會很影響 prometheus 的功能。
2. 問題現(xiàn)象
| 圖 1:Prometheus 進程狀態(tài) |
|---|
![]() |
但是,卻不提供服務且 9090 端口無法訪問:
| 圖 2:prometheus API 無法訪問 |
|---|
![]() |
3. 定位過程
看是否存在網(wǎng)絡訪問
首先得檢查一下內(nèi)部狀態(tài),看是完全卡死了還是說只是提供 Web 服務的接口不響應了:
[[email protected]]#?lsof?-p?18244
發(fā)現(xiàn)卡住了居然沒響應,心中有些不妙,懷疑系統(tǒng)問題了,于是先 top 一把看看:
[[email protected]]#?top
發(fā)現(xiàn)有很多進程大量占用 CPU:
| 圖 3:進程大量占用 CPU |
|---|
![]() |
先確認一下 Prometheus 的 cgroup 是否配置在相同的 CPU 核上:
[[email protected]]#?cat?/proc/18244/cgroup
...?...
10:cpuset:/xxx/app
...?...
[[email protected]]#?cat?/etc/cgconfig.conf?|?grep?-A?3?app
group?xxx/app?{
????cpuset?{
????????cpuset.cpus?=?"4,5";
????????cpuset.mems?=?"0-1";
然后看 top 中對應 CPU 核心的使用情況,發(fā)現(xiàn)情況沒有那么糟糕:
| 圖 4:CPU 核心情況(top,按 1) |
|---|
![]() |
看是否存在系統(tǒng)調(diào)用
嗯!?進程不存在了。
結(jié)局
測試同學把我的服務重啟了。。。。
| 圖 :服務被重啟了 |
|---|
![]() |
但是看到了一些問題,掛載存儲失敗了,所以懷疑是存儲的問題,轉(zhuǎn)而定位存儲的問題:
| 圖 :存儲服務日志異常 |
|---|
![]() |
然后就算結(jié)尾了,可惜了我的定位過程沒有完成。
原文鏈接:https://liqiang.io/post/f859eb29


你可能還喜歡
點擊下方圖片即可閱讀

云原生是一種信仰??
掃碼關注公眾號
后臺回復?k8s?獲取史上最方便快捷的 Kubernetes 高可用部署工具,只需一條命令,連 ssh 都不需要!


點擊?"閱讀原文"?獲取更好的閱讀體驗!
??給個「在看」,是對我最大的支持??
評論
圖片
表情







