看完這篇我也會排查JVM內(nèi)存過高了 就是玩兒!

前言
CPU 是時(shí)分的,操作系統(tǒng)里面有很多線程,每個(gè)線程的運(yùn)行時(shí)間由CPU決定,CPU會分給每一個(gè)線程一個(gè)時(shí)間片,時(shí)間片是一個(gè)很短的時(shí)間長度,如果在時(shí)間片內(nèi),線程一直占有,就是100%,我們應(yīng)該意識到,CPU運(yùn)行速度很快(主頻非常高),除非是密集型耗費(fèi)CPU的運(yùn)算,其他類型的任務(wù)都會在小于時(shí)間片的時(shí)間內(nèi)結(jié)束。
內(nèi)存過高一般有兩種情況:內(nèi)存溢出和內(nèi)存泄露
內(nèi)存溢出:程序分配的內(nèi)存超過物理機(jī)的內(nèi)存大小,導(dǎo)致無法繼續(xù)分配內(nèi)存,出現(xiàn)OOM報(bào)錯(cuò)
內(nèi)存泄露:不再使用的對象一直占據(jù)著內(nèi)存不釋放,導(dǎo)致這塊內(nèi)存浪費(fèi)掉,久而久之,內(nèi)存泄露的對象堆積起來,也會導(dǎo)致物理機(jī)的內(nèi)存被耗盡,出現(xiàn)OOM報(bào)錯(cuò)
具體操作
如何監(jiān)控JVM,我們可以通過一個(gè)案例在了解一些實(shí)際當(dāng)中的操作,大家可以看到下面的代碼,下面的代碼只是模擬了當(dāng)中的一個(gè)場景,一個(gè)風(fēng)險(xiǎn)控制的場景,一般銀行或者第三方公司在向一個(gè)人發(fā)放貸款的時(shí)候,會調(diào)用這個(gè)人的征信已經(jīng)還款能力,給出響應(yīng)的評級。
import java.math.BigDecimal;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.concurrent.ScheduledThreadPoolExecutor;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
public class FullGCTest {
//模擬銀行卡的類
private static class CardInfo {
//小農(nóng)的銀行卡信息記錄
BigDecimal price = new BigDecimal(10000000.0);
String name = "牧小農(nóng)";
int age = 18;
Date birthdate = new Date();
public void m() {}
}
//線程池 定時(shí)線程池
//50個(gè),然后設(shè)置 拒絕策略
private static ScheduledThreadPoolExecutor executor = new ScheduledThreadPoolExecutor(50,
new ThreadPoolExecutor.DiscardOldestPolicy());
public static void main(String[] args) throws Exception {
executor.setMaximumPoolSize(50);
for (;;){
modelFit();
Thread.sleep(100);
}
}
/**
* 對銀行卡進(jìn)行風(fēng)險(xiǎn)評估
*/
private static void modelFit(){
List<CardInfo> taskList = getAllCardInfo();
//拿出每一個(gè)信息出來
taskList.forEach(info -> {
// do something
executor.scheduleWithFixedDelay(() -> {
//調(diào)用M方法
info.m();
}, 2, 3, TimeUnit.SECONDS);
});
}
private static List<CardInfo> getAllCardInfo(){
List<CardInfo> taskList = new ArrayList<>();
//每次查詢100張卡出來
for (int i = 0; i < 100; i++) {
CardInfo ci = new CardInfo();
taskList.add(ci);
}
return taskList;
}
}程序的設(shè)計(jì)其實(shí)比較簡單,就是我們用信用卡的案例來進(jìn)行說明,比如CardInfo就是信用卡類,我們把這個(gè)人對應(yīng)的信用卡的記錄都調(diào)用出來,之后做一些自己響應(yīng)的業(yè)務(wù)處理方法來對它進(jìn)行處理和計(jì)算,來看看我們這個(gè)模型是否符合modelFit,具體怎么做呢,在應(yīng)用程序中有一個(gè)類是CardInfo,有一個(gè)方法叫做getAllCardInfo,每次都是拿100個(gè)出來,拿100個(gè)之后用線程池做計(jì)算,線程池用的是ScheduledThreadPoolExecutor (定時(shí)任務(wù)),new出來線程池之后,50個(gè)線程池,然后做對應(yīng)的業(yè)務(wù)邏輯處理,會調(diào)用 modelFit(),使用100毫秒模擬業(yè)務(wù)的停頓。
首先我們需要使用javac 命令將Java文件進(jìn)行編譯,javac FullGCTest.java進(jìn)行編譯,然后打印GC日志,進(jìn)行風(fēng)險(xiǎn)監(jiān)控
打印GC日志:java -Xms200M -Xmx200M -XX:+PrintGC FullGCTest

怎么知道JVM內(nèi)存過高?
在公司里面,如果遇到了JVM內(nèi)存過高的情況,那么一般是運(yùn)維團(tuán)隊(duì)首先受到報(bào)警信息,然后通知對應(yīng)的開發(fā)人員去查看,那么開發(fā)人員應(yīng)該如何查看,或者怎么樣去排查呢?
1、top 查看進(jìn)程
受到報(bào)警信息后,拿top命令去查詢
[root@root ~]# top

查看內(nèi)存不斷增長,CPU占用率居高不下的。top后你會看到它的PID(31061)。它占比比較高。
2、top -Hp 查看線程
找到CPU占用比較高的進(jìn)程PID,這里我們以 java 的進(jìn)程為例
使用命令 top -Hp 31061,這個(gè)時(shí)候它會把這個(gè)進(jìn)程里面所有的線程全部線程都羅列出來嗎,這些都是Java這個(gè)進(jìn)程里面內(nèi)部的一些線程,如下圖所示:

我們會看到每個(gè)線程的占比都差不多,偶爾會有某一個(gè)線程比較高,在某些線程占得比較高的時(shí)候,這個(gè)小例子最終會是垃圾回收的線程占得比較高,因?yàn)槔厥詹贿^來了,所以需要不停的來回回收,每次都回收一點(diǎn)點(diǎn),實(shí)際這種例子里面非常有可能是你業(yè)務(wù)邏輯線程,那一塊的業(yè)務(wù)邏輯線程占比非常高,這是時(shí)候就需要用到另外的命令——jstack
3、jstack
當(dāng)我們使用 top -Hp 知道了是哪個(gè)線程后,我們下一步就可以使用 jstack命令,比如我們要查看31083這個(gè)線程號,31061是我們的進(jìn)程PID,我們要定位某一個(gè)線程cpu的占比會比其他cpu高很多,那么我們就要定位這個(gè)線程里面到底是什么樣的問題的時(shí)候,就需要把這個(gè)線程號(31083)記下來。
因?yàn)?jstack 用到的線程號是16進(jìn)制的,所以我們需要把31083的10進(jìn)制轉(zhuǎn)換成16進(jìn)制才可以
特點(diǎn):
每個(gè)線程有自己的線程號碼,里面有線程的狀態(tài),可以觀察線程是否阻塞,如果長時(shí)間的wait和block說明這個(gè)線程是有問題的
4、轉(zhuǎn)換16進(jìn)制
因?yàn)镴ava線程文件中的線程ID是16進(jìn)制,所以需要將線程ID從十進(jìn)制轉(zhuǎn)換成十六進(jìn)制
命令:echo "obase=16;31083" | bc

5、jstack用法解析
[root@root ~]# jstack
Usage:
jstack [-l] <pid>
(to connect to running process)
jstack -F [-m] [-l] <pid>
(to connect to a hung process)
jstack [-m] [-l] <executable> <core>
(to connect to a core file)
jstack [-m] [-l] [server_id@]<remote server IP or hostname>
(to connect to a remote debug server)
Options:
-F to force a thread dump. Use when jstack <pid> does not respond (process is hung)
-m to print both java and native frames (mixed mode)
-l long listing. Prints additional information about locks
-h or -help to print this help message6、jstack查看輸出
我們也可以用 jps或者java ps -ef| java來查看Java進(jìn)程,這里我們用jps來查看
[root@root ~]# jps

[root@root ~]# jstack 31061
"pool-1-thread-3" #10 prio=5 os_prio=0 tid=0x00007f3568105800 nid=0x7961 waiting on condition [0x00007f35455cf000]
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x00000000f8a81148> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:1088)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:809)
at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
"pool-1-thread-2" #9 prio=5 os_prio=0 tid=0x00007f3568103800 nid=0x7960 waiting on condition [0x00007f35456d0000]
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x00000000f8a81148> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:1088)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:809)
at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
"pool-1-thread-1" #8 prio=5 os_prio=0 tid=0x00007f3568102000 nid=0x795f waiting on condition [0x00007f35457d1000]
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x00000000f8a81148> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:1088)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:809)
at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
"Service Thread" #7 daemon prio=9 os_prio=0 tid=0x00007f35680b4000 nid=0x795d runnable [0x0000000000000000]
java.lang.Thread.State: RUNNABLE
"C1 CompilerThread1" #6 daemon prio=9 os_prio=0 tid=0x00007f35680b1000 nid=0x795c waiting on condition [0x0000000000000000]
java.lang.Thread.State: RUNNABLE
"C2 CompilerThread0" #5 daemon prio=9 os_prio=0 tid=0x00007f35680af000 nid=0x795b waiting on condition [0x0000000000000000]
java.lang.Thread.State: RUNNABLE
"Signal Dispatcher" #4 daemon prio=9 os_prio=0 tid=0x00007f35680ad800 nid=0x795a runnable [0x0000000000000000]
java.lang.Thread.State: RUNNABLE
"Finalizer" #3 daemon prio=8 os_prio=0 tid=0x00007f356807c800 nid=0x7959 in Object.wait() [0x00007f3558301000]
java.lang.Thread.State: WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
- waiting on <0x00000000f8a86b38> (a java.lang.ref.ReferenceQueue$Lock)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:144)
- locked <0x00000000f8a86b38> (a java.lang.ref.ReferenceQueue$Lock)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:165)
at java.lang.ref.Finalizer$FinalizerThread.run(Finalizer.java:216)
"Reference Handler" #2 daemon prio=10 os_prio=0 tid=0x00007f3568077800 nid=0x7958 in Object.wait() [0x00007f3558402000]
java.lang.Thread.State: WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
- waiting on <0x00000000f8a86cf0> (a java.lang.ref.Reference$Lock)
at java.lang.Object.wait(Object.java:502)
at java.lang.ref.Reference.tryHandlePending(Reference.java:191)
- locked <0x00000000f8a86cf0> (a java.lang.ref.Reference$Lock)
at java.lang.ref.Reference$ReferenceHandler.run(Reference.java:153)
"main" #1 prio=5 os_prio=0 tid=0x00007f3568009800 nid=0x7956 waiting on condition [0x00007f356ed59000]
java.lang.Thread.State: TIMED_WAITING (sleeping)
at java.lang.Thread.sleep(Native Method)
at FullGCTest.main(FullGCTest.java:35)
"VM Thread" os_prio=0 tid=0x00007f356806e000 nid=0x7957 runnable
"VM Periodic Task Thread" os_prio=0 tid=0x00007f35680b7000 nid=0x795e waiting on condition
JNI global references: 205
通過thread dump分析線程狀態(tài)
大多數(shù)情況下會基于thead dump 分析當(dāng)前各個(gè)線程的運(yùn)行情況,如是否存在死鎖,是否存在一個(gè)線程長時(shí)間持有鎖不釋放等等
在dump中,線程一般存在如下幾種狀態(tài):
1、RUNNABLE,線程處于執(zhí)行中
2、BLOCKED,線程被阻塞
3、WAITING,線程正在等待
locked <0x000000076bf62208>說明線程 對地址為0x000000076bf62208對象進(jìn)行了加鎖;
waiting to lock <0x000000076bf62208>說明線程 在等待地址為0x000000076bf62208對象上的鎖;
waiting for monitor entry [0x000000001e21f000]說明線程 是通過synchronized關(guān)鍵字進(jìn)入了監(jiān)視器的臨界區(qū),并處于"Entry Set"隊(duì)列,等待monitor;
waiting on <0x0000000088ca3310> (a java.lang.Object)等待鎖的釋放
假如有一個(gè)進(jìn)程中有100個(gè)線程,很多線程都在waiting on 某一把鎖,然后線程不該阻塞的被阻塞了,該結(jié)束的沒結(jié)束掉,一定要找到哪個(gè)線程持有這把鎖 ,我們可以搜索 jstack dump 的信息,找到<0X...>的信息,看哪個(gè)線程只有了這把鎖,一般這個(gè)線程狀態(tài)是RUNNABLE,表示這個(gè)線程正在運(yùn)行但是一直持有這把鎖不釋放,那么就會導(dǎo)致整個(gè)線程的死鎖
7、jstack分析死鎖
public class TestDeadLock {
private static Object obj1 = new Object();
private static Object obj2 = new Object();
public static void main(String[] args) {
new Thread(new Thread1()).start();
new Thread(new Thread2()).start();
}
private static class Thread1 implements Runnable {
@Override
public void run() {
synchronized (obj1) {
System.out.println("Thread1 拿到了 obj1 的鎖!");
try {// 停頓2秒的意義在于,讓Thread2線程拿到obj2的鎖
Thread.sleep(2000);
} catch (InterruptedException e) {
e.printStackTrace();
}
synchronized (obj2) {
System.out.println("Thread1 拿到了 obj2 的鎖!");
}
}
}
}
private static class Thread2 implements Runnable {
@Override
public void run() {
synchronized (obj2) {
System.out.println("Thread2 拿到了 obj2 的鎖!");
try {
// 停頓2秒的意義在于,讓Thread1線程拿到obj1的鎖
Thread.sleep(2000);
} catch (Exception e) {
e.printStackTrace();
}
synchronized (obj1) {
System.out.println("Thread2 拿到了obj1的鎖!");
}
}
}
}
}
通過命令查看分析日志
[root@root fuccGC]# jps
485 Bootstrap
9877 Jps
10629 QuorumPeerMain
9846 TestDeadLock
[root@root fuccGC]# jstack 9846
內(nèi)存監(jiān)控工具的使用
我們可以使用jvm自帶的命令去進(jìn)行監(jiān)控GC的信息:
jinfo pid:這個(gè)命令就是把這個(gè)進(jìn)程的一些詳細(xì)信息列出來
[root@root ~]# jinfo 9846
這個(gè)只是有幫助,但是幫助不是特別大,大家只要記住有這個(gè)命令就行,不做深入了解

jstat -gc pid 1000:這個(gè)就是每一秒鐘將GC的日志打印出來,動態(tài) 觀察GC情況/閱讀GC日志發(fā)現(xiàn)頻繁GC等等,但是這個(gè)信息看起來不是很直觀,能夠分析出來的東西也不多,所以一般使用的也不是很多

我們用的最多的還是通過工具去查看,比如 jconsole/jvisualvm
1、 jconsole
這兩個(gè)是JDK自帶的一個(gè)工具,也是 一個(gè)圖形界面的工具,只要你裝了JDK就有這兩個(gè)工具,可以從本機(jī)去跟蹤遠(yuǎn)程服務(wù)器上的一個(gè)進(jìn)程,作為Linux服務(wù)器,很少有人會裝圖形界面,如下圖所示:

在我們程序啟動的時(shí)候要加入?yún)?shù):
java -Djava.rmi.server.hostname=101.XX.XXX.XX -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8080 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.rmi.port=8080 FullGCTest

基本情況如下,我們就可以監(jiān)控到我們遠(yuǎn)程服務(wù)器上面的內(nèi)存信息

2、 jvisualvm
雙擊 jvisualvm

選擇遠(yuǎn)程-點(diǎn)擊文件按鈕

選擇添加JMX連接

輸入我們的地址和賬號密碼就可以登錄了

這樣就可以查看我們遠(yuǎn)程服務(wù)的內(nèi)存信息了


在這里我們就知道怎么定位問題了,哪一個(gè)類占用了多少內(nèi)存,就會顯示出來,點(diǎn)擊抽樣器,內(nèi)存,之后就會對遠(yuǎn)程的那臺機(jī)器的JAVA進(jìn)程內(nèi)存,在圖形化界面中顯示,有多少個(gè)類,占用了多少個(gè)字節(jié),這樣我們就可以具體定位到是哪個(gè)類有問題了
面試中如何回答定位內(nèi)存溢出(OOM)
如果面試官我們?nèi)绾味ㄎ籓OM的問題,但是我們不能回答用圖形界面,因?yàn)樽鳛橐粋€(gè)服務(wù)來講,在不斷的運(yùn)行,當(dāng)我們開一個(gè)JMX服務(wù)的時(shí)候,會形象服務(wù)本來的運(yùn)行效率,那我們已經(jīng)上線的系統(tǒng)不用圖形化用什么?還有一個(gè)叫Jprofiler是最好用的圖形界面,但是這個(gè)是收費(fèi)的,所以一般用不到,
如果不用圖形界面那我們用什么,我們可以用 cmdline、arthas這兩個(gè)
圖形界面用在什么地方呢?用在測試上,測試的時(shí)候進(jìn)行監(jiān)控~
如果已經(jīng)上線的項(xiàng)目,我們不用圖形界面可以用什么呢?我們可以用Jmap
jmap
[root@root ~]# jmap -histo 19086 | head -20

它就會把我們的內(nèi)存信息打印出來,雖然沒有圖形化界面方便,但是里面的信息也足夠我們?nèi)ビ^察和定位問題了
線上系統(tǒng),內(nèi)存特別大,jmap執(zhí)行期間會對進(jìn)程產(chǎn)生很大影響,甚至卡頓(電商不適合)
設(shè)定了參數(shù)HeapDump,OOM的時(shí)候會自動產(chǎn)生堆轉(zhuǎn)儲文件(java -Xms20M -Xmx20M -XX:+UseParallelGC -XX:+HeapDumpOnOutOfMemoryError FullGCTest)
很多服務(wù)器備份(高可用),停掉這臺服務(wù)器對其他服務(wù)器不影響
出處:blog.csdn.net/qq_14996421/article/details/115726673
關(guān)注GitHub今日熱榜,專注挖掘好用的開發(fā)工具,致力于分享優(yōu)質(zhì)高效的工具、資源、插件等,助力開發(fā)者成長!
點(diǎn)個(gè)在看 你最好看
