完蛋!我被 Out of Memory 包圍了!
是極致魅惑、灑脫自由的
Java heap space?是知性柔情、溫婉大氣的
GC overhead limit exceeded?是純真無邪、活潑可愛的
Metaspace?如果以上不是你的菜,那還有……
刁蠻任性,無跡可尋的
CodeCache!性感火辣、心思細膩的
Direct Memory高貴冷艷,獨愛你一人的
OOM Killer!總有一款,能讓你鐘情!BUG 選擇權,現(xiàn)在交由你手!

Java heap space
這是最常見的一個 OOM 問題了,誰還沒經(jīng)歷過一個 Heap OOM呢?
當堆內(nèi)存被塞滿之后,一邊 GC 無法及時回收,一邊又在繼續(xù)創(chuàng)建新對象,Allocator 無法分配新的內(nèi)存之后,就會送一個 OOM 的錯誤:
java.lang.OutOfMemoryError: Java heap space
分析解決起來無非是那幾步:
dump 堆內(nèi)存
通過 MAT、YourKit、JProfiler 、IDEA Profiler 等一系列工具分析dump文件
找到占用內(nèi)存最多、最大的對象,看看是哪個小可愛干的
分析代碼,嘗試優(yōu)化代碼、減少對象創(chuàng)建
增加 JVM 堆內(nèi)存、限制請求數(shù)、線程數(shù)、增加節(jié)點數(shù)量等
常見類庫使用誤區(qū)
尤其是一些工具庫,盡可能的避免每次新建對象,從而節(jié)省內(nèi)存提升性能。
大多數(shù)主流的類庫,入口類都保證了單例線程安全,全局維護一份即可
舉一些常見的錯誤使用例子:
Apache HttpClient
CloseableHttpClient ,這玩意相當于一個“瀏覽器進程”了,背后有連接池連接復用,一堆機制的輔助類,如果每次都 new 一個,不僅速度慢,而且浪費了大量資源。
比較正常的做法是,全局維護一個(或者根據(jù)業(yè)務場景分組,每組一個)實例,服務啟動時創(chuàng)建,服務關閉時銷毀:
CloseableHttpClient httpClient = HttpClients.custom()
.setMaxConnPerRoute(maxConnPerRoute)
.setMaxConnTotal(maxConnTotal)
/// ...
.build();
Gson
畢竟是 Google 的項目,入口類自然也是實現(xiàn)了線程安全,全局維護一份 Gson 實例即可
Jackson
Jackson 作為 Spring MVC 默認的 JSON 處理庫,功能強大、用戶眾多,xml/json/yaml/properties/csv 各種主流格式都支持,單例線程安全自然也是 ok 的,全局維護一份 ObjectMapper 即可。
GC overhead limit exceeded
這個錯誤比較有意思,上面的 Java heap space 是內(nèi)存徹底滿了之后,還在持續(xù)的創(chuàng)建新對象,此時服務會徹底假死,無法處理新的請求。
而這個錯誤,只是表示 GC 開銷過大,Collector 花了大量的時間回收內(nèi)存,但釋放的堆內(nèi)存卻很小,并不代表服務死了
此時程序處于一種很微妙的狀態(tài):堆內(nèi)存滿了(或者達到回收閾值),不停的觸發(fā) GC 回收,但大多數(shù)對象都是可達的無法回收,同時 Mutator 還在低頻率的創(chuàng)建新對象。
出現(xiàn)這個錯誤,一般都是流量較低的場景,有太多常駐的可達對象無法回收,但是吧,GC 后空閑的內(nèi)存還可以滿足服務的基本使用
不過此時,已經(jīng)在頻繁的老年代GC了,老年代又大對象又多、在現(xiàn)有的回收算法下,GC 效率非常低并切資源占用巨大,甚至會出現(xiàn)把 CPU 打滿的情況。
出現(xiàn)這個錯誤的時候,從監(jiān)控角度看起來可能是這個樣子:
請求量可能并不大
不停 GC,并切暫停時間很長
時不時的還有新的請求,但響應時間很高
CPU 利用率很高
畢竟還是堆內(nèi)存的問題,排查思路和上面的Java heap space沒什么區(qū)別。
Metaspace/PermGen
Metaspace 區(qū)域里,最主要的就是 Class 的元數(shù)據(jù)了,ClassLoader 加在的數(shù)據(jù),都會存儲在這里。
MetaSpace 初始值很小,默認是沒有上限的。當利用率超過40%(默認值 MinMetaspaceFreeRatio)會進行擴容,每次擴容一點點,擴容也不會直接 FullGC。
比較推薦的做法,是不給初始值,但限制最大值:
-XX:MaxMetaspaceSize=
不過還是得小心,這玩意滿了后果很嚴重,輕則 Full GC,重則 OOM:
java.lang.OutOfMemoryError: Metaspace
排查 MetaSpace 的問題,主要思路還是追蹤 Class Load數(shù)據(jù),比較主流的做法是:
通過 Arthas 之類的工具,查看 ClassLoader、loadClassess 的數(shù)據(jù),分析數(shù)量較多的 ClassLoader 或者 Class
打印每個 class 的加載日志:
-XX:+TraceClassLoading -XX:+TraceClassUnloading
下面介紹幾個常見的,可能導致 MetaSpace 增長的場景:
反射使用不當
JAVA 里的反射,性能是非常低的,以反射的對象必須得緩存起來。尤其是這個Method對象,如果在并發(fā)的場景下,每次都獲取新的 Method,然后 invoke 的話,用不了多久 MetaSpace 就給你打爆!
簡單的說,并發(fā)場景下,Method.invoke 會重復的動態(tài)創(chuàng)建 class,從而導致 MetaSpace 區(qū)域增長。
用反射時,盡可能的用成熟的工具類,Spring的、Apache的都可以。它們都內(nèi)置了reflection相關對象的緩存,功能又全性能又好,足以解決日常的使用需求。
一些 Agent 的 bug
一些 Java Agent,靜態(tài)的和運行時注入的都算。基于 Instrumentation 這套 API 做了各種增強,一會 load 一會 redefine 一會remove的,如果不小心出現(xiàn) BUG,也很容易生成大量動態(tài)的 class,從而導致 metaspace 打滿。
動態(tài)代理問題
像 Spring 的 AOP ,也是基于動態(tài)代理實現(xiàn)的,不管是 CgLib 還是 JDK Proxy,不管是 ASM 還是 ByteBuddy。最終的結果都逃不開動態(tài)創(chuàng)建、加載 Class,有這兩個操作,那 Metaspace 必定受影響。
Spring 的 Bean 默認是singleton的,如果配置為prototype,那么每次 getBean 就會創(chuàng)建新的代理對象,重新生成動態(tài)的 class、重新 define,MetaSpace 自然越來越大。
Code Cache
Code Cache 區(qū)域,存儲的是 JIT 編譯后的熱點代碼緩存(注意,編譯過程中使用的內(nèi)存不屬于 Code cache),也屬于 non heap 。
如果 Code cache 滿了,你可能會看到這么一條日志:
Server VM warning: CodeCache is full. Compiler has been disabled.
此時 JVM 會禁用 JIT 編譯,你的服務也會開始變慢。
Code Cache 的上限默認比較低,一般是240MB/128MB,不同平臺可能有所區(qū)別。
可以通過參數(shù)來調整 Code Cache 的上限:
-XX:ReservedCodeCacheSize=
只要盡量避免過大的Class、Method ,一般也不太會出現(xiàn)這個區(qū)域被打滿的問題,默認的 240MB/128MB 也足夠了
Direct Memory
Direct Memory 區(qū)域,一般稱之為直接內(nèi)存,很多涉及到 磁盤I/O ,Socket I/O 的場景,為了“Zero Copy”提升性能都會使用 Direct Memory。
就比如 Netty ,它真的是把 Direct Memory 玩出了花(有空寫一篇 Netty 內(nèi)存管理分析)……
使用 Direct Memory時,相當于直接繞過 JVM 內(nèi)存管理,調用 malloc() 函數(shù),體驗手動管理內(nèi)存的樂趣~
不過吧,這玩意使用比較危險,一般都配合 Unsafe 操作,一個不小心地址讀寫的地址錯誤,就能得到一個 JVM 給你的驚喜:
#
# A fatal error has been detected by the Java Runtime Environment:
#
# EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00007ffdbd5d19b4, pid=1208, tid=0x0000000000002ee0
#
# JRE version: Java(TM) SE Runtime Environment (8.0_301-b09) (build 1.8.0_301-b09)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.301-b09 mixed mode windows-amd64 compressed oops)
# Problematic frame:
# C [msvcr100.dll+0x119b4]
#
# No core dump will be written. Minidumps are not enabled by default on client versions of Windows
#
# If you would like to submit a bug report, please visit:
# http://bugreport.java.com/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
#

這個 Direct Memory 區(qū)域,默認是無上限的,但為了防止被 OS Kill,還是會限制一下,給個256MB或者更小的值,防止內(nèi)存無限增長:
-XX:MaxDirectMemorySize=
如果 Direct Memory 達到 MaxDirectMemorySize 并且無法釋放時,就會得到一個 OOM錯誤:
java.lang.OutOfMemoryError: Direct buffer memory
Linux OOM Killer
跳出 JVM 內(nèi)存管理之后,當 OS 內(nèi)存耗盡時,Linux 會選擇內(nèi)存占用最多,優(yōu)先級最低或者最不重要的進程殺死。
一般在容器里,主要的進程就是肯定是我們的 JVM ,一旦內(nèi)存滿,第一個殺的就是它,而且還是 kill -TERM (-9)信號,打你一個猝不及防。
如果 JVM 內(nèi)存參數(shù)配置合理,遠低于容器內(nèi)存限制,還是出現(xiàn)了 OOM Killer 的話,那么恭喜你,大概率是有什么 Native 內(nèi)存泄漏。
這部分內(nèi)存,JVM 它還管不了。
除了 JVM 內(nèi)部的 Native 泄漏 BUG 這種小概率事件外,大概率是你引用的第三方庫導致的。
這類問題排查起來非常麻煩,畢竟在 JVM 之外,只能靠一些原生的工具去分析。
而且吧,這種動不動就要 root 權限的工具,可是得領導審批申請權限的……排查成本真的很高

排查 Native 內(nèi)存的基本的思路是:
pmap 查看內(nèi)存地址映射,定位可疑內(nèi)存塊、分析內(nèi)存塊數(shù)據(jù)
strace 手動追蹤進程系統(tǒng)調用,分析內(nèi)存分配的系統(tǒng)調用鏈路
更換jemalloc/tcmalloc之類的內(nèi)存分配器(或者 async-profiler有個支持native 分析的分支)追蹤malloc的調用鏈路
目前最常見的 Native 內(nèi)存泄漏場景,是 JDK 的 Inflater/Deflater 這倆臥龍鳳雛,功能是提供 GZIP 的壓縮、解壓,在默認 glibc 的 malloc 實現(xiàn)下,很容易出現(xiàn)“內(nèi)存泄漏”。如果出現(xiàn) Native 內(nèi)存泄漏,可以先看看應用里有沒有 GZIP 相關操作,說不定有驚喜。
好了,各類風格的 OOM 都感受完了,到底哪一個更能打動你呢?
