Java11 的 G1 垃圾收集器

2023年 11月 16日 23.3k 0

大家好,我是【运维开发故事公众号】的 Java 程序员老郑。JVM 是我们从事 Java 项目和开发都需要具备的非常底层的基础知识。

首先我先抛出以下几个问题:

  • 很多服务需要过一段时间重启一次,如果不重启系统就会越来越慢?
  • 突然一个中间件挂了一段时间过后,但是一些不相关的服务越来越卡,后面 OOM?
  • 上线一个功能过后,CPU 就飙升到 100%,但是服务还是正常运行?
  • 服务的某一个 CPU 出现有规律的,周期性的尖刺该如何解决?

作为 5 年以上工作经验的技术人员,或多或少在系统维护,系统保障,系统调优遇到过上面的这几个场景,你可能是通过重启,调整一些 jvm 参数解决,如果大家需要深入的探究找到问题的原因,可以耐心看看下文我对 G1 的一些总结。

本文讲哪些东西?

  • 堆布局(以 Region 为基础划分:新生代(Eden 区、Survivor 区)、年老代、Humongous 区域)
  • 垃圾收集周期
  • GC 运作过程:初始标记、并发标记、最终标记、筛选回收
  • GC 类型:Minor GC、Full GC 、Mixed GC
  • CSet (年轻代需要收集的 Region 集合就是 CSet)
  • 跨代引用
  • 停顿预测模型
  • GC 日志分析

G1 内存堆布局

G1 的英文全称是 Garbagge First,是一个有分代,按照 Region 的方式进行内存布局的垃圾收集器。

上图,我将一些 Region 标明了 H,它代表Humongous,这表示这些 Region 存储的是巨大对象(humongous object,H-obj),即大小大于等于 region 一半的对象。H-obj 有如下几个特征:

  • H-obj 直接分配到了old gen,防止了反复拷贝移动。
  • H-obj 在 global concurrent marking 阶段的 cleanup 和 full GC阶段回收。
  • 在分配 H-obj 之前先检查是否超过 initiating heap occupancy percent 和 the marking threshold, 如果超过的话,就启动 global concurrent marking,为的是提早回收,防止 evacuation failures 和 full GC。

GC 类型

  • Young GC,垃圾收集范围:年轻代区域 + 大对象区。
  • Mixed GC,垃圾收集范围:年轻代区域 + 老年区 + 大对象区。
  • Full GC,垃圾收集范围:年轻代区域 + 老年区 + 大对象区 + 元空间。
  • Collection Set (收集区域)

    Collection Set 就是我们垃圾收集器的一个区域,在不同的垃圾回收阶段,会有不同的区域。

    • Young GC, 垃圾收集区域包括:年轻代区域 + 大对象区。
    • Mixed GC, 垃圾收集区域包括:年轻代区域 + 老年区 + 大对象区。

    跨代引用

    Young GC 主要是清理,新生代中的对象,我们知道整个堆空间包括老年代,新生代,我们在 Young GC 过程中会去找 GCRoots 然后判断对象是是否可达, 如果不可达,如果可达就标记。如果对于老年代中引用新生代的对象,我们如果要找出来就就需要对老年代进行全扫描,这样是不太现实的。所以 G1 通过记忆集的形式记录了老年代对新生代的引用。具体在 G1 中通过 CarTable 来实现记忆集。

    RSet(记忆集)

    记录了其它 Region 中的对象到 Region 的引用。RSet 的价值在于使得垃圾回收不需要扫描整个堆,能够快速定位到真正引用它的堆对象地址。ReSet 本身就是一个 Hash 表,存储在新生代的每个 Region 中。但是存储需要消耗空间,多的能达到百分之 20。因此G1对内存的空间要求较高(小空间没资本玩),空间越大性能越彪悍。

    CardTable (卡表)

    由于新生代GC时,需要扫描整个old区,效率非常低。所以old区就是用卡表的方式进行一次逻辑分区。一般一页卡表的大小是2的n次幂。每一个区域也是用Key,Value结构进行记录。每一区域记录为Key不重复,Value则记录这片区域的老年代对象与新生代对象是否存在引用关系,存在则标记为1,否则为0。记录完毕后把value为1的key作为ReSet的key进行记录,并且ReSet的value存储引用,从而提高跨代引用的查询效率。

    停顿预测模型

    所有的预测都是基于历史的拟合,HotSpot使用了基于方差与标准差的技术。参考:https://sdww2348115.github.io/jvm/g1/PausePredictionModel。

    G1 垃圾收集周期

    图片来源 Oracle 官网

    G1 有两个阶段,它会在这两个阶段往返,分别是 Young-only,Space Reclamation.

    • Young-only 包含一系列的操作,如果长期存活的对象会逐渐转移到 Old gen。
    • Space Reclamation G1 会递进地回收 Old gen 的空间,同时也处理 Young region。

    图是来自 Oracle 上对 GC 周期的描述,实心圆都表示一次 GC 停顿

    • 蓝色 Young-only。
    • 黄色 标记过程的停顿。
    • 红色 Mixed GC 停顿。

    在几次 GC 后,Old gen 的对象占有比超过了 InitiatingHeapOccupancyPercent (简称为IHOP,默认值为45,这个值是启动并发标记的阈值,当老年代使用内存占用堆内存的45%启动并发标记。如果该区域过大,可能会导致mixed gc跟不上内存分配的速度从而导致full gc ),gc 就会进入并发标记准备 (Concurrent Mark)。

    • G1 在每一次 Young 回收中都会查找活对象 (有引用的对象)。
    • G1 在 old region 并发查找存活对象。
    • 是 Concurrent Marking。
    • 可能花费很长时间。
    • 不会停止 Java 应用。
    • G1 没有活对象的引用信息是不能进行垃圾回收的。
    • Mixed GC 依赖 Concurrent Mark。

    回到 Full GC,从上面简单分析得出,Full GC 发生是没有足够的 free region,如果堆是足够大的,Mixed gc 没有回收足够的 old region,或者 concurrent mark 没法及时完成,都可能会导致 full gc。

    GC 日志分析

    下面是网上找的一个 GC 日志案例,解析如下(配合 G1 垃圾收集周期结合来看):

    [gc,start      ] GC(44265) Pause Young (Normal) (G1 Evacuation Pause)
    [gc,task       ] GC(44265) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44265)   Pre Evacuate Collection Set: 0.1ms
    [gc,phases     ] GC(44265)   Evacuate Collection Set: 101.8ms
    [gc,phases     ] GC(44265)   Post Evacuate Collection Set: 3.2ms
    [gc,phases     ] GC(44265)   Other: 2.7ms
    [gc,heap       ] GC(44265) Eden regions: 1850->0(1851)
    [gc,heap       ] GC(44265) Survivor regions: 70->69(240)
    [gc,heap       ] GC(44265) Old regions: 766->768
    [gc,heap       ] GC(44265) Humongous regions: 20->19
    [gc,metaspace  ] GC(44265) Metaspace: 193280K->193280K(1230848K)
    [gc            ] GC(44265) Pause Young (Normal) (G1 Evacuation Pause) 21642M->6843M(25600M) 107.561ms
    [gc,cpu        ] GC(44265) User=1.31s Sys=0.00s Real=0.11s
    
    [gc,start      ] GC(44266) Pause Young (Normal) (G1 Evacuation Pause)
    [gc,task       ] GC(44266) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44266)   Pre Evacuate Collection Set: 0.1ms
    [gc,phases     ] GC(44266)   Evacuate Collection Set: 99.8ms
    [gc,phases     ] GC(44266)   Post Evacuate Collection Set: 3.3ms
    [gc,phases     ] GC(44266)   Other: 2.7ms
    [gc,heap       ] GC(44266) Eden regions: 1851->0(1854)
    [gc,heap       ] GC(44266) Survivor regions: 69->66(240)
    [gc,heap       ] GC(44266) Old regions: 768->772
    [gc,heap       ] GC(44266) Humongous regions: 20->19
    [gc,metaspace  ] GC(44266) Metaspace: 193280K->193280K(1230848K)
    [gc            ] GC(44266) Pause Young (Normal) (G1 Evacuation Pause) 21659M->6848M(25600M) 105.713ms
    [gc,cpu        ] GC(44266) User=1.29s Sys=0.01s Real=0.10s
    
    [gc,start      ] GC(44267) Pause Young (Normal) (G1 Evacuation Pause)
    [gc,task       ] GC(44267) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44267)   Pre Evacuate Collection Set: 0.1ms  //初始标记,查找 gc root 
    [gc,phases     ] GC(44267)   Evacuate Collection Set: 89.8ms     //并发标记
    [gc,phases     ] GC(44267)   Post Evacuate Collection Set: 3.5ms //清理工作
    [gc,phases     ] GC(44267)   Other: 2.7ms
    [gc,heap       ] GC(44267) Eden regions: 1854->0(1856)
    [gc,heap       ] GC(44267) Survivor regions: 66->64(240)
    [gc,heap       ] GC(44267) Old regions: 772->775
    [gc,heap       ] GC(44267) Humongous regions: 20->19
    [gc,metaspace  ] GC(44267) Metaspace: 193280K->193280K(1230848K)
    [gc            ] GC(44267) Pause Young (Normal) (G1 Evacuation Pause) 21688M->6859M(25600M) 95.891ms
    [gc,cpu        ] GC(44267) User=1.16s Sys=0.00s Real=0.10s
    
    [gc,start      ] GC(44268) Pause Young (Normal) (G1 Evacuation Pause)                 // Young GC
    [gc,task       ] GC(44268) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44268)   Pre Evacuate Collection Set: 0.1ms
    [gc,phases     ] GC(44268)   Evacuate Collection Set: 100.5ms
    [gc,phases     ] GC(44268)   Post Evacuate Collection Set: 3.8ms
    [gc,phases     ] GC(44268)   Other: 2.8ms
    [gc,heap       ] GC(44268) Eden regions: 1856->0(1855)
    [gc,heap       ] GC(44268) Survivor regions: 64->65(240)
    [gc,heap       ] GC(44268) Old regions: 775->777
    [gc,heap       ] GC(44268) Humongous regions: 20->19
    [gc,metaspace  ] GC(44268) Metaspace: 193280K->193280K(1230848K)
    [gc            ] GC(44268) Pause Young (Normal) (G1 Evacuation Pause) 21715M->6876M(25600M) 107.037ms
    [gc,cpu        ] GC(44268) User=1.30s Sys=0.00s Real=0.11s
    
    [gc,start      ] GC(44269) Pause Young (Concurrent Start) (G1 Humongous Allocation)  // 并发阶段
    [gc,task       ] GC(44269) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44269)   Pre Evacuate Collection Set: 0.6ms
    [gc,phases     ] GC(44269)   Evacuate Collection Set: 90.9ms
    [gc,phases     ] GC(44269)   Post Evacuate Collection Set: 3.2ms
    [gc,phases     ] GC(44269)   Other: 2.9ms
    [gc,heap       ] GC(44269) Eden regions: 1519->0(1855)
    [gc,heap       ] GC(44269) Survivor regions: 65->65(240)
    [gc,heap       ] GC(44269) Old regions: 777->777
    [gc,heap       ] GC(44269) Humongous regions: 19->19
    [gc,metaspace  ] GC(44269) Metaspace: 193280K->193280K(1230848K)
    [gc            ] GC(44269) Pause Young (Concurrent Start) (G1 Humongous Allocation) 19024M->6883M(25600M) 97.391ms
    [gc,cpu        ] GC(44269) User=1.16s Sys=0.01s Real=0.10s
    
    [gc            ] GC(44270) Concurrent Cycle                                          // 完成 clearup
    [gc,marking    ] GC(44270) Concurrent Clear Claimed Marks
    [gc,marking    ] GC(44270) Concurrent Clear Claimed Marks 0.562ms
    [gc,marking    ] GC(44270) Concurrent Scan Root Regions
    [gc,marking    ] GC(44270) Concurrent Scan Root Regions 719.931ms
    [gc,marking    ] GC(44270) Concurrent Mark (280799.914s)
    [gc,marking    ] GC(44270) Concurrent Mark From Roots
    [gc,task       ] GC(44270) Using 3 workers of 3 for marking
    [gc,marking    ] GC(44270) Concurrent Mark From Roots 2268.905ms
    [gc,marking    ] GC(44270) Concurrent Preclean
    [gc,marking    ] GC(44270) Concurrent Preclean 3.078ms
    [gc,marking    ] GC(44270) Concurrent Mark (280799.914s, 280802.186s) 2272.068ms
    [gc,start      ] GC(44270) Pause Remark
    [gc,stringtable] GC(44270) Cleaned string and symbol table, strings: 87967 processed, 92 removed, symbols: 442773 processed, 13 removed
    [gc            ] GC(44270) Pause Remark 13740M->13740M(25600M) 32.599ms
    [gc,cpu        ] GC(44270) User=0.29s Sys=0.00s Real=0.04s
    [gc,marking    ] GC(44270) Concurrent Rebuild Remembered Sets            //重构记忆集
    [gc,marking    ] GC(44270) Concurrent Rebuild Remembered Sets 1906.792ms
    [gc,start      ] GC(44270) Pause Cleanup
    [gc            ] GC(44270) Pause Cleanup 18019M->18019M(25600M) 0.782ms
    [gc,cpu        ] GC(44270) User=0.00s Sys=0.01s Real=0.00s
    [gc,marking    ] GC(44270) Concurrent Cleanup for Next Mark
    [gc,marking    ] GC(44270) Concurrent Cleanup for Next Mark 25.530ms
    [gc            ] GC(44270) Concurrent Cycle 4963.833ms
    
    [gc,start      ] GC(44271) Pause Young (Prepare Mixed) (G1 Evacuation Pause)  // Space Reclamation 阶段了,多个 Mixed GC 会进行
    [gc,task       ] GC(44271) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44271)   Pre Evacuate Collection Set: 0.1ms
    [gc,phases     ] GC(44271)   Evacuate Collection Set: 102.6ms
    [gc,phases     ] GC(44271)   Post Evacuate Collection Set: 3.7ms
    [gc,phases     ] GC(44271)   Other: 3.9ms
    [gc,heap       ] GC(44271) Eden regions: 1855->0(98)
    [gc,heap       ] GC(44271) Survivor regions: 65->62(240)
    [gc,heap       ] GC(44271) Old regions: 777->778
    [gc,heap       ] GC(44271) Humongous regions: 21->19
    [gc,metaspace  ] GC(44271) Metaspace: 193271K->193271K(1230848K)
    [gc            ] GC(44271) Pause Young (Prepare Mixed) (G1 Evacuation Pause) 21739M->6869M(25600M) 110.034ms
    [gc,cpu        ] GC(44271) User=1.32s Sys=0.01s Real=0.10s
    
    [gc,start      ] GC(44272) Pause Young (Mixed) (G1 Evacuation Pause)
    [gc,task       ] GC(44272) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44272)   Pre Evacuate Collection Set: 0.4ms
    [gc,phases     ] GC(44272)   Evacuate Collection Set: 150.8ms
    [gc,phases     ] GC(44272)   Post Evacuate Collection Set: 3.2ms
    [gc,phases     ] GC(44272)   Other: 2.3ms
    [gc,heap       ] GC(44272) Eden regions: 98->0(149)
    [gc,heap       ] GC(44272) Survivor regions: 62->11(20)
    [gc,heap       ] GC(44272) Old regions: 778->547
    [gc,heap       ] GC(44272) Humongous regions: 19->19
    [gc,metaspace  ] GC(44272) Metaspace: 193271K->193271K(1230848K)
    [gc            ] GC(44272) Pause Young (Mixed) (G1 Evacuation Pause) 7653M->4605M(25600M) 156.486ms
    [gc,cpu        ] GC(44272) User=1.95s Sys=0.01s Real=0.15s
    [gc,start      ] GC(44273) Pause Young (Mixed) (G1 Evacuation Pause)
    [gc,task       ] GC(44273) Using 13 workers of 13 for evacuation
    [gc,phases     ] GC(44273)   Pre Evacuate Collection Set: 0.2ms
    [gc,phases     ] GC(44273)   Evacuate Collection Set: 122.9ms
    [gc,phases     ] GC(44273)   Post Evacuate Collection Set: 2.0ms
    [gc,phases     ] GC(44273)   Other: 3.1ms
    [gc,heap       ] GC(44273) Eden regions: 149->0(1900)
    [gc,heap       ] GC(44273) Survivor regions: 11->20(20)
    [gc,heap       ] GC(44273) Old regions: 547->520
    [gc,heap       ] GC(44273) Humongous regions: 19->19
    [gc,metaspace  ] GC(44273) Metaspace: 193271K->193271K(1230848K)
    [gc            ] GC(44273) Pause Young (Mixed) (G1 Evacuation Pause) 5797M->4468M(25600M) 128.036ms
    [gc,cpu        ] GC(44273) User=1.57s Sys=0.01s Real=0.12s

    上面是连续几次 GC 的日志,可以对照着 GC 周期来看。

    • GC (44265) 是一次普通的 Young GC里面信息有各种 Region 的变化。

    这里简单说一下 humongous 对象的处理,humongous 对象在 G1 中是被特殊对待的,G1 只决定它们是否生存,回收他们占用的空间,从不会移动它们。

    • Young-Only 阶段,humongous regions 可能会被回收。
    • Space-Reclamation,humongous regions 可能会被回收。
    • GC (44269) 开始进入并发阶段。
    • GC (44270) 完成了 Cleanup,紧接着一个 Prepare Mixed GC (44271) 的垃圾收集,对应周期虚线右边的蓝实心圆。
    • GC (44272) 之后就是 Space Reclamation 阶段了,多个 Mixed GC 会进行。

    JVM 性能监控工具

    我们可以通过以下几种工具辅助分析 JVM 性能瓶颈:

    综合组件:

    • VisualVM
    • Glowroot
    • https://arthas.aliyun.com/。

    thread dump 分析:

    • https://fastthread.io/。

    gc 日志分析:

    • https://gceasy.io/gc-index.jsp。

    heap dump 分析:

    • https://www.ibm.com/support/pages/ibm-heapanalyzer。
    • https://projects.eclipse.org/projects/tools.mat。

    参考资料

    【GC 停顿预测模型】

    • http://www.narihiro.info/g1gc-impl-book/scheduling.html。
    • https://sdww2348115.github.io/jvm/g1/PausePredictionModel。

    【垃圾收集器执行过程】

    • https://bugs.openjdk.org/browse/JDK-8295118。
    • https://my.oschina.net/u/4273516/blog/4550072。

    【跨代引用】

    • https://blog.csdn.net/weixin_47184173/article/details/113627337。

    【空闲时自动将Java堆内存返回给操作系统】。

    • https://openjdk.org/jeps/346

    【其他】

    • https://docs.oracle.com/javacomponents/jmc-5-4/jfr-runtime-guide/comline.htm#JFRUH197。
    • https://www.redhat.com/en/blog/part-1-introduction-g1-garbage-collector。
    • https://blog.csdn.net/qq_16500963/article/details/132133125。
    • http://cs.williams.edu/~dbarowy/cs334s18/assets/p37-detlefs.pdf。
    • https://tech.meituan.com/2016/09/23/g1.html。
    • https://hllvm-group.iteye.com/group/topic/44381。

    相关文章

    JavaScript2024新功能:Object.groupBy、正则表达式v标志
    PHP trim 函数对多字节字符的使用和限制
    新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
    使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
    为React 19做准备:WordPress 6.6用户指南
    如何删除WordPress中的所有评论

    发布评论