JVM系统优化实践（22）：GC生产环境案例（五）

开发运维 2023-07-24 泡泡手机阅读

您好，这里是「码农镖局」掘金小站，欢迎您来，欢迎您再来～

除了Tomcat、Jetty，另一个常见的可能出现OOM的地方就是微服务架构下的一次RPC调用过程中。笔者曾经经历过的一次OOM就是基于Thrift框架封装出来的一个RPC框架导致的宕机。

01.RPC宕机.png

也就是当服务A更新后，服务B宕机了。

通过查看GC日志，发现是JVM堆抛出的OOM。打开内存快照，发现超大byte[]数组，而这个超大的byte[]数组是由RPC框架持有的。

02.RPC持有数组.png

初步判定原因是：服务A修改了Request类，但服务B未更新该类，还是旧版本，因此导致反序列化失败时RPC会开辟一个byte[]数组，默认大小是4G。

03.RPC持有数组.png

因此最终的解决方案也很简单：

1、服务B更新Request类；

2、将RPC默认byte[]数组大小调整为4M。

另一次事故是由马虎的开发工程师引起的。某个马虎的工程师用mybatis写的SQL语句在某些情况下允许不加where条件就可以执行，这导致一下子查出来上百万条数据，引发系统OOM。这种情况下，MAT工具对由Web容器（Tomcat/Jetty）或者RPC等底层框架所引发的OOM故障，用处并不大。但如果OOM主要是由于业务代码导致，那使用起来就简单得多。使用MAT工具定位问题的时候：

1、利用histogram功能占用内存最多的对象

2、找到占用内存过多的对象，并深入看看对象之间的持有关系

3、找到问题代码

与前面的RPC引发的OOM类似，有一个线上数据同步系统，专门从另一个系统同步数据，通过kafka来发送与消费数据。即使是这么简单的一个系统，也会不时地报一个OOM错误，且频率越来越高。这难道又是工程师的粗心引起的吗？

04.kafka.png