故障简述
在6月下午两点多收到通知数据库根目录满了,数据库一节点宕机。
问题分析过程
查看目录使用情况
2.2 查看了目录发现根目录百分之百,看根目录下里面的文件哪些最大
找出文件根目录下面1G以上的文件,发现 _cjq0_409334 trc 大小为400多G
使用echo `date` > _cjq0_409334 trc 对该文件置为空.
2.3 查看了根目录下面的文件,发现trace日志占的比较大,有400多G,然后进行清理
2.4 清理trace 文件,目录使用正常
2.5 查看了日志,发现以下错误日志提示与cjq进程有关,并且cjq trace 非常大
作业调度器(cjq) :负责将调度与执行系统中已定义好的job,完成一些预定义的工作
通过搜索MOS 发现与BUG 27579159 相符合(Doc ID 1347455.1)
3.故障结论
cjq 进程触发BUG 27579159 导致其进程的trace 文件(data181_cjq0_409334 trc)在短时间内涨到400G,耗尽根目录空间,导致实例不可用。
属于BUG 27579159
1、临时解决方法可以直接清理文件;
2、升级到19c
4.优化建议
1、建议升级到19C
2、短时间无法打补丁或升级的情况下,可以设置参数max_dump_file_size 的大小,该参数可以限制trc 文件的大小。目前把该参数设置大小设置为1G,防止数据库日志增长过快导致数据库宕机