新炬运维避坑指南连载（九）-每日运维

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

指南1分钟速览

OceanBase迁移过程中影响源生产库性能
OceanBase备份失败
OceanBase表存在clob字段，导致查询效率极低
Oracle lib文件权限只读导致补丁升级失败
Oracle IPV4+IPV6双栈改造实施后存在单节点vip资源无法正常开启
Oracle由于安全扫描程序命中bug导致数据库hang死
OGG因NFS系统故障hang死
kafka 部分topic分区出现leader是-1情况导致分区不可用
Gbase版本V9.5.2存在产品缺陷
gaussdb200数据库无法使用

一
OceanBase迁移过程中影响源生产库性能

1.1 现象

某国产化项目数据迁移阶段，在OMS配置数据源，其中Oracle侧数据库属性设置为主库+备库的模式；数据迁移过程中，抽数均从主库抽取，影响Oracle主库性能，影响生产业务。

1.2 处置方法

1）抽数过程中，实时监控主库.ADG库主机网络流量波动情况，发现ADG库主机网卡流量无变化，主库主机网卡流量增涨明显；

2）检查Oracle库连接会话及执行SQL，发现大量oms服务器主机的进程在连接oracle主库；

3）经ob研发分析，OMS主备模式下，从4.0.1版本引入的主优先的模式，全量是会自动去连主库导致。后来4.1修复了，优先选择备模式。

1.3 新炬建议

迁移过程中要多角度全方位对Oracle数据库及主机进行监控，避免产生影响。二

OceanBase备份失败

2.1 现象

某国产化项目功能验证阶段，ob数据库备份失败。

2.2 处置方案

1）检查日志里有current index file is empty的报错，这个报错一般都是nfs导致的；

2）检查nfs挂载参数，发现使用的nfs是V3版本，ob使用V3版本的nfs存在Bug，会导致备份失败；

3）协调一级云资源池厂家确认，目前一级云上的不同系统分配的不同型号的文件存储，其中浪潮nas只支持V3协议，华为nas可以支持V4.0协议；

4）紧急更换该项目nas型号，从浪潮换到华为后，数据库备份验证正常。

2.3 新炬建议

目前OceanBase数据库国产化项目很多都部署在集团一级云资源池环境中，一级云资源配置复杂，使用时需要进行完整的验证测试。三

OceanBase表存在clob字段，导致查询效率极低

3.1 现象

表存在clob字段，导致查询效率极低。

3.2 处置方案

1）执行select操作，在clob字段加了to_char，效率变快，不加to_char从业务侧看延迟在1.6秒，加了to_char延迟在100ms以内。

2）上传observer日志和obproxy日志提供研发。

3）在测试环境，改造带clob字段的表，将clob字段改为varchar2,to_char() clob字段就相当于将字段类型改为varchar2，执行效率迅速提高。

3.3 新炬建议

1）提前对陌生字段的表做相应测试。

2）对查询时间差别大的sql要引起重视。四

Oracle lib文件权限只读导致补丁升级失败

4.1 现象

lib文件权限只读导致补丁升级失败。

4.2 处置方案

在应用19.20.0.1230718PSU时出现报错，lib文件libclntsh.so.19.1为只读，无法writeable，检查发现该文件是上次打PSU(19.12.0.0.210720)时候，文件权限被设置成了444，34套库68个节点都是同样的情况，修改文件权限为755后，补丁应用成功。

4.3 新炬建议

1）打补丁前，检查是否有444的lib文件存在。

2）打完补丁后，检查是否有只读权限的lib文件。五

Oracle IPV4+IPV6双栈改造实施后，单节点vip资源无法正常开启

5.1 现象

故障数据库环境Oracle 19.7 rac，在配置ipv4+ipv6双栈网络后。总存在一个节点vip资源无法开启，导致问题节点监听无法拉起，实例无法对外提供服务。

实施的双栈方案通过，在网络配置中添加ipv6网络资源，修改vip（先remove再重新添加v4和modify v6ip），将新的网络添加到集群。扫描scan ip,激活v4和 IPv6，集群验证状态后，再次重启集群完成配置。

日志节选：

停集群时显示日志：

Action for VIP aborted Action for VIP aborted

CRS-2799: Failed to shut down resource 'ora.-01rs.vip' on '-01rs' CRS-2799: Failed to shut down resource 'ora.scan1.vip' on '-01rs' CRS-2794: Shutdown of Cluster Ready Services-managed resources on '-01rs' has failed CRS-2675: Stop of 'ora.crsd' on '-01rs' failed CRS-2678: '02rs.vip' on '-02rs' has experienced an unrecoverable failure CRS-2799: Failed to shut down resource '02rs.vip' on '02rs' CRS-2794: Shutdown of Cluster Ready Services-managed resources on '02rs' has failed CRS-2675: Stop of 'ora.crsd' on '02rs' failed CRS-4704: Shutdown of Clusterware failed on node -01rs. CRS-4704: Shutdown of Clusterware failed on node -02rs. CRS-4000: Command Stop failed, or completed with errors.

查看日志有类似如下报错alert日志：

2023-10-27 16:01:05.530 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net2.network'. 2023-10-27 16:01:05.532 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net1.network'. 2023-10-27 16:01:06.257 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net1.network'. 2023-10-27 16:01:06.258 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net2.network'. 2023-10-27 16:03:05.087 [ORAROOTAGENT(1089558)]CRS-5818: Aborted command 'check' for resource 'ora.scan1.vip'. Details at (:CRSAGF00113:) {0:8:2} in crsd_orarootagent_root.trc. 2023-10-27 16:03:05.087 [ORAROOTAGENT(1089558)]CRS-5818: Aborted command 'check' for resource 'ora.01rs.vip'. Details at (:CRSAGF00113:) {0:8:2} in crsd_orarootagent_root.trc. 2023-10-27 16:04:17.863 [ORAROOTAGENT(1093468)]CRS-8500: Oracle Clusterware ORAROOTAGENT process is starting with operating system process ID 1093468 2023-10-27 16:06:17.972 [ORAROOTAGENT(1093468)]CRS-5818: Aborted command 'check' for resource 'ora.-01rs.vip'. Details at (:CRSAGF00113:) {0:9:2} in crsd_orarootagent_root.trc.

后来手动拉监听时alert日志报错：

Failed to check 2:0203 on bond0.2112 CRS-5005: IP Address: 2:0203 is already in use in the network 2023-11-03 10:51:09.962 :CLSDYNAM:3052320512: [ora.01rs.vip]{1:31596:55665} [start] ActiveAddr::publishSV6 IP address start/stop Exception: CRS-5005: IP Address: 2:0203 is already in use in the network

最早在crsd_orarootagent_root_2.trc日志中对应停集群时就有对应的bug日志：

2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] Deleting ipv6 address '2204', on the interface name 'bond0.2112' 2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] sclsideladdrsv6 returned 2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] Failed to delete 2204 on bond0.2112 2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.-2rs.vip]{2:40767:13339} [stop] (null) category: -2, operation: ioctl, loc: SIOCDIFADDR, OS error: 99, other: failed to delete address 2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] VipActions::stopIpV6 } 2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] VipActions::stopIpV6 {

5.2 处置方案

在重启集群时发生故障，停集群执行时间明显比正常时间长，集群无法正常关闭。报Action for VIP aborted， CRS-2799: Failed to shut down resource 错误。查看alert日志有CRS-5818，CRS-2769报错。

使用-f强制关闭集群后重启集群出现现象----总存在一个节点vip无法正常开启，节点监听offline。

尝试手动拉起监听报CRS-5005: IP Address: 2409 is already in use in the network错误（vip）。

怀疑网络被占用，但再次重启集群节点故障状态可切换，原故障节点正常，原正常节点报相同故障。

查找相关资料，怀疑版本bug，联系原厂收集信息后确定为版本bug_32128969发生在modify ipv4 to ipv6之后，不能停止vip资源。官方回复在19.11以及之后版本修复。报错关键日志Failed to delete ipv6-vip on bond0.2112。

5.3 新炬建议

在实施此方案时一定要注意数据库版本信息，对于数据库版本低的不适用。六

Oracle由于安全扫描程序命中bug导致数据库hang死

6.1 现象

某核心库因安全扫描程序查询大量系统视图命中oracle 11g BUG，导致核心生产库直接hang死，严重影响系统业务。

6.2 处置过程

某核心生产数据库出现大量enq：SQ-contention.latch：sharedpool和rowcachelock，随着数据库活动会话的异常积压，导致核心库实例Hang，应用程序无法正常连接。现场DBA查杀会话后，数据库恢复正常。

1）从monilock日志初步分析，扫描程序用户通过JDBC程序在凌晨2点发起，在2点前发生少量rowcache objects的等待事件，在2点后此类等待事件增多。分析等待事件相关SQL发现这个扫描程序的逻辑是对数据库所有表进行全字段的抽样查询rownum

新炬运维避坑指南连载（九）

相关文章

发布评论取消回复

大猫

开启3389端口命令，要怎么开启3389端口命令

win10优化驱动器怎么启动

MySQL DNS查找和主机缓存解读