新炬运维避坑指南连载(九)

2024年 1月 11日 93.1k 0

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!  


  指南1分钟速览

  • OceanBase迁移过程中影响源生产库性能

  • OceanBase备份失败

  • OceanBase表存在clob字段,导致查询效率极低

  • Oracle lib文件权限只读导致补丁升级失败

  • Oracle IPV4+IPV6双栈改造实施后存在单节点vip资源无法正常开启

  • Oracle由于安全扫描程序命中bug导致数据库hang死

  • OGG因NFS系统故障hang死

  • kafka 部分topic分区出现leader是-1情况导致分区不可用

  • Gbase版本V9.5.2存在产品缺陷

  • gaussdb200数据库无法使用


OceanBase迁移过程中影响源生产库性能

1.1 现象

某国产化项目数据迁移阶段,在OMS配置数据源,其中Oracle侧数据库属性设置为主库+备库的模式;数据迁移过程中,抽数均从主库抽取,影响Oracle主库性能,影响生产业务。

1.2 处置方法

1)抽数过程中,实时监控主库.ADG库主机网络流量波动情况,发现ADG库主机网卡流量无变化,主库主机网卡流量增涨明显;

2)检查Oracle库连接会话及执行SQL,发现大量oms服务器主机的进程在连接oracle主库;

3)经ob研发分析,OMS主备模式下,从4.0.1版本引入的主优先的模式,全量是会自动去连主库导致。后来4.1修复了,优先选择备模式。

1.3 新炬建议

迁移过程中要多角度全方位对Oracle数据库及主机进行监控,避免产生影响。二

OceanBase备份失败

2.1 现象

某国产化项目功能验证阶段,ob数据库备份失败。

2.2 处置方案

1)检查日志里有current index file is empty的报错,这个报错一般都是nfs导致的;

2)检查nfs挂载参数,发现使用的nfs是V3版本,ob使用V3版本的nfs存在Bug,会导致备份失败;

3)协调一级云资源池厂家确认,目前一级云上的不同系统分配的不同型号的文件存储,其中浪潮nas只支持V3协议,华为nas可以支持V4.0协议;

4)紧急更换该项目nas型号,从浪潮换到华为后,数据库备份验证正常。

2.3 新炬建议

目前OceanBase数据库国产化项目很多都部署在集团一级云资源池环境中,一级云资源配置复杂,使用时需要进行完整的验证测试。三

OceanBase表存在clob字段,导致查询效率极低

3.1 现象

表存在clob字段,导致查询效率极低。

3.2 处置方案

1)执行select操作,在clob字段加了to_char,效率变快,不加to_char从业务侧看延迟在1.6秒 ,加了to_char延迟在100ms以内。

2)上传observer日志和obproxy日志提供研发。

3)在测试环境,改造带clob字段的表,将clob字段改为varchar2,to_char() clob字段就相当于将字段类型改为varchar2,执行效率迅速提高。

3.3 新炬建议

1)提前对陌生字段的表做相应测试。

2)对查询时间差别大的sql要引起重视。四

Oracle lib文件权限只读导致补丁升级失败

4.1 现象

lib文件权限只读导致补丁升级失败。

4.2 处置方案

在应用19.20.0.1230718PSU时出现报错,lib文件libclntsh.so.19.1为只读,无法writeable,检查发现该文件是上次打PSU(19.12.0.0.210720)时候,文件权限被设置成了444,34套库68个节点都是同样的情况,修改文件权限为755后,补丁应用成功。

4.3 新炬建议

1)打补丁前,检查是否有444的lib文件存在。

2)打完补丁后,检查是否有只读权限的lib文件。五

Oracle IPV4+IPV6双栈改造实施后,单节点vip资源无法正常开启

5.1 现象

故障数据库环境Oracle 19.7 rac,在配置ipv4+ipv6双栈网络后。总存在一个节点vip资源无法开启,导致问题节点监听无法拉起,实例无法对外提供服务。

实施的双栈方案通过,在网络配置中添加ipv6网络资源,修改vip(先remove再重新添加v4和modify v6ip),将新的网络添加到集群。扫描scan ip,激活v4和 IPv6,集群验证状态后,再次重启集群完成配置。

日志节选:

  • 停集群时显示日志:

Action for VIP aborted
Action for VIP aborted

CRS-2799: Failed to shut down resource 'ora.-01rs.vip' on '-01rs'
CRS-2799: Failed to shut down resource 'ora.scan1.vip' on '-01rs'
CRS-2794: Shutdown of Cluster Ready Services-managed resources on '-01rs' has failed
CRS-2675: Stop of 'ora.crsd' on '-01rs' failed
CRS-2678: '02rs.vip' on '-02rs' has experienced an unrecoverable failure
CRS-2799: Failed to shut down resource '02rs.vip' on '02rs'
CRS-2794: Shutdown of Cluster Ready Services-managed resources on '02rs' has failed
CRS-2675: Stop of 'ora.crsd' on '02rs' failed
CRS-4704: Shutdown of Clusterware failed on node -01rs.
CRS-4704: Shutdown of Clusterware failed on node -02rs.
CRS-4000: Command Stop failed, or completed with errors.

  • 查看日志有类似如下报错alert日志:

2023-10-27 16:01:05.530 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net2.network'.
2023-10-27 16:01:05.532 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net1.network'.
2023-10-27 16:01:06.257 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net1.network'.
2023-10-27 16:01:06.258 [CRSD(968678)]CRS-2769: Unable to failover resource 'ora.net2.network'.
2023-10-27 16:03:05.087 [ORAROOTAGENT(1089558)]CRS-5818: Aborted command 'check' for resource 'ora.scan1.vip'. Details at (:CRSAGF00113:) {0:8:2} in crsd_orarootagent_root.trc.
2023-10-27 16:03:05.087 [ORAROOTAGENT(1089558)]CRS-5818: Aborted command 'check' for resource 'ora.01rs.vip'. Details at (:CRSAGF00113:) {0:8:2} in crsd_orarootagent_root.trc.
2023-10-27 16:04:17.863 [ORAROOTAGENT(1093468)]CRS-8500: Oracle Clusterware ORAROOTAGENT process is starting with operating system process ID 1093468
2023-10-27 16:06:17.972 [ORAROOTAGENT(1093468)]CRS-5818: Aborted command 'check' for resource 'ora.-01rs.vip'. Details at (:CRSAGF00113:) {0:9:2} in crsd_orarootagent_root.trc.

  • 后来手动拉监听时alert日志报错:

Failed to check 2:0203 on bond0.2112
CRS-5005: IP Address: 2:0203 is already in use in the network
2023-11-03 10:51:09.962 :CLSDYNAM:3052320512: [ora.01rs.vip]{1:31596:55665} [start] ActiveAddr::publishSV6 IP address start/stop Exception: CRS-5005: IP Address: 2:0203 is already in use in the network

  • 最早在crsd_orarootagent_root_2.trc日志中对应停集群时就有对应的bug日志:

2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] Deleting ipv6 address '2204', on the interface name 'bond0.2112'
2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] sclsideladdrsv6 returned
2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] Failed to delete 2204 on bond0.2112
2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.-2rs.vip]{2:40767:13339} [stop] (null) category: -2, operation: ioctl, loc: SIOCDIFADDR, OS error: 99, other: failed to delete address
2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] VipActions::stopIpV6 }
2023-10-27 15:56:53.007 :CLSDYNAM:229943040: [ora.02rs.vip]{2:40767:13339} [stop] VipActions::stopIpV6 {

5.2 处置方案

在重启集群时发生故障,停集群执行时间明显比正常时间长,集群无法正常关闭。报Action for VIP aborted, CRS-2799: Failed to shut down resource 错误。查看alert日志有CRS-5818,CRS-2769报错。

使用-f强制关闭集群后重启集群出现现象----总存在一个节点vip无法正常开启,节点监听offline。

尝试手动拉起监听报CRS-5005: IP Address: 2409 is already in use in the network错误(vip)。

怀疑网络被占用,但再次重启集群节点故障状态可切换,原故障节点正常,原正常节点报相同故障。

查找相关资料,怀疑版本bug,联系原厂收集信息后确定为版本bug_32128969发生在modify ipv4 to ipv6之后,不能停止vip资源。官方回复在19.11以及之后版本修复。报错关键日志Failed to delete ipv6-vip on bond0.2112。

5.3 新炬建议

在实施此方案时一定要注意数据库版本信息,对于数据库版本低的不适用。六

Oracle由于安全扫描程序命中bug导致数据库hang死

6.1 现象

某核心库因安全扫描程序查询大量系统视图命中oracle 11g BUG,导致核心生产库直接hang死,严重影响系统业务。

6.2 处置过程

某核心生产数据库出现大量enq:SQ-contention.latch:sharedpool和rowcachelock,随着数据库活动会话的异常积压,导致核心库实例Hang,应用程序无法正常连接。现场DBA查杀会话后,数据库恢复正常。

1)从monilock日志初步分析,扫描程序用户通过JDBC程序在凌晨2点发起,在2点前发生少量rowcache objects的等待事件,在2点后此类等待事件增多。分析等待事件相关SQL发现这个扫描程序的逻辑是对数据库所有表进行全字段的抽样查询rownum

相关文章

Oracle如何使用授予和撤销权限的语法和示例
Awesome Project: 探索 MatrixOrigin 云原生分布式数据库
下载丨66页PDF,云和恩墨技术通讯(2024年7月刊)
社区版oceanbase安装
Oracle 导出CSV工具-sqluldr2
ETL数据集成丨快速将MySQL数据迁移至Doris数据库

发布评论