数仓备份经验分享丨详解roach备份原理及问题处理套路-每日运维

本文分享自华为云社区《GaussDB（DWS）备份问题定位思路》，作者： yd_216390446。

前言

在数据库系统中，故障分为事务内部故障、系统故障、介质（磁盘）故障。对于事务内部故障和系统故障，使用日志自动恢复，不需要人工参与。但对于介质故障，需事先备份数据。

那么对于DWS来说是如何进行备份的呢？以及备份的过程中容易出现哪些问题，又怎样去排查、解决呢？

本文主要讲述了DWS备份工具roach的备份的原理，以及常见的问题处理套路和相关案例。

一、备份原理

全量备份

本文主要说的备份均为物理备份，即通过物理文件拷贝的方式对数据库进行备份，通过备份的数据文件和日志等文件，数据库可以进行完全恢复。

全量备份大致分几个阶段：备份行存、创建barrier点、备份xlog、备份列存。

备份行存：每个节点的主DN的数据，压缩存到rch文件中
创建barrier点：保证CNDN上的所有的事务处于一致的状态，恢复到这个点比较可靠，创建时会在XLog中写入一条记录。
备份xlog：备份startLSN和stopLSN之间的xlog
备份列存：由于列存不写xlog，因此放在最后，其中列存的cudesc文件已在备份行存阶段备份

整体流程如下图所示

容易出现的问题：

禁用xlog回收容易造成集群只读
延迟DDL也会引起集群只读

注意的点：

备份过程必须开启FPW
备份XLog拷贝start_lsn和end_lsn之间的xlog
备份列存的时候才会开启DDL

为什么要有延时DDL？

DDL操作：alter/truncate/autovacuum/drop/vacuum full/insert overwrite 这些会改变relfilenode的语句，DDL操作在拿到行列存清单后，如果用户进行drop操作，为了保证文件存在，所以要开启延迟DDL

增量备份

增量备份是基于某次备份进行的，在增量备份的命令中需要增加参数–prior-backup-key来表明是基于哪一次的备份。采用cbm文件识别增量页面。增量备份分为累计增量和差分增量两种

累计增量：每次备份都是基于同一个全量备份，备份的内容为全量备份与当前时刻的数据修改
差分增量：每次备份都是基于上一次的备份，备份的内容为两次备份之间的数据修改

增量备份的原理：

只拷贝上次并备份至今的数据修改部分，拷贝最小单位是block（8KB）
集群首次备份时，GaussDB内核会开启guc参数，enable_cbm_tracking=on，然后内核会持续记录数据库文件哪些block被修改过，记录在pg_cbm目录下。
增量备份时，查询cbm文件精准获得修改过的block存入内存，然后实施lz4/zlib压缩算法，写入备份介质。
增量恢复时，从增量备份集获取各个增量的block内容，对应修改数据库文件相应的block。
注意：该guc参数被关闭，或cbm文件被误删后，只能重新做全量备份，无法继续做增量

cbm文件是什么？

changed block map，对外提供数据页面的修改情况，并提供外部接口，根据cbm信息可以直接获取两次备份之间发生对于数据文件（行存、列存）的增量修改信息，并备份

备份对于系统的影响：

备份占用系统IO，业务慢
延迟DDL，导致xlog积压，磁盘空间上涨
增量备份易造成cbm文件积压，导致集群只读

二、问题定位套路

1）备份调用流程

DWS管控面/FI管控面-> GaussRoach.py/SyncDataToStby.py -> gs_roach内核

管控面调用roach的python脚本，python脚本进行解析参数，并调用内核侧的gs_roach命令。

2）备份失败需要查看日志路径：

HC/HCS/HCSO集群
- 管控面调用日志: 沙箱外 /home/Ruby/log/cloud-dws-deploy.log
- 管控面归档日志：沙箱外 /home/Ruby/archivelog
- 内核日志：沙箱内 /var/chroot/DWS/manager/backup/log
线下集群
- 内核日志：$GAUSSLOG/roach/agent
- Python侧日志：$GAUSSLOG/roach/controller
obs日志：
- 沙箱内 cd $GAUSSLOG/bin/gs_obs
- vi gs_obs.run.log查看对应的出错号此处注意的是obs日志需要到具体出错节点上查看

3）常用grep命令：

查看主节点ip: grep “Master Ip” roach_agent*.log

查看备份进度：grep “Setting agent state to” roach_agent*.log

查看备份时间：grep “Time taken” roach_agent*.log | grep “MASTER”

查看备份是否成功：grep “Backup operation SUCCESSFUL. Backup key” roach_agent*.log

查看roach_client ip：grep “Success to connected Remote Media” roach_agent*.log

查看线程分配情况：grep “allotInstanceForMyProc” roach_agent*.log

查看备份命令参数：grep “command_dict” roach_controller*.log

如果文件被打包，使用“zgrep命令查看即可”

4）备份关键日志

三、相关案例

（1）细粒度备份报错Failed to connect to gauss(xxx) via libqp

【问题描述】备份时agent报错Failed to connect to gauss(host:local , port: 25308) via libpq, ERROR: connection pointer is NULL

【排查方案】

由于报错连接时“host:25308”，因此查看对应时间节点的cn日志

cn报错 FATAL: “base/2278052” is not a valid data directory，怀疑是该数据库的问题

手动连接该数据库，发现也连不上

dn实例目录下查看该目录并不存在，为残留导致

drop database删除该数据库后备份成功

【问题原因】数据库存在残留文件

【规避方法】删除该数据库下的残留文件

（2）备份随机失败

【问题描述】NBU 问题导致备份随机失败

【排查方案】

查看controller日志，显示第一个报错的节点为xx.xx.xx.148

到上述节点查看agent日志，报错"Incomplete Message from Roach client"，发现日志指向media server，因此查看roach client日志

怀疑是nbu的问题，到对应的roach_client节点查看相应日志，通过grep “Success to connected Remote Media” roach_agent*.log，找到roach_client的ip地址，ssh到对应的roach_client节点，对应的报错为NBU内的报错，“call NbuManager::CreateFile error”，协同NBU侧的同事排查

【问题原因】一般情况下，上述情况是由于roach侧并发太大，导致NBU负载大，备份报错，但具体细节还得协调NBU同时排查

【规避措施】如果是并发问题，建议调大filesplit-size参数并减小parallel-process参数，重新拉起备份

什么情况下协同NBU同事排查？

一般roach_client日志出现xbsa 、或者create file等关键字时

（3）master和agent连接失败导致备份失败

【问题描述】master和agent连接失败导致备份失败

【涉及版本】

【排查方案】日志报错Master和agent连接失败，Agents did not connect in 600 seconds.

【问题原因】

HCS环境下只开放了55000和56000端口，端口未开放导致报错

【问题规避】

方案1：修改roach命令端口

方案2：开放对应端口

（4）细粒度备份找不到文件信息报错

【问题描述】细粒度备份时报错Error:Getting file info failed.

【涉及版本】

【排查方案】查看报错节点agent日志，出现Backup main fork of relation xxx failed, Error: Getting file info failed.

【问题原因】细粒度备份期间不支持DDL操作。细粒度备份前会生成所有表的MAP文件，记录涉及的表名、以及表的相关表等信息，所有涉及到修改relfilenode的DDL操作的语句都会导致备份失败，例如alter/truncate/autovacuum/drop/vacuum full/insert overwrite等

【问题规避】

方案1：备份和涉及到DDL的业务时间错开

方案2：适当减少每次备份涉及的表，可以降低由于DDL引起的备份失败率

（5）备份过程报错内存暂时不可用

【问题描述】备份dump元数据阶段报错 memory is tempararily unavailable.

【排查方案】

controller报错 memory is tempararily unavailable.

【问题原因】参数cpu-cores过大，导致内存慢

【问题规避】调小cpu-cores参数

（6）大集群下roach读取cms频繁导致集群状态不稳定

【问题描述】备份发起时，管控面显示集群状态异常，大集群下gs_roach启动时会频繁访问cms读取集群状态，导致cm_ctl查询集群状态不稳定

【涉及版本】821以下版本（不包括821版本）

【排查方案】

查询cm_server日志（roach启动之后的时间点）,报错"CmPqPutMessage return error ret=xx"

$GAUSSLOG/bin/cm_ctl日志,报错"send query msg to cm_server failed"

【问题原因】

在roach启动期间，频繁调用cm_ctl命令，而集群节点数多，并发数高，会导致页面集群状态监测的脚本执行cm_ctl失败

【问题规避】

升级到821版本

四、常见问题汇总

数仓备份经验分享丨详解roach备份原理及问题处理套路

全量备份

增量备份

1）备份调用流程

2）备份失败需要查看日志路径：

3）常用grep命令：

4）备份关键日志