记录一则因为ocp中meta库脏数据导致ocp前台部分页面404报错

数据运维 2024-05-07 三掌柜手机阅读

背景：

先介绍下我们ocp的情况，前期使用a,b,c三个节点搭建的1-1-1架构的ocp，后期因监控数据量太大，需要更大的存储空间原机器没有多余的磁盘。

就找了d,e,f三台存储容量更大的服务器，数据盘划分了15T，文件系统格式化为了ext4，预留了5T，我们把ocp从abc三台机器迁移到了def，随着监控数据的增长，发现15T的数据盘使用水位也很高，我们临时先把保留周期调小，尝试把预留的空间分配给数据目录。

发现ext4的文件格式不支持16T以上的空间，需要重新格式磁盘格式为xfs。

因为无法直接在线修改数据文件格式，就找了一台同规格机器，把meta库数据迁移过去，把d,e,f三台ocp机器上的metadb的docker释放掉，重新格式化。

问题：

因为替换机器只有一台，而且为了稳妥起见，我先尝试替换了一台ocp机器。因为数据量比较大，数据迁出迁入，每个节点大概要耗费3天，中间有些小问题，在这篇分享里暂且不提。因为ocp也有f5负载，所以替换过程中和替换后，ocp没有影响使用，但是检查告警发现有agent告警，因为agent在metadb的docker里替换回来之后agent没有安装，前台点重装agent直接报404报错了。