Oracle Server一台价值百万的服务器内存更换居然如此简单!

2024年 2月 4日 59.1k 0

数据库代码敲多了,看乏了吧!

带各位DBA看看你们的数据库运行在什么样的硬件上。

1、故障现象

事发时2号位置报警

Oracle Server一台价值百万的服务器内存更换居然如此简单!-1

登录ILO发现内存报警

Oracle Server一台价值百万的服务器内存更换居然如此简单!-2

查看详细信息

Oracle Server一台价值百万的服务器内存更换居然如此简单!-3

查看详细报警

Oracle Server一台价值百万的服务器内存更换居然如此简单!-4

2、关于ORACLE 服务器DIMM 备用

默认情况下在 Oracle ILOM 中启用 DIMM 备用。由 DIMM 提供的物理地址空间由于性能原因而交错。在完全配置的服务器中,支持 16 向和 15 向交错。这意味着,如果您从中启动系统或 PDomain 的服务器上的其中一个 CMIOU 上存在不可用的 DIMM,则该 CPU 节点仍可提供 15 个 DIMM 的物理地址空间而不必降至 8 向交错,8 向交错仅提供 8 个 DIMM 的物理地址空间。

此外,为了最大限度地提高系统可用性,如果在系统运行时诊断出一个 DIMM 发生了故障,则内存会通过将故障 DIMM 的内容分配到其他 15 个 DIMM 来动态地从 16 向交错切换到 15 向交错。要启用这种重新分配,平台固件必须为一个 DIMM 的内容保留空间。结果,尽管将 DIMM 配置为 16 向交错,但是系统只能使用 15 个 DIMM 的物理地址空间。

DIMM 备用在各个 CPU 节点(即 CMIOU)上启用。因此,在完全装载的 SPARC M7-8 服务器(包含两个 PDomain)上,每个 PDomain 中最多可以有 4 个 DIMM 发生故障,服务器上总共可以有 8 个 DIMM 发生故障。对于具有一个 PDomain 的 SPARC M7-8 服务器,每个 DCU 中最多可以有 8 个 DIMM 发生故障,而对于 SPARC M7-16 多主机服务器,每个 DCU 中最多可以有 4 个 DIMM 发生故障,因此服务器上总共可以有 16 个 DIMM 发生故障。

注 -  DIMM 备用在完全填充的 CMIOU 上默认处于启用状态。DIMM 备用在半填充的 CMIOU 上未启用。如果系统在引导时或运行时必须取消配置某个 DIMM,则会将关联的故障视为不可维修故障,因此不会发出维修通知。所以,如果取消配置了某个 DIMM,则在另一个 DIMM 发生故障之前无需更换该 DIMM。如果系统必须在半填充的 CMIOU 上取消配置某个 DIMM,将会发出维修通知。

3、服务器关机下电

由于SPARC M7-8服务器CPU共线程数太多了,计算资源十分的充足,一般这种机器都做了虚拟化,solaris上一般叫ldom

我这里共2台物理主机,每1台上运行4个虚拟机,运行Oracle 12.2 的RAC。

先对虚拟机里的系统进行关机,再在物理机上查看虚拟机状态

root@solaris-up:~# ldm ls

NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 42m
ldm1 active -t---- 5000 320 896G 0.0% 0.0% 3m
ldm2 active -t---- 5001 224 448G 0.0% 0.0% 1m
ldm3 active -t---- 5002 192 384G 0.0% 0.0% 3m
ldm4 active -t---- 5003 80 210G 0.0% 0.0% 3m

执行命令关闭LDOM虚拟机

root@solaris-up:~# ldm stop ldm1 && ldm stop ldm2 && ldm stop ldm3 && ldm stop ldm4
Remote graceful shutdown or reboot capability is not available on ldm1
LDom ldm1 stopped
Remote graceful shutdown or reboot capability is not available on ldm2
LDom ldm2 stopped
Remote graceful shutdown or reboot capability is not available on ldm3
LDom ldm3 stopped
Remote graceful shutdown or reboot capability is not available on ldm4
LDom ldm4 stopped

确认状态都为bond。

root@solaris-up:~# ldm ls

NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 43m
ldm1 bound ------ 5000 320 896G
ldm2 bound ------ 5001 224 448G
ldm3 bound ------ 5002 192 384G
ldm4 bound ------ 5003 80 210G

准备关机更换内存

主机执行init0关机

登录到ILO管理系统里,关闭主机

-> stop /System

Are you sure you want to stop all of the configured hosts on the system (y/n) y
Stopping /System
stop:
/HOST0: Stopping
/HOST1: Stopping

4、拆下CMMIOU

根据之前的报警确认是CMMIOU2里的内存故障,这里可以在背面检查CMMIOU2的报警灯是否亮起,确认好位置

Oracle Server一台价值百万的服务器内存更换居然如此简单!-5

按下图的方法拆下CMMIOU

Oracle Server一台价值百万的服务器内存更换居然如此简单!-6

5、更换内存

找到、按下并按住 CMIOU 上的蓝色故障提醒按钮。

亮起的绿色故障提醒电源 LED 表示有电 可用于点亮有故障的 DIMM LED。任何有故障的 DIMM 都由 DIMM 插槽旁边的琥珀色 LED,直到您松开按钮。

确认主板上的内存位置和报错的位置一致,直接更换内存就行

Oracle Server一台价值百万的服务器内存更换居然如此简单!-7

现场进行更换

Oracle Server一台价值百万的服务器内存更换居然如此简单!-8

内存长这个样子,这一批用的时三星的DDR4内存条32G

Oracle Server一台价值百万的服务器内存更换居然如此简单!-9

6、设备开机

-> start /System

Are you sure you want to start all of the configured hosts on the system (y/n)? y
Starting /System
start:
/HOST0: Starting
/HOST1: Starting

等待设备加电自检,时间会很长,一般在1小时-1.5小时左右。当然也可以取巧把检测都关了,试过最快15分钟开机。。。。

Oracle Server一台价值百万的服务器内存更换居然如此简单!-10

最后打开虚拟机完成更换

怎么样,看完了是不是非常简单!!

参考

SPARC M8 and SPARC M7 Servers Administration Guide

SPARC M8 and SPARC M7 Servers Service Manual

Oracle® ILOM 配置和维护管理员指南

也欢迎关注我的公众号【徐sir的IT之路】,一起学习!

————————————————————————————
公众号:徐sir的IT之路
CSDN :https://blog.csdn.net/xxddxhyz?type=blog
墨天轮:https://www.modb.pro/u/3605
PGFANS:https://www.pgfans.cn/user/home?userId=5568

————————————————————————————

相关文章

Oracle如何使用授予和撤销权限的语法和示例
Awesome Project: 探索 MatrixOrigin 云原生分布式数据库
下载丨66页PDF,云和恩墨技术通讯(2024年7月刊)
社区版oceanbase安装
Oracle 导出CSV工具-sqluldr2
ETL数据集成丨快速将MySQL数据迁移至Doris数据库

发布评论