数据库代码敲多了,看乏了吧!
带各位DBA看看你们的数据库运行在什么样的硬件上。
1、故障现象
事发时2号位置报警
登录ILO发现内存报警
查看详细信息
查看详细报警
2、关于ORACLE 服务器DIMM 备用
默认情况下在 Oracle ILOM 中启用 DIMM 备用。由 DIMM 提供的物理地址空间由于性能原因而交错。在完全配置的服务器中,支持 16 向和 15 向交错。这意味着,如果您从中启动系统或 PDomain 的服务器上的其中一个 CMIOU 上存在不可用的 DIMM,则该 CPU 节点仍可提供 15 个 DIMM 的物理地址空间而不必降至 8 向交错,8 向交错仅提供 8 个 DIMM 的物理地址空间。
此外,为了最大限度地提高系统可用性,如果在系统运行时诊断出一个 DIMM 发生了故障,则内存会通过将故障 DIMM 的内容分配到其他 15 个 DIMM 来动态地从 16 向交错切换到 15 向交错。要启用这种重新分配,平台固件必须为一个 DIMM 的内容保留空间。结果,尽管将 DIMM 配置为 16 向交错,但是系统只能使用 15 个 DIMM 的物理地址空间。
DIMM 备用在各个 CPU 节点(即 CMIOU)上启用。因此,在完全装载的 SPARC M7-8 服务器(包含两个 PDomain)上,每个 PDomain 中最多可以有 4 个 DIMM 发生故障,服务器上总共可以有 8 个 DIMM 发生故障。对于具有一个 PDomain 的 SPARC M7-8 服务器,每个 DCU 中最多可以有 8 个 DIMM 发生故障,而对于 SPARC M7-16 多主机服务器,每个 DCU 中最多可以有 4 个 DIMM 发生故障,因此服务器上总共可以有 16 个 DIMM 发生故障。
注 - DIMM 备用在完全填充的 CMIOU 上默认处于启用状态。DIMM 备用在半填充的 CMIOU 上未启用。如果系统在引导时或运行时必须取消配置某个 DIMM,则会将关联的故障视为不可维修故障,因此不会发出维修通知。所以,如果取消配置了某个 DIMM,则在另一个 DIMM 发生故障之前无需更换该 DIMM。如果系统必须在半填充的 CMIOU 上取消配置某个 DIMM,将会发出维修通知。
3、服务器关机下电
由于SPARC M7-8服务器CPU共线程数太多了,计算资源十分的充足,一般这种机器都做了虚拟化,solaris上一般叫ldom
我这里共2台物理主机,每1台上运行4个虚拟机,运行Oracle 12.2 的RAC。
先对虚拟机里的系统进行关机,再在物理机上查看虚拟机状态
root@solaris-up:~# ldm ls
NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 42m
ldm1 active -t---- 5000 320 896G 0.0% 0.0% 3m
ldm2 active -t---- 5001 224 448G 0.0% 0.0% 1m
ldm3 active -t---- 5002 192 384G 0.0% 0.0% 3m
ldm4 active -t---- 5003 80 210G 0.0% 0.0% 3m
执行命令关闭LDOM虚拟机
root@solaris-up:~# ldm stop ldm1 && ldm stop ldm2 && ldm stop ldm3 && ldm stop ldm4
Remote graceful shutdown or reboot capability is not available on ldm1
LDom ldm1 stopped
Remote graceful shutdown or reboot capability is not available on ldm2
LDom ldm2 stopped
Remote graceful shutdown or reboot capability is not available on ldm3
LDom ldm3 stopped
Remote graceful shutdown or reboot capability is not available on ldm4
LDom ldm4 stopped
确认状态都为bond。
root@solaris-up:~# ldm ls
NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 43m
ldm1 bound ------ 5000 320 896G
ldm2 bound ------ 5001 224 448G
ldm3 bound ------ 5002 192 384G
ldm4 bound ------ 5003 80 210G
准备关机更换内存
主机执行init0关机
登录到ILO管理系统里,关闭主机
-> stop /System
Are you sure you want to stop all of the configured hosts on the system (y/n) y
Stopping /System
stop:
/HOST0: Stopping
/HOST1: Stopping
4、拆下CMMIOU
根据之前的报警确认是CMMIOU2里的内存故障,这里可以在背面检查CMMIOU2的报警灯是否亮起,确认好位置
按下图的方法拆下CMMIOU
5、更换内存
找到、按下并按住 CMIOU 上的蓝色故障提醒按钮。
亮起的绿色故障提醒电源 LED 表示有电 可用于点亮有故障的 DIMM LED。任何有故障的 DIMM 都由 DIMM 插槽旁边的琥珀色 LED,直到您松开按钮。
确认主板上的内存位置和报错的位置一致,直接更换内存就行
现场进行更换
内存长这个样子,这一批用的时三星的DDR4内存条32G
6、设备开机
-> start /System
Are you sure you want to start all of the configured hosts on the system (y/n)? y
Starting /System
start:
/HOST0: Starting
/HOST1: Starting
等待设备加电自检,时间会很长,一般在1小时-1.5小时左右。当然也可以取巧把检测都关了,试过最快15分钟开机。。。。
最后打开虚拟机完成更换
怎么样,看完了是不是非常简单!!
参考
SPARC M8 and SPARC M7 Servers Administration Guide
SPARC M8 and SPARC M7 Servers Service Manual
Oracle® ILOM 配置和维护管理员指南
也欢迎关注我的公众号【徐sir的IT之路】,一起学习!
————————————————————————————
公众号:徐sir的IT之路
CSDN :https://blog.csdn.net/xxddxhyz?type=blog
墨天轮:https://www.modb.pro/u/3605
PGFANS:https://www.pgfans.cn/user/home?userId=5568
————————————————————————————