继续聊聊云平台运维规范

2023年 9月 28日 65.0k 0

4.5 云平台监控体系

云平台监控体系主要依托于云平台自身所提供的一套全面的云计算监控解决方案,可以帮助企业和个人对云端资源进行实时监控和管理。该监控体系由以下三个部分组成:

基础监控:云平台提供了一套全面的基础监控服务,覆盖了云计算资源的 CPU 使用率、网络流量、磁盘 I/O、负载均衡等多个指标,可以帮助用户实时了解云资源的状态,及时发现和解决问题。

应用监控:云平台还提供了一套应用监控服务,可以帮助用户对应用程序进行监控和诊断。该服务可以监控应用程序的性能、错误、日志等多个指标,并提供了丰富的分析和报告工具,帮助用户快速定位和解决问题。

业务监控:云平台还提供了一套业务监控服务,可以帮助用户对业务进行监控和管理。该服务可以监控业务的关键指标,例如用户活跃度、订单量、交易额等,同时还可以支持自定义指标和报警规则,帮助用户及时发现和解决业务问题。

总体来说,云平台的监控体系是一个非常全面和强大的监控解决方案,可以帮助用户全面了解云资源的状态,及时发现和解决问题,提高系统的稳定性和可靠性。其中基础监控是所有系统所必备的监控要求,在此之上可以根据业务系统的实际情况来考虑应用监控与业务监控的进一步拓展,故本文档将主要围绕基础监控展开。

4.5.1 监控对象

云平台监控体系的主要监控对象包括云服务器、云数据库、云存储、云网络、云安全等方面。这些对象的监控可以帮助云平台管理员及时发现潜在的问题,做出相应的处理措施,保障云平台的稳定运行。

目前云平台所涉及的监控对象主要包括但不限于:云服务器、云数据库、对象存储、云数据库MongoDB、云数据库Redis、云数据库PostgreSQL、Elasticsearch集群、负载均衡等。

4.5.2 监控工具

云平台提供了多个监控工具,以帮助用户对阿里云服务进行监控和管理,常用的监控工具包括:

云监控:可以监控云服务器、云数据库、云存储、负载均衡、函数计算、消息服务MQ、容器服务等云服务的运行状态和性能指标,并支持自定义监控指标和自定义报警规则。

日志服务:可以收集和分析云服务器、容器、Web应用程序等多个应用程序的日志,以便进行故障排查和性能分析。

云审计:可以对云账号的操作进行审计和监控,并提供实时告警和日志查询功能,以保障账号安全和合规性。

除了上述云平台所自带的监控工具意外,还可以辅助使用zabbix、prometheus等监控工具来帮助进行平台所无法实现的指标监控。

4.5.3 监控内容

云平台监控体系的监控内容包括但不限于:资源状态监控、系统性能监控、日志监控、安全监控、用户行为监控等。这些内容可以全面地反映云平台的运行状态,帮助管理员及时发现异常情况,提升云平台的安全性和稳定性。

具体监控项如下:

云服务器:

监控内容

监控工具

监控内容解释

触发器

磁盘利用率>95%

云监控

磁盘利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

CPU利用率>95%

云监控

CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

内存利用率>95%

云监控

内存利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

外网出带宽使用率>95%

云监控

外网出带宽使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

CPU一分钟平均负载>5

云监控

CPU一分钟平均负载

统计粒度1分钟,连续5次满足条件则2小时告警一次

zabbix_agent 持续5分钟未采集到数据

Zabbix

Zabbix agent连通性

统计粒度1分钟,连续5次满足条件则2小时告警一次

服务器发生重启

Zabbix

服务器发生重启

统计粒度1分钟,system.uptime.change值85%

云监控

磁盘利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

CPU利用率>85%

云监控

CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

内存利用率>85%

云监控

内存利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

主从延迟时间>5S

云监控

主从延迟时间

统计粒度1分钟,连续5次满足条件则2小时告警一次

对象存储:

监控内容

监控工具

监控内容解释

触发器

4xx状态码>50次

云监控

4xx状态码

统计粒度1分钟,连续5次满足条件则2小时告警一次

5xx状态码>50次

云监控

5xx状态码

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务:

监控内容

监控工具

监控内容解释

触发器

容器服务Pod数量环比波动20%

云监控

容器服务Pod数量环比波动

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群PVC云盘使用率大于90%

云监控

容器服务集群PVC云盘使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群中容器内存使用率大于90%

云监控

容器服务集群中容器内存使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群中容器CPU使用率大于90%

云监控

容器服务集群中容器CPU使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群发现状态异常Pod

云监控

容器服务集群发现状态异常Pod

状态异常的Pod数 > 1个,连续5次满足条件则2小时告警一次

容器服务集群节点Pod重启次数大于3次

云监控

容器服务集群节点Pod重启次数

Pod重启次数 > 3次,连续5次满足条件则2小时告警一次

容器服务集群节点内存使用率大于90%

云监控

容器服务集群节点内存使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群节点CPU使用率大于90%

云监控

容器服务集群节点CPU使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群内存使用率大于90%

云监控

容器服务集群内存使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群CPU使用率大于90%

云监控

容器服务集群CPU使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

容器服务集群Node状态异常

云监控

容器服务集群Node状态

统计粒度1分钟,连续5次满足条件则2小时告警一次

消息服务Kafka:

监控内容

监控工具

监控内容解释

触发器

磁盘使用百分比>90%

云监控

磁盘使用百分比

统计粒度1分钟,连续5次满足条件则2小时告警一次

实例连接数百分比>90%

云监控

实例连接数百分比

统计粒度1分钟,连续5次满足条件则2小时告警一次

实例生产带宽百分比>90%

云监控

实例生产带宽百分比

统计粒度1分钟,连续5次满足条件则2小时告警一次

实例消费带宽百分比>90%

云监控

实例消费带宽百分比

统计粒度1分钟,连续5次满足条件则2小时告警一次

云数据库MongoDB:

监控内容

监控工具

监控内容解释

触发器

磁盘利用率>90%

云监控

磁盘利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

CPU利用率>90%

云监控

CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

连接使用率>90%

云监控

连接使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

内存使用率>90%

云监控

内存使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

云数据库Redis:

监控内容

监控工具

监控内容解释

触发器

CPU利用率>90%

云监控

CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

内存利用率>90%

云监控

内存利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

出流量使用率>90%

云监控

出流量使用率使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

连接使用率>90%

云监控

连接使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

节点CPU利用率>90%

云监控

节点CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

节点内存利用率>90%

云监控

节点内存利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

云数据库PostgreSQL:

监控内容

监控工具

监控内容解释

触发器

存储空间使用率>90%

云监控

存储空间使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

CPU利用率>90%

云监控

CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

内存利用率>90%

云监控

内存利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

Elasticsearch集群:

监控内容

监控工具

监控内容解释

触发器

最大磁盘使用率>90%

云监控

最大磁盘使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

最大CPU利用率>90%

云监控

最大CPU利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

最大内存利用率>90%

云监控

最大内存利用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

平均JVM内存使用率>95%

云监控

平均JVM内存使用率

统计粒度1分钟,连续5次满足条件则2小时告警一次

负载均衡:

监控内容

监控工具

监控内容解释

触发器

服务器端口状态异常

云监控

服务器端口状态异常

统计粒度1分钟,连续5次满足条件则2小时告警一次

4.6 备份与恢复

备份是数据安全保护的一个重要措施。备份可以帮助防止数据丢失、误删除、系统故障等问题,而备份恢复策略可以确保在出现问题时能够快速恢复数据和系统运行。

具体来说,备份恢复策略可以帮助防止以下问题:

数据丢失:防止因为意外事件导致数据丢失,比如硬件故障、网络中断、自然灾害等。

误删除:防止因为人为操作失误而删除了重要数据。

系统故障:防止因为软件或系统故障导致数据无法访问或使用。

云平台的备份恢复策略通常包括定期备份、多地备份、多版本备份、紧急备份等,可以根据用户的需求和实际情况进行配置。这样可以保证数据的安全性和可用性,让用户更加放心地使用云服务。

4.6.1 数据文件备份

云平台提供了快照服务,用户可以使用快照对云盘、数据库等资源进行数据备份。阿里云的快照服务支持定期备份、手动备份、增量备份等多种备份方式,可以在用户数据发生变化时,仅备份变化的部分,从而减少备份所需时间和存储空间。同时,阿里云快照还提供了多版本备份和快照恢复功能,让用户可以方便地对历史数据进行管理和恢复,提高数据可靠性和恢复能力。此外,快照还可以用于数据迁移和灾难恢复,在数据中心或云区域遭受自然灾害、硬件故障或其他灾难性事件时,可以通过恢复快照来快速恢复数据和系统,确保业务的连续性。综合而言,阿里云的快照服务为用户提供了可靠、高效的数据备份和恢复解决方案,可以有效保护用户数据安全,提高业务连续性和可用性。

生产环境:

适用范围

所有数据盘上存放有应用数据的云服务器

备份方式

设置自动快照策略,对数据盘进行快照

频率

每1天1次

开始时间

01:00

保存时长

2周

* 快照对服务器性能有所影响,建议根据业务系统的实际使用情况在业务低峰期进行备份,通常是在每日凌晨1点的业务低峰时段执行;

测试环境:

适用范围

所有数据盘上存放有应用数据的云服务器

备份方式

设置自动快照策略,对数据盘进行快照

频率

每1天1次

开始时间

01:00

保存时长

1周

4.6.2 数据库备份

云平台的云数据库备份提供了多种备份方式,包括手动备份、自动备份和增量备份等,以保护数据库数据的安全性和完整性。用户可以根据自己的需求和场景选择合适的备份方式,同时支持多版本备份和数据恢复功能,方便用户对历史数据进行管理和恢复,保证数据库数据的可靠性和恢复能力。此外,云平台的云数据库备份采用高可靠、高可用的架构,保证备份的稳定性和可用性,同时提供灾备、容灾等功能,以确保数据的连续性和可用性。综合而言,云平台的云数据库备份提供了完善的备份策略和功能,可以为用户提供高效、安全的数据库备份和恢复解决方案。

生产环境:

备份类型

开始时间

备份频率

保存时长

快照备份

01:00

每天

14天

日志备份

01:00

每天

14天

测试环境:

备份类型

开始时间

备份频率

保存时长

快照备份

01:00

每天

7天

日志备份

01:00

每天

7天

4.6.3 HBR备份

阿里云上有统一灾备平台:混合云备份HBR(Hybrid Backup Recovery) 。HBR集成了阿里云ECS整机、ECS数据库、文件系统、NAS、OSS以及自建机房内的文件、数据库、虚拟机、大规模NAS等提供备份、容灾保护以及策略化归档管理功能,是一个简单易用、敏捷高效、安全可靠的公共云数据管理服务,云平台备份策略多是在HBR上进行统一管理的。

SQL Server数据库备份:

备份类型

开始时间

备份频率

保存时长

全量备份

22:00

每周六

3个月

增量备份

00:00

每天

3个月

ECS文件备份:

备份类型

开始时间

备份频率

保存时长

指定目录备份

/

每周一次

1个月

ECS整机备份:

备份类型

开始时间

备份频率

保存时长

策略1

00:00

每周

30天

策略2

00:00

每天

7天

OSS备份:

备份类型

开始时间

备份频率

保存时长

整个Bucket

00:00

每天

7天

NAS备份:

备份类型

开始时间

备份频率

保存时长

策略1

00:00

每周

30天

策略2

00:00

每天

7天

4.6.4 备份管理

4.6.4.1 确认备份策略

在系统上线后,系统及其中的数据是非常宝贵和敏感的。如果在不确定备份策略的情况下,出现系统故障、磁盘损坏、数据损坏等情况,就会严重影响业务稳定性和数据安全性。因此,云上系统在上线前,用明确的备份策略确保系统和数据安全是非常必要的。

备份策略以下表为例:

产品

环境

备份策略

备注

CVM

容器集群

不备份

vpn-ldap-keyclock

每周六、周一,23:00创建,保留15天

Mysql

prd

每天1备,保留30天

dev

每天1备,保留7天

PostgreSQL

prd

每天1备,保留30天

dev

每天1备,保留7天

Redis

prd

每天1备,保留7天

dev

每天1备,保留7天

MongoDB

prd

每天1备,保留7天

dev

每天1备,保留7天

ES

prd

每天1备,保留7天

Clickhouse

prd

每天1备,保留7天

COS

prd

暂时只开启版本控制,不开启存储桶复制

4.6.4.2 备份回顾

由于备份会在一定的时间间隔下进行,因此备份的数据可能会被篡改或者遗漏,会导致备份的数据不完整或丢失;备份过程也可能发生各种异常情况,例如目标磁盘空间不足、备份介质损坏或故障等等,而这些异常情况会导致备份失败。

通过定期检查备份成功率,可以发现备份数据是否完整和准确,发现潜在的备份异常情况,测试备份恢复过程的可行性和可靠性,并进一步确保备份策略的有效性。最终达到保证数据安全性和业务连续性的目的。

4.6.4.3 备份恢复演练

备份恢复是备份的最终目标,为了检查备份成功率可以测试备份恢复过程的可行性和可靠性,以确保在恢复过程中没有遗漏,需要进定期的备份恢复演练,并通过备份恢复演练达到以下目的:

  • 验证备份方案:备份恢复演习是验证备份方案是否正确和有效的最佳方式。通过实际演练,可以发现潜在的问题和漏洞,并及时修复。
  • ·备份恢复效率:实际演练可以帮助企业测试备份和恢复流程的效率,并及时发现和解决流程中的瓶颈和短板,提高备份恢复的效率。
  •  避免数据丢失:实际演习有助于验证数据恢复的完整性,以及数据丢失的可能性,从而帮助企业采取必要的措施防止数据丢失。
  • 降低业务风险:恢复演习可以帮助企业更好地了解备份运作流程以及在实际灾难发生时该如何恢复数据。这将有助于企业在发生意外情况时,快速、正确地响应并保持业务连续性,降低业务风险。

提高员工技能:经过实际演习的员工,可以更加熟练的操作备份和恢复流程,提高员工的技能水平和工作效率。

备份恢复演练过程如下图,需提前准备“演练计划与资源清单”与“演练计划与记录”。

图片图片

4.7 漏洞与补丁管理

阿里云漏洞和补丁管理规范遵循以下步骤:

漏洞扫描:定期对阿里云上的系统、应用程序等进行漏洞扫描,确保系统的安全性。

漏洞评估:对扫描出的漏洞进行评估,确定漏洞的危害程度,以及对系统的影响。

漏洞修复:根据漏洞评估结果,及时修复已经发现的漏洞。对于无法立即修复的漏洞,可以采取其他安全措施,例如禁用相关服务或端口等。

补丁管理:及时安装阿里云提供的安全补丁,以确保系统的安全性。阿里云会定期发布安全补丁,用户需要及时查看并安装。

自动化管理:建立自动化的漏洞和补丁管理系统,确保及时发现并修复漏洞,以及自动安装补丁。

日志监控:建立日志监控机制,及时发现异常,以便及时采取措施。

安全培训:对相关人员进行安全培训,提高他们的安全意识和技能,以确保系统的安全性。

总之,阿里云漏洞和补丁管理规范需要建立完善的管理流程和安全措施,定期进行漏洞扫描和评估,并及时修复漏洞和安装补丁,以确保系统的安全性。同时,建立自动化管理系统和日志监控机制,加强安全培训,也是非常重要的措施。

4.8 系统巡检

阿里云系统巡检规范遵循以下步骤:

确认巡检范围:明确巡检的对象、范围和时间,包括云服务器、云数据库、云存储等。

确认巡检内容:根据巡检范围确定巡检的内容,如系统状态、资源使用率、服务可用性、安全漏洞等。

巡检工具:选择合适的工具进行巡检,如云监控、阿里云安全中心等,也可以使用第三方的巡检工具。

巡检频率:根据业务需求和实际情况,确定巡检频率,建议进行定期巡检,以保障系统的稳定性和安全性。

巡检报告:将巡检结果记录在巡检报告中,包括问题描述、严重程度、建议措施等,并及时通知相关人员和部门。

问题解决:对巡检中发现的问题,根据其严重程度及时采取相应措施,如修复漏洞、调整资源配置等,确保系统的稳定性和安全性。

定期复查:定期复查巡检报告中的问题,确保问题得到彻底解决,并对巡检工作进行总结和改进。

总之,阿里云系统巡检规范需要建立完善的巡检流程和规范,包括确认巡检范围和内容、选择合适的巡检工具、确定巡检频率、记录巡检结果、解决问题和定期复查等。巡检的目的是确保系统的稳定性和安全性,提高系统的可靠性和可用性,对于运维工作来说非常重要。

4.9 费用管理

备份是数据安全保护的一个重要措施。备份可以帮助防止数据丢失、误删除、系统故障等问题,而备份恢复策略可以确保在出现问题时能够快速恢复数据和系统运行。

具体来说,备份恢复策略可以帮助防止以下问题:

数据丢失:防止因为意外事件导致数据丢失,比如硬件故障、网络中断、自然灾害等。

误删除:防止因为人为操作失误而删除了重要数据。

系统故障:防止因为软件或系统故障导致数据无法访问或使用。

云平台的备份恢复策略通常包括定期备份、多地备份、多版本备份、紧急备份等,可以根据用户的需求和实际情况进行配置。这样可以保证数据的安全性和可用性,让用户更加放心地使用云服务。

4.9.1 费用预算管理

在使用云平台服务之前,需要确定一个费用预算,以避免出现超出预算的情况。并以此为基础,综合评估此业务系统的计算、存储、网络、数据库等云资源配置是否合理,确保费用的合理性和可控性。

4.9.2 费用核对和审计

定期对阿里云的费用订单进行核对和审计,以确保费用的正确性和合规性。如果发现异常的费用,需要及时进行调查和处理。

4.9.3 费用分配和归集

根据业务需求和费用结构,对云平台的费用进行分配和归集,以便更好地管理和控制费用。

4.9.4 费用监控和预警

通过阿里云的监控系统,对费用进行实时监控和预警,及时发现并处理费用异常情况,确保费用的合理性和控制。

4.9.5 费用节约与优化

对云平台的服务和资源进行优化,以减少不必要的费用支出。例如使用自动化工具和人工定期巡检,优化实例规格和配置等。可以根据监控数据来制定针对性的优化方案,如修改实例规格、关闭闲置实例、使用按需计费等,以此来优化云计算资源的配置,提升资源利用率并降低不必要的云费用。

云平台费用管理的目的是确保费用的合理性和控制,避免不必要的费用支出,同时提高业务效率和运营效益。

4.10 运维服务流程

4.10.1 监控事件响应流程

在基础运维服务过程中,依照如下监控事件响应流程提供服务:

云运维工程师通过现有监控体系,在接收到系统异常告警的时候,首先寻找和排查告警内容的影响和范围,判断系统异常、应用异常或云平台相关异常类型后,进行对应的处理。

1) 系统异常处理

· 系统进程、主机名、密码更改等状态异常处理。

· cpu、磁盘、内存、网卡状态异常处理。

· 中间件、服务进程、相应服务状态异常处理。

· 通过脚本扩展的自定义的监控项状态异常处理。

2) 应用异常处理

· 根据监控结果对应用的异常做应急响应与异常处理。

· 如若无法处理,及时通知用户及应用供应商,并协助处理。

3) 云平台资源相关异常处理

· 宕机迁移、数据库异常及其它云服务等相关事故异常处理。

· 云服务相关升级期间导致服务异常中断异常事故处理。

当用户出现核心业务异常不能正常访问、服务器宕机等灾难性的事故时,云运维工程师在默认情况下,会以7*24的方式通知用户和相关方,及时同步事故状态和事故处理情况。低于此类的事故级别,云运维工程师会以消息推送的方式通知。具体的通知的时间,通知的方式可以由双方协商确定。

4.10.2 变更流程

资源的变更流程是指在使用云服务基础设置过程中,由于不同原因需要对资源进行调整或修改时,需要遵循一定的变更流程来保证变更的有效性和安全性。

4.10.2.1 变更纪律

· 所有变更提前一天确认,无变更审批不执行任何操作

· 重要变更提前一周确认无变更审批和用户确认不执行任何操作

· 影响生产、VIP使用的操作提交紧急变更,确认操作步骤和影响后进行操作

· 其他需求原则上提前一天沟通否则不予支持

· 检查检查再检查,确认确认再确认

4.10.2.2 新增资源

用户有新增服务器或者数据库等需求,需通过邮件发出申请,并在邮件中对新增资源按如下格式进行说明:

申请人

部门

日期

申请项目与原因

申请的资源

XXX资源

详细信息及配置参数

网络安全白名单相关需求

说明

应用负责人签字

条线部门经理签字

经理签字

部门经理签字

云运维工程师收到新增资源需求后,在经过综合评估后,将在工单系统发起请求,审批通过后根据请求内容对资源进行安全加固、监控部署等操作。

4.10.2.3 配置变更

相关部门提交变更需求后应有IT部统筹评估并发起变更,IT部内部变更需求应由变更申请人提交相关变更请求。

云运维工程师在变更操作之前,需要评估变更可能造成的风险,并制定变更的详细计划和回退方案;对业务的关键应用需要进行充分的测试,且不能在生产环境进行测试及调试,如若重要测试需要测试环境。

变更操作前云运维工程师需要对服务器或配置文件进行备份。

所有变更均应经过相应层面的审批,实施部门和配合部门在变更实施完成后应进行变更验证。

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论