每个数据库都有一套自己的监控指标列表,OG系列数据库也不例外,针对与数据库监控安装部署可以直接参考监控合集,此合集文章基本够用,如果不足欢迎留言。
OG exporter下地地址为:https://gitee.com/opengauss/opengauss-prometheus-exporter ,此exporter目前主要由恩墨刘斌同学维护。
default_all.yaml
grafana dashboard
配置说明
这里以查看数据库配置信息为例,对监控指标的关键字段进行解读,方便用户自定义监控指标。
pg_database:
name: pg_database
desc: openGauss Database size
query:
- name: pg_database
sql: |-
SELECT datname,
pg_database_size(pg_database.datname) as size_bytes,
age(datfrozenxid64) AS age,
datistemplate AS is_template,
datallowconn AS allow_conn,
datconnlimit AS conn_limit,
datfrozenxid::TEXT::BIGINT as frozen_xid
FROM pg_database
where datname NOT IN ('template0','template1');
version: '>=0.0.0'
timeout: 1
ttl: 60
status: enable
dbRole: ""
metrics:
- name: datname
description: Name of this database
usage: LABEL
- name: size_bytes
description: Disk space used by the database
usage: GAUGE
- name: age
description: database age calculated by age(datfrozenxid64)
usage: GAUGE
- name: is_template
description: 1 for template db and 0 for normal db
usage: GAUGE
- name: allow_conn
description: 1 allow connection and 0 does not allow
usage: GAUGE
- name: conn_limit
description: connection limit, -1 for no limit
usage: GAUGE
- name: frozen_xid
description: tuple with xmin below this will always be visable (until wrap around)
usage: GAUGE
public: true
version :当前指标适用哪些数据库版本
timeout :SQL执行超时时间,超过此阈值直接取消
ttl :使用cache功能后,cache的有效时间
status :是否启用此监控指标,enable启动,disable禁用
public :是否为公共指标,公共指标在一个实例下执行一次,true/false
dbRole :执行此监控指标的数据库节点角色“” 主备都执行,primary仅主库执行,standby仅备库执行
注:优先以query下的参数选项为主,如果query中未配置,参考外层参数选项
了解了如何配置自定义监控项后,下面对default_all.yml中监控指标进行汇总说明
指标 | 含义 | |
基础指标 | og_metainfo | 数据库基本信息:节点角色、运行时间及一些比较重要的数据库参数值 |
user_login_info | 用户登录信息:用户名,登录次数,密码有效期,连接限制 | |
复制关系 | pg_downstream | 下游节点的数量 |
pg_replication_slots | 复制槽信息:名字、是否活跃、当前lsn号等 | |
pg_stat_replication | wal日志同步状态信息 | |
连接会话 | pg_connections | 实例连接数整体使用情况 |
pg_stat_activity | 各类连接会话状态汇总信息 | |
pg_session_connection | 应用连接状态汇总信息 | |
global_session_stat | 以会话线程或AutoVacuum线程为单位,统计会话状态信息 | |
内存信息 | og_memory_info | 实例内存使用汇总信息 |
og_global_shared_memory_detail | 共享内存上下文汇总信息 | |
og_session_state_memory | 会话状态内存使用汇总信息 | |
og_session_context_memory | 会话上下文使用内存详细信息 | |
og_session_memory | 会话使用内存详细信息 | |
SQL信息 | pg_sql_history | 历史慢SQL信息 |
pg_active_slowsql | 当前执行时间较长的会话 | |
og_query_statement | 历史SQL缓存命中率汇总 | |
og_workload_sql_count | 历史SQL分类汇总 | |
锁与等待事件 | pg_lock | 数据库锁汇总信息 |
pg_locker | 锁阻塞源信息 | |
pg_lock_detail | 锁阻塞关系 | |
og_thread_wait_status | 线程等待状态 | |
pg_wait_events | 数据库等待事件 | |
对象统计 | pg_database | 数据库基本信息 |
pg_tables_size | 表数据量大小 | |
pg_indexes_size | 索引大小 | |
pg_never_used_indexes | 未使用过的索引 | |
pg_tables_expansion_rate | 表膨胀率 | |
统计指标 | pg_stat_database | 数据库统计信息 |
pg_checkpoint | 检查点信息 | |
og_global_ckpt_status | 检查点状态 | |
og_global_double_write_status | 双写状态 | |
og_global_pagewriter_status | pagewriter线程状态 | |
pg_stat_database_conflicts | 数据库冲突信息 | |
pg_stat_bgwriter | bgwriter信息 | |
og_stat_bad_block | 读取数据时出现Page/CU校验失败的统计信息 | |
og_redo_stat | redo状态信息 | |
其他指标 | og_available_extension_versions | 数据库可用扩展版本信息 |
og_cpu_load | CPU负载情况 | |
og_cpu_time | CPU耗时 | |
og_summary_file_iostat | 文件IO |