zzmysql 错误日志中出现long semaphore wait信息

2024年 6月 6日数据运维大树

背景介绍

数据库症状：系统高负载情况下错误日志中出现long semaphore wait信息,数据库实例本身hang住，无法提供正常的访问服务，可登录，但登录后任何操作没有反应。
数据库版本：8.0.20
操作系统版本：CentOS 7.6
主机信息：32GB内存，CPU 16cores
数据库架构：单实例MySQL

处理方式

鉴于业务端无法正常使用DB，故只能通过操作系统层面执行命令 kill -9的方式临时杀进程重启MySQL实例，以最短的时间恢复DB正常使用。

概念：
long semaphore waits 是什么？ –信号量，控制资源的并发访问这里是信号量的等待，Semaphore就像可以容纳N人的房间，如果人不满就可以进去，如果人满了，就要等待有人出来。
背景
Innodb使用了mutex和rw_lock来保护内存数据结构，同步的机制要么是互斥，要么是读写阻塞的模式。
Innodb认为mutex和rw_lock hold的时间足够短，所以，如果有线程wait mutex或者rw_lock时间过长，那么很可能是程序有bug，所以就会异常主动crash。

trx_sys事务锁：
获取mutex锁：innodb在每个事务中，需要扫描当前已经打开的事务列表trx_list，并拷贝没有提交的事务ID。在扫描事务列表trx_list时，会使用kernel_mutex加锁，这也是性能的最大瓶颈之处。

latch又是什么?
latch一般称为闩锁（轻量级别的锁），因为其要求锁定的时间必须非常短。若持续的时间长，则应用的性能会非常差。在Innodb存储引擎中，latch又可以分为mutex（互斥量）和RW-Lock（读写锁）。其目的是用来保证并发线程操作临界资源的正确性，并且通常没有死锁检测的机制。
对于InnoDB存储引擎中的latch，可以通过命令SHOW ENGINE INNODB MUTEX来进行查看。
zz-mysql 错误日志中出现long semaphore wait信息-1