MySQL：为什么查询一行数据也要花费上百毫秒

2023年 12月 6日数据运维爱可生开源社区

不知道读者有没有遇到过这么一种异常情况，在使用MySQL时，仅仅是一次很简单的查询响应时间居然需要上百毫秒甚至1秒以上，到底是什么原因导致的这种非常异常的情况？这节课我们一起探究一下。

本篇文章使用的SQL数据如下所示。

mysql> CREATE TABLE `t` (


  `id` int(11) NOT NULL,
  `c` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB;


delimiter ;;
create procedure idata()
begin
  declare i int;
  set i=1;
  while(i select * from information_schema.processlist where id=1;

注意其中的STATE字段，显示为：Waiting for table flush，也就是等待刷盘。

图片

即，此时数据不在内存中，会从磁盘读取到数据后加载到buffer pool中，如果此时buffer pool已经被占满，则会使用LRU淘汰掉旧数据，如果要淘汰的数据时脏页，就会触发flush，造成卡顿。

flush表有两种格式：

/**
指定表t，代表只关闭表t
*/
flush tables t with read lock;
/**
没有指定表，代表只关闭MySQL打开的所有表
*/
flush tables with read lock;

关闭所有已打开的表对象，同时将查询缓存中的结果清空。就是说Flush tables的一个效果就是会等待所有正在运行的SQL请求结束。因为，SQL语句在执行前，都会打开相应的表对象，如select * from t1语句，会找到t1表的frm文件，并打开表内存对象。为了控制表对象使用的内存空间和其他资源，MySQL会隐式（后台表对象管理线程）或显式（flush tables等）来关闭已打开但并没有使用的表对象。然而，正在使用的表对象是不能关闭的（如SQL请求仍在运行），因此，Flush Tables操作会被正在运行的SQL请求阻塞。

图片

根据show processlist查询的id，将select sleep(1) from t的进行先结束，然后flush table t的命令执行完，sessionC就会执行。

1.3 等待行锁

还有第三种情况就是我们最为熟悉的锁。假设执行语句如下，在查询时开启共享锁：

mysql> select * from t where id=1 lock in share mode;

在语句执行的加锁会增加锁冲突的几率，从而导致语句之间的相互等待锁释放。

图片

此时，由于sessionA启动了事务，占用了写锁，阻塞了sessionB的共享锁的获取。

在MySQL5.7可以使用sys.innodb_lock_waits表查询到占用写锁的线程：

mysql> select * from t sys.innodb_lock_waits where 
locked_table='`test`.`t`'G

图片

可以看到，这个信息很全，4 号线程是造成堵塞的罪魁祸首。而干掉这个罪魁祸首的方式，就是 KILL QUERY 4 或 KILL 4。不过，这里不应该显示“KILL QUERY 4”。

这个命令表示停止 4 号线程当前正在执行的语句，而这个方法其实是没有用的。因为占有行锁的是 update 语句，这个语句已经是之前执行完成了的，现在执行 KILL QUERY，无法让这个事务去掉 id=1 上的行锁。

实际上，KILL 4 才有效，也就是说直接断开这个连接。这里隐含的一个逻辑就是，连接被断开的时候，会自动回滚这个连接里面正在执行的线程，也就释放了 id=1 上的行锁。

2 查询慢

我们知道MySQL的使用规范中，长事务是严禁使用的，或者说不建议使用的。那么长事务是否也会导致慢查询呢？

在如下情况下，可能会出现查询慢的情况，如图所示：

图片

第一条sql查询的是当前事务版本时，id = 1 时的值，但是第二条sql 查询可以得知当前值得最新版本的值为1000001，所以在查询数据时需要进行记录版本的回滚，拿到自己事务可见的记录的版本。所以如果当前事务比较老并且当前这个数据存在大量的版本，那么就对该记录进行大量的回滚操作，消费个更多的时间。

此时可以通过如下场景复现：

图片

你看到了，session A 先用 start transaction with consistent snapshot 命令启动了一个事务，之后 session B 才开始执行 update 语句。

session B 执行完 100 万次 update 语句后，id=1 这一行处于什么状态呢？

图片

session B 更新完 100 万次，生成了 100 万个回滚日志 (undo log)。

带 lock in share mode 的 SQL 语句，是当前读（读最新版本的数据），因此会直接读到 1000001 这个结果，所以速度很快；而 select * from t where id=1 这个语句，是一致性读，因此需要从 1000001 开始，依次执行 undo log，执行了 100 万次回滚以后，才将 1 这个结果返回。

注意，undo log 里记录的其实是“把 2 改成 1”，“把 3 改成 2”这样的操作逻辑，画成减 1 的目的是方便你看图。