MySQL战记：Count( *)实现之谜与计数策略的选择

2023年 7月 24日数据运维 Escape

本文为《MySQL归纳学习》专栏的第二篇文章，同时也是关于《MySQL查询》知识点的第二篇文章。

往期回顾：

MySQL玩转指南：探秘Server层组件及权限校验实践

欢迎阅读本文《MySQL战记：Count( )实现之谜与计数策略的选择》。你是否曾经思考过，在MySQL的各种引擎中，count( )是如何被实现的呢？又或者，你是否想过在不同的计数方式中，哪一种具有最佳的性能呢？再进一步，我们是否可以通过使用缓存系统来替代数据库保存计数，从而获得更优的性能呢？在本篇文章中，我们将深度探讨这些问题，解析MySQL中count(*)的不同实现方式，比较各类计数方法的性能，以及讨论缓存系统与数据库在保存计数方面的优劣。希望你能在这个探索过程中收获启示和乐趣。

首先来看一下这张思维导图，对本文内容有个简单的认识。

count(*) 的实现方式

在不同的 MySQL 引擎中，count() 有不同的实现方式，这里讨论的是没有过滤条件的 count()。

MyISAM 引擎把一个表的总行数存在了磁盘上，因此执行 count(*) 的时候会直接返回这个数，效率很高；如果加了 where 条件的话，MyISAM 表也是不能返回得这么快的。
而 InnoDB 引擎就麻烦了，它执行 count(*) 的时候，需要把数据一行一行地从引擎里面读出来，然后累积计数。

为什么 InnoDB 不跟 MyISAM 一样，也把数字存起来呢？

这是因为即使是在同一个时刻的多个查询，由于多版本并发控制（MVCC）的原因，InnoDB 表“应该返回多少行”也是不确定的。

如下案例所示，最后在同一时刻三个会话查询表t的总行数结果不同。

这和 InnoDB 的事务设计有关系，可重复读是它默认的隔离级别，在代码上就是通过多版本并发控制，也就是 MVCC 来实现的。每一行记录都要判断自己是否对这个会话可见，因此对于 count(*) 请求来说，InnoDB 只好把数据一行一行地读出依次判断，可见的行才能够用于计算“基于这个查询”的表的总行数。

虽然在 InnoDB 引擎中执行 count(*) 执行需要逐行读取，但是内部还是做了查询优化。 InnoDB 是索引组织表，主键索引树的叶子节点是数据，而二级索引树的叶子节点是主键值。所以，普通索引树比主键索引树小很多。对于 count(*) 这样的操作，遍历哪个索引树得到的结果逻辑上都是一样的。因此，MySQL 优化器会找到最小的那棵树来遍历。在保证逻辑正确的前提下，尽量减少扫描的数据量，是数据库系统设计的通用法则之一。

除了执行 count(*) 命令得到数据行数，我们还使用过 show table status 命令，该命令用于显示表中当前有多少行，但是需要注意的是，该命令得到的结果是通过采样来估算的，官方文档说误差可能达到 40% 到 50%。所以，show table status 命令显示的行数也不能直接使用。

总结