2024年了，2000万的行数还是 MySQL 表的限制吗？

数据运维 2024-05-23 穿过生命散发芬芳手机阅读
将 "数据与人" 设为 "星标⭐"
第一时间收到文章更新 2024年了，2000万的行数还是 MySQL 表的限制吗？-每日运维
传闻

网络上一直流传着一种观点，认为在单个MySQL表中，数据的行数一旦超过2000万，表的性能就可能受到影响。这种观点主要源于早些时候使用HDD硬盘存储时的经验。
2024年了，当我们使用基于SSD的MySQL数据库时，这种判断是否依然有效。换句话说，基于现代存储技术，MySQL表的行数是否仍然需要限制在2000万以内，以保证性能不受影响？如果这种限制仍然存在，那么背后的原因又是什么呢？
带着这个疑问，开始我们的验证。
环境

MySQL 版本：8.0.25
服务器内存：16GB
EBS 存储类型：通用 SSD
验证过程

创建模拟数据：创建了9个表，分别包含 10万、20万、50万、100万、200万、500万、1000万、2000万、3000万、5000万和6000万行。

1.创建几个具有相同模式的表：
CREATE TABLE row_test( `id` int NOT NULL AUTO_INCREMENT, `person_id` int NOT NULL, `person_name` VARCHAR(200), `insert_time` int, `update_time` int, PRIMARY KEY (`id`), KEY `query_by_update_time` (`update_time`), KEY `query_by_insert_time` (`insert_time`) );
# test client INSERT INTO {table} (person_id, person_name, insert_time, update_time) VALUES ({person_id}, {person_name}, {insert_time}, {update_time})

# copy
create table  like 
insert into  (`person_id`, `person_name`, `insert_time`, `update_time`)
select `person_id`, `person_name`, `insert_time`, `update_time` from
person_id、person_name、insert_time 和 update_time 的值是随机的。
3.执行以下sql查询来测试性能。
select count(*) from 




                             -- full table scan
select count(*) from 
 where id = 12345            -- query by primary key
select count(*) from 
 where insert_time = 12345   -- query by index
select * from 
 where insert_time = 12345          -- query by index, but cause 2-times index tree lookup
4.查看innodb缓冲池状态
SHOW ENGINE INNODB STATUS
SHOW STATUS LIKE 'innodb_buffer_pool_page%'

5.每次在表上测试完重启数据库！刷新 innodb 缓冲池以避免读取旧缓存并得到错误结果！
验证结果
查询 1。select count(*) from 




这种查询会造成全表扫描，这是MySQL不擅长的。
No-cache round：（第一轮）当缓冲池中没有缓存数据时，第一次执行查询。
Cache round：（Other round）当缓冲池中已经有数据缓存时执行查询，通常在第一次执行之后。
1.第一次执行的查询运行时间比后面的要长
MySQL之所以能提高查询效率，是因为它使用了innodb_buffer_pool来缓存数据页。
在首次执行查询操作之前，缓冲池内并没有存储任何数据，所以它需要从.idb文件中读取大量的数据页到内存中。一旦首次查询执行完毕，相关的数据就会被存储在缓冲池里。这样一来，后续的查询操作就可以直接从内存中获取计算结果，而无需再次进行磁盘I/O操作，从而大大提高了查询速度。这个过程在MySQL中被称为缓冲池预热。
2.select count(*) from 






将尝试将整个表加载到缓冲池
我对比了实验前后innodb_buffer_pool的统计数据。如果查询执行后，缓冲池的大小足够，那么缓冲池的使用变化应当与表的大小相等。反之，如果缓冲池不够大，那么只会有一部分表数据被缓存在缓冲池中。
这是因为执行查询select count(*) from table会涉及到全表扫描的操作，即逐行统计表中的行数。若表中数据未被缓存，那么这一操作就需要将整个表的数据加载到内存中。
为何会这样呢？原因在于InnoDB支持事务处理，它不能保证在不同时间点，事务所看到的数据视图是完全一致的。因此，进行全表扫描是确保获得准确行数的唯一可靠方法。
3.如果缓冲池不能容纳全表，查询延迟会爆发。
可以观察到innodb_buffer_pool的大小对查询性能有着显著的影响。具体而言，当缓冲池大小设定为11G时，查询延迟的显著增加发生在表的大小达到50M的时候。
接着，我将缓冲池大小调整为7G，并再次运行查询。这次，我发现查询延迟的显著增加出现在表大小为30M的时候。
最后，我将缓冲池的大小进一步减小到3G，并重新执行查询。此时，查询运行时间的显著增加发生在表大小达到20M的时候。
从这些实验结果中，可以明显看出，如果表中的数据不能被有效地缓存到innodb_buffer_pool中，那么执行类似于“select count(*) from 













”的查询时，就需要进行成本较高的磁盘I/O操作来加载数据。这种磁盘I/O操作会直接导致查询运行时间的显著增加。
4. 在不缓存的情况下，查询运行时间与表大小呈线性关系，与缓冲池大小无关。
无缓存循环运行时间由磁盘 I/O 决定，与缓冲池大小无关。select count(*)
使用相同 IOPS 的存储磁盘预热缓冲池没有区别。
5. 如果表无法完全缓存在缓冲池中，那么无缓存轮和有缓存轮之间的查询运行时间差是恒定的。
同时注意到，尽管如果表无法完全缓存在缓冲池中会导致查询运行时间的突增，但运行时间是可预测的。无缓存轮运行时间和有缓存轮运行时间之间的差值是恒定的，无论表的大小如何。原因是表的部分数据被缓存在缓冲池中，这个差值表示了从缓冲池而不是磁盘进行查询所节省的时间。
查询 2、3：select count(*) from 







 where  = 12345
上述查询在执行过程中会充分利用索引。由于查询不是范围查询，因此它只需要按照B+树的路径从上到下依次查找所需的页面。在查找的过程中，这些页面会被缓存到innodb缓冲池中，以便后续快速访问。
创建的测试表其B+树的深度均为3，因此，进行缓冲区预热时需要进行大约3至4次的I/O操作。这种预热过程平均耗时为4至6毫秒。在完成预热后，如果再次运行相同的查询，它将直接从内存中获取结果，此时耗时仅为0.5毫秒，这与网络往返时间（RTT）相当。
如果某个缓存页面长时间没有被访问并从缓冲池中移除，那么当需要再次访问该页面时，就必须从磁盘中重新加载，这最多可能需要4次磁盘I/O操作
查询 4：select * from 





 where  = 12345
这个查询过程中，需要进行两次索引查找操作。
原因在于，执行select *语句时，除了索引中包含的信息外，还需要获取person_name和person_id这两个字段的数据，而这两个字段并不包含在当前的索引中。因此，在查询执行的过程中，数据库引擎不得不分别查找两个不同的B+树结构。首先，它会通过insert_time对应的B+树来定位到目标行的主键值；随后，再利用这个主键值，去查找主键B+树，从而获取该行的完整数据记录。
整个查找过程可以参考下面的图示说明。
这就是我们在实际生产环境中应该尽量避免使用`select *`查询的原因。
根据我们在实验中所获得的数据，这种查询方式加载的页面块数量是查询2或查询3的两倍之多，最多可达到8倍。此外，`select *`查询的平均运行时间也明显较长，介于6至10毫秒之间，这同样是查询2或查询3所需时间的1.5到2倍。
为何会有这种传言
首先，我们需要深入了解InnoDB索引页的物理结构。在默认情况下，页面大小为16KB，其结构包括页眉、系统记录、用户记录、页面导向器和尾部等部分。实际上，用于存储实际数据的空间大约是15KB到14KB。
假设使用INT类型作为主键，它占用4字节，而每行的有效负载是1KB。那么，每个叶页能存储的行数大约是15行，因为除了数据本身，每行还需要额外的8字节用于存储指向该页的指针，所以总共是4字节（主键）+ 8字节（指针）= 12字节。
基于这样的计算，每个非叶页最多可以容纳的指针数量是15KB除以每个指针占用的12字节，即大约1280个指针。
如果有一个4层的B+树，那么它理论上最多可以容纳的行数就是每一层指针数量的乘积，即1280乘以1280再乘以15，等于大约24.6M行数据。
回顾过去，当HDD在市场上占据主导地位，而SSD对于数据库来说还是一种昂贵的技术时，4次随机I/O操作可能是我们可以接受的性能底线。而使用需要2次索引树查找的查询，其性能甚至可能更差。那时的工程师们努力控制索引树的深度，以免它们生长得过于庞大。
然而，随着技术的进步，现在SSD已经越来越普及，随机I/O操作的成本也相对较低。因此，我们或许可以重新评估那些十年前制定的规则。
顺便一提，如果是一个5层的B+树，它理论上可以容纳的行数会更多，计算下来大约是1280乘以1280再乘以1280再乘以15，即31.4B行数据。这个数量实际上已经超过了INT类型主键所能表示的最大行数。
当然，每行数据的大小不同，也会对B+树能够容纳的行数产生影响。这些不同的假设会导致不同的“软限制”，也就是实际使用中可能达到的最大行数，这个数字可能会小于或大于20M。例如，在我的实验中，每行数据大约是816字节（因为我使用了utf8mb4字符集，每个字符占用4个字节），在这种情况下，一个4层的B+树能够容纳的行数软限制大约是29.5M。
个人观点：考虑到SSD现在的普及，2000万行并不是MySQL表的一个非常有效的软限制。

更多精彩内容，关注我们▼▼
Mysql行数

                            
                    
                        
                            上一篇
                            Win11安全中心如何添加排除项
                        
                    
                
                                        
                    
                        
                            下一篇
                            了解一些Oracle的内核简称，说不定那天用得上
                        
                    
                
                    

			相关推荐
             
            
                
                    
                        强制修改mysql的root密码的六种方法分享（mysql忘记密码）
                    
                    
                        方法一 使用phpmyadmin，这是最简单的了，修改mysql库的user表， 不过别忘了使用PASSWORD函数。 方法二 使用mysqladmin，这是前面声明的一个特例。 mysqladmin -u root -p password mypasswd 输入这个命令 方法一 使用phpmyadmin，这是最简单的了，修改mysql库的user表， 不过别忘了使用PASSWORD函数。 方法二
                    
                    
                        数据运维
                        2023-04-21
                        穿过生命散发芬芳
                    
                
                
                    
                        
                    
                
            
             
            
                
                    
                        使用MySQL和PostgreSQL构建高可靠性数据库解决方案
                    
                    
                        使用MySQL和PostgreSQL构建高可靠性数据库解决方案 1.引言在当今的数据驱动型社会中，数据库的可靠性被赋予了极高的重要性。为了确保系统的持续稳定运行和数据的安全性，选择合适的数据库解决方案是至关重要的。MySQL和PostgreSQL作为目前最常用的开源关系型数据库管理系统(RDBMS)，具备强大的功能和良好的性能。本文将介绍如何利用MySQL和PostgreSQL构建高可靠性的数据库
                    
                    
                        数据运维
                        2023-08-02
                        穿过生命散发芬芳
                    
                
                
                    
                        
                    
                
            
             
            
                
                    
                        oracle 00966
                    
                    
                        在Oracle数据库中，有时我们会遇到ORA-00966错误，这是一个非常常见的错误。本文将介绍ORA-00966错误的原因和解决方法，让大家深入了解并有效解决该问题。 ORA-00966错误通常是由SQL语句中存在语法错误而引起的。例如，如果我们将缺少逗号的列名作为参数传递给函数，则会触发ORA-00966错误。以下是在创建表过程中可能出现的一个例子： CREATE TABLE users ( 
                    
                    
                        数据运维
                        2023-09-03
                        穿过生命散发芬芳
                    
                
                
                    
                        
                    
                
            
             
            
                
                    
                        oracle怎么查询表的同义词
                    
                    
                        在oracle中，可以利用select语句配合“dba_synonyms”查询表的所有同义词，语法为“select * from dba_synonyms”；同义词和视图的功能类似，是一种映射关系，能够节省大量的数据库空间。 本教 在oracle中，可以利用select语句配合“dba_synonyms”查询表的所有同义词，语法为“select * from dba_synonyms”；同义词和视
                    
                    
                        数据运维
                        2023-04-15
                        穿过生命散发芬芳
                    
                
                
                    
                        
                    
                
            
             
            
                
                    
                        把excel导入mysql数据库
                    
                    
                        Excel是一种非常常见的电子表格软件，而MySQL是一种流行的关系型数据库管理系统。无论是在工作中还是在日常生活中，我们通常都会遇到将Excel导入MySQL数据库的情况。 那么，如何实现从Excel到MySQL的数据导入呢？下面是一些简单的步骤。 1. 打开Excel文件并选中要导入的数据。 2. 将数据复制到剪贴板中。 3. 打开MySQL Workbench，并选择要导入数据的数据库。 4
                    
                    
                        数据运维
                        2023-08-05
                        穿过生命散发芬芳
                    
                
                
                    
                        
                    
                
            
             
        

        
            
                            
            站点声明：本站部分内容转载自网络，作品版权归原作者及来源网站所有，任何内容转载、商业用途等均须联系原作者并注明来源。
            相关侵权、举报、投诉及建议等，请发邮件至E-mail：service@mryunwei.com
            
            
                
            
            
            
                Copyright  每日运维  浙ICP备2022017665号-3
                
                基于WordPress | 由七牛云提供 CDN 加速
            
        
    
回到顶部