哈啰出行作为阿里系共享单车的头部企业,在江湖中的知名度还是有的,而今天我们就来看一道哈啰 Java 一面中的经典面试题:当数据表中数据量过大时,应该如何优化查询速度?
哈啰出行的面试题目如下:
其他面试题相对来说比较简单,大部人题目都可以在我的网站上(www.javacn.site)找到答案,这里就不再赘述,咱们今天只聊“数据表中数据量过大时,应该如何优化查询速度?”这个问题。
1、如何优化查询速度?
所谓的“大表”指的是一张表中有大量的数据,而通常情况下数据量越多,那么也就意味着查询速度越慢。这是因为当数据量增多时,那么查询一个数据需要匹配和检索的内容也就越多,而检索的项目越多,那么查询速度也就越慢。
举个例子,比如当家里只有一个孩子的时候,可能一个月的花销不算太大,但是随着家里的孩子越来越多,那么这个家庭的花销也就越来越大是一样的,而表中的数据量和查询效率的关系也是如此。
那问题来了,怎么优化查询速度呢?
这个问题的主要优化方案有以下几个。
(1)创建适当的索引
通过创建适当的索引,可以加速查询操作。索引可以提高查询语句的执行效率,尤其是对于常用的查询条件和排序字段进行索引,可以显著减少查询的扫描范围和 IO 开销。
(2)优化查询语句
优化查询语句本身,避免全表扫描和大数据量的关联查询。可以优化查询条件,使用合适的索引、合理的查询策略,减少不必要的字段和数据返回。
(3)缓存查询结果
对于一些相对稳定的查询结果,可以将其缓存在内存中,避免重复查询数据库,提高查询速度。
缓存的查询速度一定比直接查询数据库的效率高,这是因为缓存具备以下特征:
- 内存访问速度快:缓存通常将数据存储在内存中,而数据库将数据存储在磁盘上。相比于磁盘访问,内存访问速度更快,可以达到纳秒级别的读取速度,远远快于数据库的毫秒级别的读取速度。
- IO 操作次数少:数据库通常需要进行磁盘 IO 操作,包括读取和写入磁盘数据。而缓存将数据存储在内存中,避免了磁盘 IO 的开销。内存访问不需要进行磁盘寻址和机械运动,相对来说速度更快。
- 特殊的数据结构:缓存的数据结构通常为 key-value 形式的,也就是说缓存可以做到任何数据量级下的查询数据复杂度为 O(1),所以它的查询效率是非常高的;而数据库采用的是传统数据结构设计,可能需要查询二叉树、或全文搜索、或回表查询等操作,所以其查询性能是远低于缓存系统的。
(4)提升硬件配置
对于大数据量的表,可以考虑采用更高性能的硬件设备,如更快的存储介质(如固态硬盘),更大的内存容量等,以提升查询的 IO 性能。
(5)数据归档和分离
对于历史数据或不经常访问的数据,可以进行归档和分离,将这些数据从主表中独立出来,减少主表的数据量,提高查询速度。
(6)数据库分片
当单个数据库无法满足查询性能需求时,可以考虑使用数据库分片技术,将数据分散到多个数据库中,每个数据库只处理部分数据,从而提高查询的并发度和整体性能。
数据库分片技术的具体实现是分库分表。
2、何为分库分表?
首先来说,分库分表是一组技术,而不是一个单一的技术,分库分表可以分为以下几种情况:
只分库:将一个大数据库分为 N 个小数据库。例如将一个电商数据库,分为多个数据库,如:用户数据库、仓库数据库、订单数据库、商品数据库等。
只分表:在一个数据库中,将一张表拆分成多张表,而分表又有以下两种实现:
- 横向拆分:不修改原有的表结构,将原本一张表中的数据,分成 N 个表来存储数据。
- 纵向拆分:修改原有的表结构,将常用的字段放到主表中,将不常用的和查询效率低的字段放到扩展表中。
既分库又分表:它的实现最复杂,顾名思义,它是将一个数据库拆分成多个数据库,并将一个数据库的一张表,同时有拆分为多张表。
2、分库分表的实现
目前市面上分库分表的主要实现技术有以下几个:
- ShardingSphere:ShardingSphere 是一个功能丰富的开源分布式数据库中间件,提供了完整的分库分表解决方案。它支持主流关系型数据库(如 MySQL、Oracle、SQL Server 等),提供了分片、分布式事务、读写分离、数据治理等功能。ShardingSphere 具有灵活的配置和扩展性,支持多种分片策略,使用简单方便,项目地址:https://shardingsphere.apache.org
- MyCAT:MyCAT(MySQL Clustering and Advancement Toolkit)是一个开源的分布式数据库中间件,特别适合于大规模的分库分表应用。它支持 MySQ L和 MycatSQL,提供了分片、读写分离、分布式事务等功能。MyCAT 具有高性能、高可用性、可扩展性和易用性的特点,广泛应用于各种大型互联网和电商平台,项目地址:https://github.com/MyCATApache/Mycat2
- TDDL:TDDL(Taobao Distributed Data Layer)是阿里巴巴开源的分库分表中间件。它为开发者提供了透明的分库分表解决方案,可以将数据按照指定的规则分布到不同的数据库和表中。TDDL 支持 MyISAM 和 InnoDB 引擎,提供了读写分离、动态扩容、数据迁移等功能,项目地址:https://github.com/alibaba/tb_tddl
- Vitess:Vitess 是一个由 YouTube 开发和维护的分布式数据库集群中间件,支持 MySQL 作为后端存储系统。Vitess 提供了水平拆分、弹性缩放、负载均衡、故障恢复等功能,可以在大规模的数据集和高并发访问场景下提供高性能和可扩展性,项目地址:https://vitess.io/zh/
小结
大数据量的表的查询优化方案有很多,例如:创建索引、优化查询语句、缓存查询结果、提升硬件配置、数据归档和分离,以及数据分片技术(分库分表)等,而这些技术通常是一起配合使用,来共同解决大数据量表的查询速度慢的问题的,其中分库分表的实现最为复杂,所以需要根据自身业务的需要酌情使用。