问题定义
在如何创建高效的数据库索引中,我们说到过,可以通过有序的索引(B+tree)来避免排序操作,从而提升查询的性能。但是如果排序子句或分组子句中的字段来自不同的表,那么数据库优化器就无法利用索引的有序性来避免一次排序操作。
但是如果能从查询中推断出排序字段与另一个表的某个字段具有等值的关系,可以使用此字段来替换原排序字段,从而利用索引的有序性,在进行排序或分组时避免一次排序操作,从而提升SQL查询性能。
譬如对于以下的SQL查询:
select customer.* from customer, orders where c_custkey=o_custkey order by c_name, o_custkey;
排序字段为 C_NAME, o_custkey,来自不同的两个表,但是在查询中条件c_custkey=o_custkey,所以可以用c_custkey来替换o_custkey, 重写后的SQL如下:
select customer.* from customer, orders where c_custkey=o_custkey order by c_name, c_custkey;
适用条件
分组排序优化是针对查询块(Queryblock)来进行的,多个查询块可以独立进行此优化。分组排序优化的适用条件如下:
- 在一个查询块中存在等于或大于2的排序字段或分组字段。
- 排序字段或分组字段是数据表中的列(无函数或计算)。
- 排序字段或分组字段来自不同的数据表。
- 在此查询块中可以推导出与排序或分组字段的等值关系。
- 经过推导替换后的排序或分组字段来自同一个数据表。
性能验证
- 重写优化前的执行计划如下,可以看到执行时间为10ms,代价7849.64,执行计划的最后一步是排序操作。
- 重写优化后,排序子句中的o_custkey被替换为c_custkey,执行计划如下。可以看到,优化后排序操作被消除了,其他部分没有变化。执行时间减少到2.58ms,性能提升了287.6%。
PawSQL对此优化的支持
PawSQL针对所有数据库默认开启此优化,
- 自动优化:用户输入待优化SQL后,PawSQL对其进行自动化优化,案例SQL的优化详情如下。
- 规则启用:用户可以在自己的默认优化设置或是定义每个优化任务的时候自主启用或禁用该选项。
关于PawSQL
PawSQL专注数据库性能优化的自动化和智能化,支持MySQL,PostgreSQL,Opengauss,Oracle等数据库,提供的SQL优化产品包括
- PawSQL Cloud,在线自动化SQL优化工具,支持SQL审查,智能查询重写、基于代价的索引推荐,适用于数据库管理员及数据应用开发人员。
- PawSQL Advisor,IntelliJ 插件, 适用于数据应用开发人员,可以IDEA/DataGrip应用市场通过名称搜索“PawSQL Advisor”安装。
- PawSQL Engine, 是PawSQL系列产品的后端优化引擎,可以以docker镜像的方式独立安装部署,并通过http/json的接口提供SQL优化服务。