源码解析Collections.sort ——从一个逃过单测的 bug 说起

2023年 7月 14日开发运维宇宙之一粟

本文从一个小明写的bug 开始，讲bug的发现、排查定位，并由此展开对涉及的算法进行图解分析和源码分析。

事情挺曲折的，因为小明的代码是有单测的，让小明更加笃定自己写的没问题。所以在排查的时候，也经历了前世的500年，去排查排序后的list改动（主要是小明和同事互相怀疑对方的代码，这里不多说了）。

本文从问题定位之后开始讲：

前言

小明写了一个自定义排序的代码，简化后如下。聪明的你快来帮小明review一下吧。

代码

背景：有一组商品，status是状态，其中2表示有货，9表示区域无货，5表示已抢光。需要按照 2 有货< 9 区域无货< 5 已抢光的顺序进行排序。

例如：输入：[2, 9, 5, 5, 9, 2, 9]，期望输出：[2, 2, 9, 9, 9, 5, 5]。list不为空，数量小于100。

环境：JDK 8

小明的代码如下：

/**
* 排序
*/
private static int compare(Integer status1, Integer status2) {
        // 5大于9 大于2 ，按照这样的规则排序
        if (status2 != null && status1 != null) {
            // 5-已抢光, 已抢光排到最后面
            if (status2.equals(5)) {
                return -1;
            } else {
                // 9-区域无货, 区域无货排在倒数第二，仅在已抢光之前
                if (status2.equals(9) && !status1.equals(5)) {
                    return -1;
                }
            }
        }
        return 0;
    }

  //Test 
  public static void main(String[] args) {
       List list = Lists.newArrayList(2, 9, 5, 5, 9, 2, 9);
        System.out.println("排序前:"+list);
        list.sort(Test::compare);
        System.out.println("排序后:"+list);
    }

看上面的代码有问题么？别急，咱们先给个入参试一下。

测试

[ 2, 9, 5, 5, 9, 2, 9 ]

 public static void main(String[] args) {
       List list = Lists.newArrayList(2, 9, 5, 5, 9, 2, 9);
        System.out.println("排序前:"+list);
        list.sort(Test::compare);
        System.out.println("排序后:"+list);
    }

输出：

排序前:[2, 9, 5, 5, 9, 2, 9]
排序后:[2, 2, 9, 9, 9, 5, 5]

结论：结果是对的，符合预期。（按照 2 有货< 9 区域无货< 5 已抢光的顺序进行排序）。

嗯，看起来排序是对的。但确实是有问题呢？

（小明OS ：哪里有问题？不可能有问题！我本地是好的！）

那我们看看情景复现👉🏻

情景复现

那有什么问题呢？我们再给几个入参试一下。

case1 : 随机入参

[5, 9, 2, 5, 9, 9, 9, 5, 2]
输出：

排序前:[5, 9, 2, 5, 9, 9, 9, 5, 2]
排序后:[2, 2, 9, 9, 9, 9, 5, 5, 5]
期望是:[2, 2, 9, 9, 9, 9, 5, 5, 5]

结论：结果对，符合预期 ✅。

case2 : 多增加一些数

[2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 5, 5, 5, 5, 5, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 9, 5, 5]

输出：

结论：结果不对了，不符合预期 ❌。

case3 : 换几个数

[2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 9, 9, 9, 9, 9, 5, 5, 5, 5, 5, 9, 9, 9, 9, 5, 5]

输出：

结论：结果又对了？？

这是什么情况？!

小明有些慌了，越想越觉得奇怪，目前看起来有这样几个看起来些许离谱的结论：

1、可能是和数据量有关系（因为用32位以下的数据，多次Test 也没发现问题），

2、一定和数据数值有关系。（32位以上，有的数据样本没问题，有的有问题）。

3、有问题都在中间部分，而两边是有序的，猜测像排序归并导致的问题。

定位

想查这个问题，小明有三个思路。

一是：代码的逻辑比较，是有一些不完整的。那可以先试着改改代码，通过这几个失败用例，然后在找深层原因。

二是：查查用的排序类，有没有坑。用法有没有特殊注意的，有没有类似的案例。

三是：从源码上，理清排序底层的逻辑，找到哪一个环节排序出了问题。

顺着这三个思路，小明发现写的代码里缺少返回为1的场景。虽然小明不知道有没有影响，但是试了试，发现好使。。但为啥呢？

private static int compare(Integer status1, Integer status2) {
        // 5大于9 大于2 ，按照这样的规则排序
        if (status2 != null && status1 != null) {
            // 5-已抢光, 已抢光排到最后面
            if (status2.equals(5)) {
                return -1;
            } else {
                // 9-区域无货, 区域无货排在倒数第二，仅在已抢光之前
                if (status2.equals(9) && !status1.equals(5)) {
                    return -1;
                }**else{
										return 1;
								}**
            }
        }
        return 0;
    }

然后小明看 Collections.sort 的坑，没有看到和这个相关的。

接下来，还是要来调试代码。最终定位是因为原来的compare 自定义代码里，对 compaer(5,2) 这种应该返回1的情况，默认返回了0。导致在底层两组数据归并排序过程，误以为5和2相等了。

即导致了这样错误的结果:

见Debug部分：（具体分析内容在后边源码部分）

解决方案

发现问题，就好解决了。方案是，要么补充完善逻辑，要么换用一种权重映射的排序方式。

1 优化代码

private static int compare(Integer status1, Integer status2) {
        // 5大于9 大于2 ，按照这样的规则排序
        if (status2 != null && status1 != null) {
            // 5-已抢光, 已抢光排到最后面
            if (status2.equals(5)) {
                return -1;
            } else {
                // 9-区域无货, 区域无货排在倒数第二，仅在已抢光之前
                if (status2.equals(9) && !status1.equals(5)) {
                    return -1;
                }else{
										return 1;
								}
            }
        }
        return 0;
    }

2 改为权重等方式排序

当然，还有对于一些容易理解出错的排序，也可以通过设置权重映射的方式进行排序。

小明忽然想起来，无论底层排序算法是什么，排序逻辑还是要完整。这一点也开发规约也是有的呀。 👉🏻

【注意】在JDK7版本及以上，为了让Arrays.sort、Collections.sort正常工作，Comparator必须满足以下三个条件，否则会抛出IllegalArgumentException异常。

1）比较x和y的结果应该与比较y和x的结果相反。
2）如果x>y，y>z，则x>z。
3）如果x=y，则比较x和z的结果应该与比较y和z的结果相同。

好了问题解决了，那我们接下来慢慢聊聊这里Collections.sort 底层用的TimSort排序原理。以及为什么32位及以上才有问题，为什么正好是归并过程有问题？

源码解读

JAVA 7 中集合类中的sort 开始，默认用TimSort排序方法。Tim Sort，里的Tim 也没什么特别的含义。Tim是这个算法的创始人Tim Peters 的名字。该算法首先在Python中应用，之后在 java 中应用。

TimSort ：一种稳定的、自适应的、迭代的归并排序，在部分排序数组上运行时需要的比较远远少于nlg (n)次，而在随机数组上运行时提供与传统归并排序相当的性能。像所有合适的归并排序一样，这种排序是稳定的，运行时间为O(n log n)(最坏情况)。在最坏的情况下，这种排序需要n/2个对象引用的临时存储空间;在最好的情况下，它只需要少量的常量空间。这个实现改编自Tim Peters的Python列表排序

图解 TimSort 排序原理

如果数组的长度小于32，直接采用二分法插入排序。（略）

如果数组的长度大于32，找到单调上升段（或下降段，进行反转），然后基于这个单调片段，通过插入排序的方式进行合并。如此反复归并相邻片段。

到这一步的时候，小明恍然大悟，怪不得32位数以下，没有出现过问题呢。

这个算法里有一个重要的概念，也可以理解为分段( 算法里 run )。每个分段都是连续上升或下降的子串

然后对下降的分段进行反转，使其变为一个递增的子串。这样就可以得到若干的分段，使得每个分段都单调递增，后续就可以对这些分段进行合并。

👉🏻 当然算法里会计算出一个最小的分段长度（Java里16-32之间），来控制分段的数量以保证效率。对那些不满足最小长度的分区，会采用二分插入的方法，使其满足最的长度。比如我们假设最小的长度是3，那此时由于第二段36 不符合最小长度3，会利用二分插入法，将8插入到第二段。即 368 就是第二段了。

分段划分之后，下一步就是如何进行合并。

合并时，会将分区进行压栈，并判断是否需要和之前的分段做合并。当然还有一些更详细的优化点，具体可看下文源码部分。重点说一下，两个分段如何进行合并。

假设以下内容：

第一个段包含元素：[1,2,3,5,6,8,9]

第二个段包含元素：[4,6,7,8,10,11,12]

第一个段在数组中出现在第二个段之前。请注意，实际段落长度不会这么短。如前所述，段落长度应介于16到32之间。此处只是提供示例以说明问题。

gallopRight()：查找第二个段的第一个元素在第一个段中的位置。例如，在此示例中，位置为2。这意味着前两个元素不需要参与合并，它们的位置不需要改变。

gallopLeft()：查找第一个段的最后一个元素在第二个段中的位置。在此处，发现第二个段中的第四个元素为10。因此，第二个段中的10、11、12不需要参与合并，它们的位置也不需要改变。

最终参与合并的段为：

第一段：[5，6，8，9]

第二段：[4, 6, 7, 8]

这样参与合并的段的长度就大大减小了。这里就是我们上边问题出现的地方。在gallopLeft 方法里，

查找第一个段的最后一个元素【5】在第二个段中的位置时，比较【5】和【2】时，得出了相等的结果。这有什么影响呢？因为数组分段是单调递增的，也就是说第一组里最后一个（最大的）数据5，和第二组里第一个（最小的）数据2 相等。那也就是说，第一个数组直接在第二个数组之前。即：

源码解读：Collections.sort 排序原理

入口

list.sort(Test::compare);

进入list sort

public void sort(Comparator


                        
                                    版权声明：
                    作者：宇宙之一粟
                    链接：https://www.mryunwei.com/231177.html
                    文章版权归作者所有，未经允许请勿转载。
                            
                                    
                
                    
                
                                Bug
                                源码
                            
                                    
                                                
                                
                    
                    
                        上一篇
                        【Rust 基础篇Rust 中的泛型：结构体和方法
                    
                
                                                
                    
                    
                        下一篇
                        Dubbo的高级特性：服务治理篇


        


    
    
                                    相关文章
    

            
    
                
            
                
            
            
                PHP + Go 双语言融合：我在生产项目中实现的架构方案
                2026-04-20
            
        
                
            
                
            
            
                国际通用语种代号表（ISO 639）中文版
                2025-09-18
            
        
                
            
                
            
            
                如何让 code-server 使用 vscode 官方插件仓库
                2025-09-18
            
        
                
            
                
            
            
                内网专用轻量级 SOCKS5 代理实现（nodejs ）
                2025-09-18
            
        
                
            
                
            
            
                Nginx 启用 HTTP/3 配置教程（含排障）
                2025-09-18
            
        
                
            
                
            
            
                使用分块传输编码突破CDN限制上传大文件
                2025-09-16


                                
                            
                    
            
                
                    
                
                
                    宇宙之一粟
                
            
            这个人很懒，什么都没有留下～

            

            
                
                    本月创作热力图
                    
                        少
                        
                            
                            
                            
                            
                        
                        多
                    
                
                
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                    
            

            
                
                作者好文
                
                作者发言
            

            
                
                    
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                            
                
                
                    
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                            
                
            
        
        
文章榜
        
            1
            
            
                mysql5.7.23版本安装教程及配置方法
            
        
                
            2
            
                
            
            
                Linux有问必答：如何在Linux上检查SSH的版本
                                linux中国
                            
        
                
            3
            
                
            
            
                Bash 基础知识系列 #3：传递参数和接受用户输入
                                linux中国
                            
        
                
            4
            
                
            
            
                Python 3.x 中如何使用time模块进行时间处理
                                开发运维
                            
        
                
            5
            
                
            
            
                mysql计算本月所以值的和
                                数据运维