Stream.parallel()：开启并行流处理之旅

2024年 4月 19日开发运维捡田螺的小男孩

Java 8 引入了强大的 Stream API，为处理集合数据提供了简洁、高效的解决方案。其中，parallel() 方法为流处理引入了并行化能力，允许开发者充分利用多核处理器的优势，大幅提升大规模数据集的处理效率。

本篇文章将带你开启并行流处理之旅，认识 Java 8 Stream API 中的 parallel()。

什么是 parallel()

parallel() 是 Java 8 Stream API 中的一个方法，用于将一个顺序流转换为并行流。并行流是一种可以同时在多个线程上执行操作的流，它将流的元素分割成多个子集，每个子集在不同的线程上独立处理，最后将结果合并。使用 parallel() 方法可以轻松开启并行流处理模式，无需显式管理线程和同步。

List numbers = ...; // 假设有一个包含大量元素的列表

numbers.stream() // 创建顺序流
    .parallel() // 转换为并行流
    .filter(n -> n % 2 == 0) // 并行过滤偶数
    .map(n -> n * 2) // 并行映射为原数的两倍
    .forEach(System.out::println); // 并行打印结果

在这个示例中，parallel() 方法将顺序流转换为并行流，后续的 filter()、map() 和 forEach() 操作将在多个线程上并行执行，从而加速数据处理。

并行流的工作原理

并行流处理背后的核心机制主要包括以下几个方面：

分割与合并

自动流水线化

适应性执行策略

并行流根据数据集的大小、处理器核心数等因素动态调整并行度和任务划分策略。对于小规模数据集或不适合并行化的操作，Java 8 会自动退化为顺序流处理，避免不必要的线程开销。

总之，parallel() 方法通过将原始列表拆分成多个子任务，并在独立线程上并行执行流操作链的各个阶段，最后合并处理结果，实现了对列表数据的高效并行处理。具体的拆分策略和并行执行细节由 JVM 自动管理，开发者无需关心底层实现，只需关注流式编程的高层抽象。

实战应用

适合parallel()并行流的应用场景有：

大规模数据集处理

CPU 密集型操作

可并行化的中间操作，如 filter()、map()、flatMap()、sorted()等。

示例1：大规模数据集处理

场景：在一个数据分析项目中，需要对一个包含百万条记录的数据集进行复杂过滤和计算。使用并行流可以显著加快处理速度，充分利用多核处理器资源。示例

public class ParallelDataProcessingExample {
    public static void main(String[] args) {
        List records = generateLargeDataRecords(); // 假设生成包含百万条记录的数据集

        List filteredAndProcessedRecords = records.parallelStream()
                .filter(record -> record.isValid()) // 并行过滤有效记录
                .map(record -> record.computeComplexMetric()) // 并行计算复杂度量
                .collect(Collectors.toList());

        // ... 使用 filteredAndProcessedRecords 进行后续分析 ...
    }

}

public class DataRecord {
    // ... 数据记录的字段、方法等 ...

    public boolean isValid() {
        // ... 判断记录是否有效的逻辑 ...
    }

    public DataRecord computeComplexMetric() {
        // ... 计算复杂度量的逻辑 ...
    }
}

示例2

场景：假设有一个电商系统需要批量更新大量商品的价格，每个商品的更新过程涉及网络请求到不同服务获取最新价格信息，然后保存到数据库。

示例：

@Service
@RequiredArgsConstructor
public class ProductService {

    private final PriceService priceService;
    private final ProductRepository productRepository;
    private final Executor asyncExecutor;


    /**
  * 批量更新商品价格
  *
  * @param productIds 商品ID列表
  */
 public void batchUpdatePrices(List productIds) {
  CompletableFuture allDbUpdates = CompletableFuture.allOf(productIds.stream()
    .parallel()
    .map(productId -> CompletableFuture.supplyAsync(() -> priceService.getLatestPrice(productId), asyncExecutor)
      .thenAcceptAsync(newPrice -> productRepository.updatePrice(productId, newPrice), asyncExecutor))
    .toArray(CompletableFuture[]::new));

  // 等待所有数据库更新完成
  allDbUpdates.join();
 }
}

在这个示例中：