Intel oneDNN 3.3为Sapphire Rapids/AMX带来更多性能优化

运维资讯 2023-10-08 LOVEHL^ˇ^ 手机阅读

Intel oneDNN 3.3为Sapphire Rapids/AMX带来更多性能优化-每日运维除了
x86 simd sort 3.0发布
为了快速进行AVX-512排序，周五还发布了oneDNN3.3作为深度神经网络库，它是oneAPI的一部分，专注于帮助开发人员构建深度学习应用程序。

Intel oneDNN继续支持基于CPU的执行，不仅支持x86_64，还支持AArch64、POWER和RISC-V，同时除了支持Intel图形外，还支持AMD和NVIDIA GPU执行。oneDNN库经过了大量调整，以充分利用英特尔硬件，oneDNN 3.3提供了更多的高级矩阵扩展（AMX）调整和其他更改，以使最新一代Xeon可扩展“Sapphire Rapids”处理器受益。此外，oneDNN 3.3将在2024年推出下一代Granite Rapids和Sierra Forest处理器的更多早期优化工作。

oneDNN 3.3性能优化工作包括：

英特尔体系结构处理器：

改进了第4代Intel Xeon可扩展处理器（前身为Sapphire Rapids）的性能。

在支持英特尔AMX指令集的处理器上，改进了int8卷积性能，实现了零点。

改进了未来Intel Xeon可扩展处理器（代号为Sierra Forest和Granite Rapids）的性能。此功能在默认情况下被禁用，可以通过CPU调度程序控制启用。

对于支持英特尔AVX-512和/或英特尔AMX指令集的处理器，针对输入通道数量较少的情况，改进了fp32和int8卷积性能。

改进了s32二进制基元的性能。

针对支持英特尔AVX2指令的处理器，改进了fp16、fp32和int8卷积性能。

使用Graph API，通过卷积、matmul、avgpool、maxpool和softmax操作以及一元或二元操作改进子图的性能。

使用Graph API改进深度情况下的卷积性能。

[实验]使用图形编译器改进LLAMA2 MLP块的性能。

英特尔图形产品：

改进了英特尔数据中心GPU Max系列（前身为Ponte Vecchio）的性能。

改进了Intel Arc图形（前身为Alchemist和DG2）和Intel Data Center GPU Flex系列（前身为Arctic Sound-M）的性能。

减少了英特尔GPU上的RNN基元初始化时间。

基于AArch64的处理器：

改进了fp32到bf16的重新排序性能。

Arm计算库（ACL）提高了最大池性能。

改善ACL深度病例的扩张卷积性能。