Intel oneDNN 3.3为Sapphire Rapids/AMX带来更多性能优化

2023年 10月 8日 87.6k 0

除了
x86 simd sort 3.0发布
为了快速进行AVX-512排序,周五还发布了oneDNN3.3作为深度神经网络库,它是oneAPI的一部分,专注于帮助开发人员构建深度学习应用程序。

Intel oneDNN继续支持基于CPU的执行,不仅支持x86_64,还支持AArch64、POWER和RISC-V,同时除了支持Intel图形外,还支持AMD和NVIDIA GPU执行。oneDNN库经过了大量调整,以充分利用英特尔硬件,oneDNN 3.3提供了更多的高级矩阵扩展(AMX)调整和其他更改,以使最新一代Xeon可扩展“Sapphire Rapids”处理器受益。此外,oneDNN 3.3将在2024年推出下一代Granite Rapids和Sierra Forest处理器的更多早期优化工作。

oneDNN 3.3性能优化工作包括:

英特尔体系结构处理器:

改进了第4代Intel Xeon可扩展处理器(前身为Sapphire Rapids)的性能。

在支持英特尔AMX指令集的处理器上,改进了int8卷积性能,实现了零点。

改进了未来Intel Xeon可扩展处理器(代号为Sierra Forest和Granite Rapids)的性能。此功能在默认情况下被禁用,可以通过CPU调度程序控制启用。

对于支持英特尔AVX-512和/或英特尔AMX指令集的处理器,针对输入通道数量较少的情况,改进了fp32和int8卷积性能。

改进了s32二进制基元的性能。

针对支持英特尔AVX2指令的处理器,改进了fp16、fp32和int8卷积性能。

使用Graph API,通过卷积、matmul、avgpool、maxpool和softmax操作以及一元或二元操作改进子图的性能。

使用Graph API改进深度情况下的卷积性能。

[实验]使用图形编译器改进LLAMA2 MLP块的性能。

英特尔图形产品:

改进了英特尔数据中心GPU Max系列(前身为Ponte Vecchio)的性能。

改进了Intel Arc图形(前身为Alchemist和DG2)和Intel Data Center GPU Flex系列(前身为Arctic Sound-M)的性能。

减少了英特尔GPU上的RNN基元初始化时间。

基于AArch64的处理器:

改进了fp32到bf16的重新排序性能。

Arm计算库(ACL)提高了最大池性能。

改善ACL深度病例的扩张卷积性能。

oneDNN 3.3版本还添加了组规范化基元支持、扩展的详细模式输出、oneDNN Graph API的新示例以及其他更改。

有关oneDNN3.3版本的下载和更多详细信息,请访问
GitHub
.

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论