OpenBLAS 0.3.26带来了更多x86_64优化,更好的LoongArch64和ARM64

2024年 1月 10日 27.3k 0

OpenBLAS 0.3.26带来了更多x86_64优化,更好的LoongArch64和amp;ARM64-1
OpenBLAS 0.3.26是本周发布的,它是这个开源的基本线性代数子程序(BLAS)库的最新功能更新。

OpenBLAS 0.3.26针对小问题提供了更快的GESV性能,从参考LAPACK代码中引入了各种修复,各种构建系统改进,以及许多特定于体系结构的优化和修复。

在x86_64端,OpenBLAS 0.3.26在不支持AVX-512的情况下修复了Skylake-X和更新目标上的CASUM计算,修复了其他与AVX-512相关的修复,解决了针对GEMv的AVX之前内核中的问题,并加快了Microsoft Windows上的线程管理。

OpenBLAS 0.3.26带来了更多x86_64优化,更好的LoongArch64和amp;ARM64-2

OpenBLAS 0.3.26还修复了ARM64(AArch64)上的几个问题,为Neoverse-V1和其他性能调优提供了一些新的优化,支持Apple M1和更新的Dynamic_Arch构建目标,等等。对于LoongArch64上的几乎所有BLAS函数,还有各种IBM电源优化和新的/改进的优化内核。

有关OpenBLAS 0.3.26版本的下载和更多详细信息,请访问GitHub.

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论