OpenBLAS 0.3.8 发布,带来更多AVX2 / AVX512内核


对于那些使用OpenBLAS作为您的BLAS(基本线性代数子程序)实现的人,本周末发布了OpenBLAS 0.3.8,随之而来的是更多的AVX2/AVX-512内核和其他优化。

OpenBLAS继续努力与Intel的MKL和其他优化的BLAS实施竞争,而更多的AVX2和AVX-512应该有助于提高最新的Intel和AMD CPU的性能。现在有一个AVX-512 DGEMM内核,“显著”改进了AVX-512 SGEMM内核,以及针对CGEMM和ZGEMM的经过优化的新AVX-512内核。在AVX2方面,据说STRMM,SGEMM和CGEMM的内核以及CGEMM3M和ZGEMM3M的新内核已大大加快了速度。

OpenBLAS 0.3.8还增加了对QEMU虚拟CPU检测,Intel Goldmont Plus CPU自动检测,ARMv8性能优化,各种POWER优化,LAPACK 3.9.0的集成,CMake构建系统改进以及其他常规优化的支持。还提供GCC 10编译器支持,并使用g95和LD链接器的非GNU版本改进了编译。完善的发行版是NetBSD的官方支持。

通过GitHub了解OpenBLAS 0.3.8版本的更多详细信息。

linuxboy的RSS地址:https://www.linuxboy.net/rssFeed.aspx

本文永久更新链接地址:https://www.linuxboy.net/Linux/2020-02/162277.htm

相关内容

    暂无相关文章