在某种意义上,使用显式编译指示或依赖或使用自动矢量化来手动矢量化代码是否更好?为了使用自动矢量化获得最佳性能,必须监视编译器输出以确保循环被矢量化或修改它们直到它们是可矢量化的.
使用手动编码,可以确定正在发出所需的指令,但现在代码可能不可移植(无论是其他架构还是其他编译器).
自动矢量化对我来说永远不会很好.对我来说,似乎自动矢量化目前仅适用于非常微不足道的循环.
我使用pragma/intrinsic方法并查看程序集.如果编译器生成错误代码(如将SSE注册表溢出到堆栈中或添加冗余移动),我会在整个循环体中使用内联汇编程序.
便携性不是问题.通常,您从C/C++循环开始,并使用内在函数进行优化.只需保留旧循环并将其用作SIMD实现的单元测试/后备.此外,能够通过编译时定义从项目中删除所有SIMD代码总是明智的.以这种方式调试应用程序要容易得多.相同的定义可用于交叉编译.