目前我正在处理一个视频处理软件,其中图像数据(8位有符号和无符号)存储在16对齐的整数数组中,分配为
__declspec(align(16)) int *pData = (__declspec(align(16)) int *)_mm_malloc(width*height*sizeof(int),16);
一般情况下,如果使用像这样的有符号/无符号字符数组,它是否会实现更快的读写?
__declspec(align(16)) int *pData = (__declspec(align(16)) unsigned char *)_mm_malloc(width*height*sizeof(unsigned char),16);
我对缓存行大小和数据传输优化知之甚少,但至少我知道这是一个问题.除此之外,SSE将在未来使用,在这种情况下,char数组 - 与int数组不同 - 已经是打包格式.那么哪个版本会更快?
如果您计划使用SSE,那么以原始大小(8位)存储数据几乎肯定是更好的选择,因为可以在不解包的情况下完成大量操作,即使您需要为pmaddwd或其他类似方法解压缩说明,它仍然更快,因为你必须加载更少的数据.
即使在标量代码中,加载8位或16位值也不比加载32位慢,因为movzx/movsx的速度与mov没有区别.所以你只需要节省内存,这肯定不会伤害.