在基准测试中,128位内部函数的执行速度比64位内部函数快?
_mm_sad_epu8(__m128i, __m128i) //Clocks: 0.0300 _mm_sad_pu8(__m64, __m64) //Clocks: 0.0491
据我所知,英特尔参考手册指出(PSADBW)mmx寄存器的延迟为5,吞吐量为1,但没有说明mm寄存器的性能.
(PSADBW)
它们是否应该同样快速,并且对于采用128位参数的内部函数是否通用?