在我写的一个开源程序中,我正在读取文件中的二进制数据(由另一个程序编写)并输出整数,双精度和其他各种数据类型.其中一个挑战是它需要在两个端点的32位和64位机器上运行,这意味着我最终不得不做一些低级别的bit-twiddling.我知道(非常)关于类型惩罚和严格别名的一点点,并且想要确保我正确地做事.
基本上,很容易从char*转换为各种大小的int:
int64_t snativeint64_t(const char *buf) { /* Interpret the first 8 bytes of buf as a 64-bit int */ return *(int64_t *) buf; }
我有一组支持函数来根据需要交换字节顺序,例如:
int64_t swappedint64_t(const int64_t wrongend) { /* Change the endianness of a 64-bit integer */ return (((wrongend & 0xff00000000000000LL) >> 56) | ((wrongend & 0x00ff000000000000LL) >> 40) | ((wrongend & 0x0000ff0000000000LL) >> 24) | ((wrongend & 0x000000ff00000000LL) >> 8) | ((wrongend & 0x00000000ff000000LL) << 8) | ((wrongend & 0x0000000000ff0000LL) << 24) | ((wrongend & 0x000000000000ff00LL) << 40) | ((wrongend & 0x00000000000000ffLL) << 56)); }
在运行时,程序检测机器的字节顺序,并将上述之一分配给函数指针:
int64_t (*slittleint64_t)(const char *); if(littleendian) { slittleint64_t = snativeint64_t; } else { slittleint64_t = sswappedint64_t; }
现在,当我试图将char*转换为double时,棘手的部分就出现了.我想重新使用endian-swapping代码,如下所示:
union { double d; int64_t i; } int64todouble; int64todouble.i = slittleint64_t(bufoffset); printf("%lf", int64todouble.d);
但是,一些编译器可以优化掉"int64todouble.i"赋值并打破程序.有没有更安全的方法来做到这一点,同时考虑到这个程序必须保持性能优化,而且我更愿意不编写一组并行的转换来直接将char*转换为double?如果双关语的联合方法是安全的,我应该重写我的函数,如snativeint64_t来使用它吗?
我最终使用了Steve Jessop的答案,因为转换函数重写为使用memcpy,如下所示:
int64_t snativeint64_t(const char *buf) { /* Interpret the first 8 bytes of buf as a 64-bit int */ int64_t output; memcpy(&output, buf, 8); return output; }
编译成与原始代码完全相同的汇编程序:
snativeint64_t: movq (%rdi), %rax ret
在这两个中,memcpy版本更明确地表达了我正在尝试做的事情,甚至应该对最天真的编译器起作用.
亚当,你的答案也很精彩,我从中学到了很多东西.谢谢发帖!
我强烈建议你阅读Understanding Strict Aliasing.具体来说,请参阅标记为"通过联合进行转换"的部分.它有很多很好的例子.虽然该文章位于关于Cell处理器的网站上并使用PPC汇编示例,但几乎所有这些都适用于其他架构,包括x86.