1赞

UTF8到/来自STL中的宽字符转换

作者：360691894_8a5c48 | 2023-09-04 17:53

如何解决《UTF8到/来自STL中的宽字符转换》经验，为你挑选了5个好方法。

是否有可能以独立于平台的方式将std :: string中的UTF8字符串转换为std :: wstring,反之亦然？在Windows应用程序中,我将使用MultiByteToWideChar和WideCharToMultiByte.但是,代码是针对多个操作系统编译的,我仅限于标准C++库.

1> Vladimir Gri..：

我5年前问过这个问题.这个帖子对我来说非常有帮助,我得出结论,然后我继续我的项目.有趣的是,我最近需要类似的东西,与过去的项目完全无关.在我研究可能的解决方案时,我偶然发现了自己的问题:)

我现在选择的解决方案基于C++ 11.Constantin在他的回答中提到的增强库现在是标准的一部分.如果我们用新的字符串类型std :: u16string替换std :: wstring,那么转换将如下所示:

UTF-8到UTF-16

std::string source;
...
std::wstring_convert,char16_t> convert;
std::u16string dest = convert.from_bytes(source);

UTF-16到UTF-8

std::u16string source;
...
std::wstring_convert,char16_t> convert;
std::string dest = convert.to_bytes(source);

从其他答案可以看出,该问题有多种方法.这就是为什么我不选择接受的答案.

在C++中不推荐使用std :: wstring_convert 17

这是带有LE或BE的UTF-16吗？

2> Assaf Lavie..：

UTF8-CPP:以便携方式使用C++的UTF-8

3> Constantin..：

您可以utf8_codecvt_facet从Boost序列化库中提取.

他们的用法示例:

  typedef wchar_t ucs4_t;

  std::locale old_locale;
  std::locale utf8_locale(old_locale,new utf8_codecvt_facet);

  // Set a New global locale
  std::locale::global(utf8_locale);

  // Send the UCS-4 data out, converting to UTF-8
  {
    std::wofstream ofs("data.ucd");
    ofs.imbue(utf8_locale);
    std::copy(ucs4_data.begin(),ucs4_data.end(),
          std::ostream_iterator(ofs));
  }

  // Read the UTF-8 data back in, converting to UCS-4 on the way in
  std::vector from_file;
  {
    std::wifstream ifs("data.ucd");
    ifs.imbue(utf8_locale);
    ucs4_t item = 0;
    while (ifs >> item) from_file.push_back(item);
  }

在boost源中查找utf8_codecvt_facet.hpp和utf8_codecvt_facet.cpp文件.

4> Mark Ransom..：

问题定义明确指出8位字符编码是UTF-8.这使得这是一个微不足道的问题; 只需要将一个UTF规范转换为另一个规范就可以了.

只需看看这些维基百科页面上的UTF-8,UTF-16和UTF-32的编码.

原理很简单 - 根据一个UTF规范进行输入并组装一个32位Unicode代码点,然后根据其他规范发出代码点.单个代码点不需要翻译,任何其他字符编码都需要翻译; 这就是使这成为一个简单问题的原因.

这是wchar_tUTF-8转换的快速实现,反之亦然.它假设输入已经正确编码 - 旧句子"Garbage in,garbage out"适用于此处.我相信验证编码最好是作为一个单独的步骤完成.

std::string wchar_to_UTF8(const wchar_t * in)
{
    std::string out;
    unsigned int codepoint = 0;
    for (in;  *in != 0;  ++in)
    {
        if (*in >= 0xd800 && *in <= 0xdbff)
            codepoint = ((*in - 0xd800) << 10) + 0x10000;
        else
        {
            if (*in >= 0xdc00 && *in <= 0xdfff)
                codepoint |= *in - 0xdc00;
            else
                codepoint = *in;

            if (codepoint <= 0x7f)
                out.append(1, static_cast(codepoint));
            else if (codepoint <= 0x7ff)
            {
                out.append(1, static_cast(0xc0 | ((codepoint >> 6) & 0x1f)));
                out.append(1, static_cast(0x80 | (codepoint & 0x3f)));
            }
            else if (codepoint <= 0xffff)
            {
                out.append(1, static_cast(0xe0 | ((codepoint >> 12) & 0x0f)));
                out.append(1, static_cast(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast(0x80 | (codepoint & 0x3f)));
            }
            else
            {
                out.append(1, static_cast(0xf0 | ((codepoint >> 18) & 0x07)));
                out.append(1, static_cast(0x80 | ((codepoint >> 12) & 0x3f)));
                out.append(1, static_cast(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast(0x80 | (codepoint & 0x3f)));
            }
            codepoint = 0;
        }
    }
    return out;
}

上面的代码既适用于UTF-16和UTF-32的输入,仅仅是因为范围d800通过dfff无效码点; 它们表明您正在解码UTF-16.如果你知道这wchar_t是32位,那么你可以删除一些代码来优化函数.

std::wstring UTF8_to_wchar(const char * in)
{
    std::wstring out;
    unsigned int codepoint;
    while (*in != 0)
    {
        unsigned char ch = static_cast(*in);
        if (ch <= 0x7f)
            codepoint = ch;
        else if (ch <= 0xbf)
            codepoint = (codepoint << 6) | (ch & 0x3f);
        else if (ch <= 0xdf)
            codepoint = ch & 0x1f;
        else if (ch <= 0xef)
            codepoint = ch & 0x0f;
        else
            codepoint = ch & 0x07;
        ++in;
        if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
        {
            if (sizeof(wchar_t) > 2)
                out.append(1, static_cast(codepoint));
            else if (codepoint > 0xffff)
            {
                out.append(1, static_cast(0xd800 + (codepoint >> 10)));
                out.append(1, static_cast(0xdc00 + (codepoint & 0x03ff)));
            }
            else if (codepoint < 0xd800 || codepoint >= 0xe000)
                out.append(1, static_cast(codepoint));
        }
    }
    return out;
}

再次,如果你知道这wchar_t是32位,你可以从这个函数中删除一些代码,但在这种情况下,它应该没有任何区别.表达式sizeof(wchar_t) > 2在编译时是已知的,因此任何体面的编译器都会识别死代码并将其删除.

但''widechar''并不一定意味着UTF16

你所拥有的可能是一个很好的"概念证明".成功转换有效编码是一回事.根据规范正确处理无效编码数据(例如,UTF-16中的未配对代理)的转换是另一个层次的努力.为此,您确实需要一些更完善的设计和测试代码.

@Craig McQueen,你说得对.我假设编码已经是正确的,它只是一个机械转换.我确信在某些情况下会出现这种情况,这段代码就足够了 - 但是应该明确说明这些限制.原始问题不清楚这是否应该引起关注.

5> Ben Straub..：

有几种方法可以做到这一点,但结果取决于字符编码在string和wstring变量中的含义.

如果你知道string是ASCII,你可以简单地使用wstring's iterator构造函数:

string s = "This is surely ASCII.";
wstring w(s.begin(), s.end());

string但是,如果您有其他编码,则会得到非常糟糕的结果.如果编码是Unicode,您可以查看ICU项目,该项目提供了一组跨平台的库,可以转换为各种Unicode编码.

如果你string在代码页中包含了字符,那么$ DEITY可以怜悯你的灵魂.

ICU也会转换/我遇到过的每个字符编码.很大.

推荐阅读

程序员
二进制运算符'+'不能应用于两个'T'操作数

如何解决《二进制运算符'+'不能应用于两个'T'操作数》经验，为你挑选了2个好方法。 ... [详细]
程序员
客户端上传文件到远程服务器的最佳方法？

如何解决《客户端上传文件到远程服务器的最佳方法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在机架级别阻止请求？

如何解决《如何在机架级别阻止请求？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何查看我的laravel数据库？

如何解决《如何查看我的laravel数据库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在React Native for iOS上设置分析

如何解决《如何在ReactNativeforiOS上设置分析》经验，为你挑选了1个好方法。 ... [详细]
程序员
xcode"文件无法打开"

如何解决《xcode"文件无法打开"》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP 7用户会话问题 - 无法初始化存储模块

如何解决《PHP7用户会话问题-无法初始化存储模块》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么我得到"'聚合操作只能用于RLMArray属性'"？

如何解决《为什么我得到"'聚合操作只能用于RLMArray属性'"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows 10上使用Excel interop无法打开超过11个Excel实例

如何解决《在Windows10上使用Excelinterop无法打开超过11个Excel实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何设置Android库模块并被Android Studio中的多个项目引用？

如何解决《如何设置Android库模块并被AndroidStudio中的多个项目引用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
WPF中的Prism弹出新窗口

如何解决《WPF中的Prism弹出新窗口》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么无法在CompilerPass中注入logger服务？

如何解决《为什么无法在CompilerPass中注入logger服务？》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否可以在设计用于go generate的模板上使用gofmt？

如何解决《是否可以在设计用于gogenerate的模板上使用gofmt？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何选择和复制未附加到活动的视图中的文本？

如何解决《如何选择和复制未附加到活动的视图中的文本？》经验，为你挑选了0个好方法。 ... [详细]
程序员
获取相应控制器操作视图文件的路径

如何解决《获取相应控制器操作视图文件的路径》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Boot和Spring Session，在SessionAutoConfigure.java中禁用自动配置

如何解决《SpringBoot和SpringSession，在SessionAutoConfigure.java中禁用自动配置》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scikit-learn zip参数#1必须支持迭代

如何解决《Scikit-learnzip参数#1必须支持迭代》经验，为你挑选了1个好方法。 ... [详细]
程序员
在excel中剪切字符串

如何解决《在excel中剪切字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用Jupyter键盘快捷键

如何解决《禁用Jupyter键盘快捷键》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用变量中的字典作为函数的一组参数

如何解决《使用变量中的字典作为函数的一组参数》经验，为你挑选了1个好方法。 ... [详细]

360691894_8a5c48

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章