当前位置:  开发笔记 > 编程语言 > 正文

GB18030与Unicode有何不同?

如何解决《GB18030与Unicode有何不同?》经验,为你挑选了2个好方法。

中文GB18030代码集与Unicode有何不同?

处理GB18030需要哪些特殊技术?

是否有用于处理GB18030的(开源)库?



1> Bradley Grai..:

根据维基百科关于GB18030的文章,"GB18030可以被认为是Unicode转换格式(即所有Unicode代码点的编码),可以保持与传统字符集的兼容性." 也就是说,所有Unicode字符都可以在GB18030中编码,但它们将使用与使用UTF-8或UTF-16生成的字节序列不同的字节序列进行编码.处理GB18030编码不需要任何比任何其他非Unicode编码所需的更多特殊技术.

在ICU项目是一个开源库(用于C或Java),有许多不同的编码,包括GB18030全力支持.可以在此处找到有关使用ICU在不同编码之间进行转换的信息.


@MihaiNita:根据Unicode术语表,[转换格式](http://unicode.org/glossary/#transformation_format)是"从编码字符序列映射到唯一的代码单元序列(通常是字节)", [编码字符序列](http://unicode.org/glossary/#coded_character_sequence)是"一个或多个代码点的有序序列".只要每个Unicode代码点映射到一系列字节,似乎可以将其视为"Unicode转换格式".

2> dan04..:

处理GB18030需要哪些特殊技术?

需要注意的最重要的是,与UTF-8不同,GB18030允许在多字节字符的编码中出现ASCII字节.(例如,'ß'被编码为字节81 30 89 38,其中包含ASCII编码'0'和'8'.)这意味着您不能使用简单的面向字节的find/ index函数.

推荐阅读
手机用户2402852307
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有