11赞

Python2.7 中文字符编码，使用Unicode时，选择什么编码格式？

作者：手机用户2402852387 | 2021-09-08 09:07

回复内容：关于编码和乱码的问题，我简单讲一下。通常问这类问题的人是混淆了若干个不同的概念，并且他们自己也没有意识到自己混淆了这些概念的。终端显示字符的编码（windows下终端是cmd，linux下是各种terminal，远程登录是putty或者xshell）shell环境的编码。比如中文版wind

回复内容：

关于编码和乱码的问题，我简单讲一下。

通常问这类问题的人是混淆了若干个不同的概念，并且他们自己也没有意识到自己混淆了这些概念的。

终端显示字符的编码（windows下终端是cmd，linux下是各种terminal，远程登录是putty或者xshell）
shell环境的编码。比如中文版windows用的是gbk（向下兼容gb2312），大多数linux发行版使用的是utf-8（LANG=zh_CN.UTF-8）。
文本文件的编码。这个通常取决于你的编辑器，而且有的编辑器支持多种编码的话，你可以在文本开头位置指定编辑器使用特定编码。比如# -*- coding: utf8 -*-，vim看到这行会默认将这个脚本认定为utf-8兼容编码格式。
应用程序的内部编码。一个字符串，作为数据只是一个字节数组，但是作为字符的数组，就有一个解析方式。java和python的内部字符编码是utf-16，python和java都支持用不同的编码来对字节数组进行decode来得到字符数组。

拿题主的问题来解释一下。

我在ubuntu kylin中文环境下默认terminal中做了同样的实验，但是结果和题主恰好相反：

看见没有？

题主和我都没有说谎，这是为什么呢？
因为

unicode("汉字","gb2312")

我觉得关键是区分“字节”和“字符”的概念，还要知道一点点字体的常识。

“字符”可以看成是一个抽象概念，如当楼主说“汉字”，其实他意思是表达的是表示这么一个概念的两个字符。

当字符在计算机中表示的时候，需要编码成二进制（字节），于是就出现了不同的编码方式，如 GBK, UTF-8 等。如 Kenneth 展示的，“汉字”这两个字符在 GBK 中编码为 0xBABAD7D6，而在 UTF-8 中编码为 0xE6B189E5AD97。

最终显示时，则还要根据所使用的字体，把抽象的字符转化成具象的图像。

所以，楼主的第一个问题在于虽然你看到的是“汉字”的图像，但其在该脚本的源文件中的字节编码可能是任何一种——在 Windows 下是 GBK 或 GB18030 等。于是 python 看到的是一串 GBK / GB18030 编码的字节，而你试图告诉 python 这是 UTF-8 编码的，那自然报错了。

第二个问题，对 SQL Server 不熟，不过看起来原因是当你把从数据库读出的数据（字节形式，可能是 GBK 等非 Unicode 编码）放入 unit 这个变量的时候，程序错把非 Unicode 编码的字节当成 Unicode 编码解释了。那么排查思路应该是搞清楚数据在读出时是什么编码（这可能跟数据存入时的编码相关，也可能跟数据库配置有关），以及存入 unit 时程序做了哪些转换。

推荐阅读

程序员
如何在没有UTF-8特定代码的情况下解析多语言文档

如何解决《如何在没有UTF-8特定代码的情况下解析多语言文档》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误"java.lang.NoSuchFieldError:WRITE_DURATIONS_AS_TIMESTAMPS"

如何解决《错误"java.lang.NoSuchFieldError:WRITE_DURATIONS_AS_TIMESTAMPS"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang结构数组值不附加In循环

如何解决《Golang结构数组值不附加In循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
功能等同于带有变量比较的if表达式

如何解决《功能等同于带有变量比较的if表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有一个函数来检查安装了devtools :: install_github的软件包是否已更新？

如何解决《是否有一个函数来检查安装了devtools::install_github的软件包是否已更新？》经验，为你挑选了0个好方法。 ... [详细]
程序员
仅在需要AngularJS时才注入模块依赖项(如插件)

如何解决《仅在需要AngularJS时才注入模块依赖项(如插件)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ruby:定义自己的转换方法/协议

如何解决《Ruby:定义自己的转换方法/协议》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在oracle中将日期转换为时间戳(DD-MON-YYYY HH24:MI:SS.FF格式)？

如何解决《如何在oracle中将日期转换为时间戳(DD-MON-YYYYHH24:MI:SS.FF格式)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在角度中使用npm模块？

如何解决《如何在角度中使用npm模块？》经验，为你挑选了0个好方法。 ... [详细]
程序员
laravel / dingo API上的变压器用法

如何解决《laravel/dingoAPI上的变压器用法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Qt Android蓝牙套接字在Android 5.1.1和6.0上编写问题

如何解决《QtAndroid蓝牙套接字在Android5.1.1和6.0上编写问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
将currentCalendar()Date转换为NSCalendarIdentifierChinese

如何解决《将currentCalendar()Date转换为NSCalendarIdentifierChinese》经验，为你挑选了0个好方法。 ... [详细]
程序员
子字符串:在字符串中获取"或"出现的索引

如何解决《子字符串:在字符串中获取"或"出现的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
将一列字符串转换为Pandas中的整数列

如何解决《将一列字符串转换为Pandas中的整数列》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS9:canOpenURL为WhatApp的url方案返回false

如何解决《iOS9:canOpenURL为WhatApp的url方案返回false》经验，为你挑选了1个好方法。 ... [详细]
程序员
在构建意图时,"这个"是指什么

如何解决《在构建意图时,"这个"是指什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果两者都有position:absolute,那么元素及其子元素的左值和顶值是什么？

如何解决《如果两者都有position:absolute,那么元素及其子元素的左值和顶值是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
垂直对齐图像和文本在表中

如何解决《垂直对齐图像和文本在表中》经验，为你挑选了1个好方法。 ... [详细]
程序员
NestedScrollView在Recyclerview调整大小时滚动到顶部

如何解决《NestedScrollView在Recyclerview调整大小时滚动到顶部》经验，为你挑选了2个好方法。 ... [详细]
程序员
Caffe可以扩展到多个CPU核心吗？

如何解决《Caffe可以扩展到多个CPU核心吗？》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402852387

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章