我从来不确定我理解str/unicode解码和编码之间的区别.
我知道这str().decode()
是因为当你有一个字符串,你知道它有一定的字符编码,给定编码名称它将返回一个unicode字符串.
我知道unicode().encode()
根据给定的编码名称将unicode字符转换为字符串.
但我不明白是什么str().encode()
,unicode().decode()
是为了什么.任何人都可以解释,并可能还纠正我上面遇到的任何其他错误吗?
编辑:
几个答案给出了.encode
关于字符串上的内容的信息,但似乎没有人知道.decode
unicode 是做什么的.
decode
unicode字符串的方法实际上根本没有任何应用程序(除非你出于某种原因在unicode字符串中有一些非文本数据 - 见下文).我认为这主要是出于历史原因.在Python 3中它完全消失了.
unicode().decode()
将执行隐式编码的s
使用默认(ASCII)编解码器.验证这样:
>>> s = u'ö' >>> s.decode() Traceback (most recent call last): File "", line 1, in UnicodeEncodeError: 'ascii' codec can't encode character u'\xf6' in position 0: ordinal not in range(128) >>> s.encode('ascii') Traceback (most recent call last): File " ", line 1, in UnicodeEncodeError: 'ascii' codec can't encode character u'\xf6' in position 0: ordinal not in range(128)
错误消息完全相同.
对于str().encode()
它周围的其他方法-它试图隐式解码的s
默认编码方式:
>>> s = 'ö' >>> s.decode('utf-8') u'\xf6' >>> s.encode() Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
像这样使用,str().encode()
也是多余的.
但后一种方法的另一个应用是有用的:存在与字符集无关的编码,因此可以以有意义的方式应用于8位字符串:
>>> s.encode('zip') 'x\x9c;\xbc\r\x00\x02>\x01z'
不过你是对的:对这两个应用程序的"编码"模糊用法是......尴尬.同样,使用Python 3中的单独byte
和string
类型,这不再是一个问题.
将unicode字符串表示为字节串称为编码.使用u'...'.encode(encoding)
.
例:
>>> u'æøå'.encode('utf8') '\xc3\x83\xc2\xa6\xc3\x83\xc2\xb8\xc3\x83\xc2\xa5' >>> u'æøå'.encode('latin1') '\xc3\xa6\xc3\xb8\xc3\xa5' >>> u'æøå'.encode('ascii') UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-5: ordinal not in range(128)
通常,只要需要将其用于IO,就可以对unicode字符串进行编码,例如通过网络传输,或将其保存到磁盘文件中.
将字符串转换为unicode字符串称为解码.使用unicode('...', encoding)
或'...'.解码(编码).
例:
>>> u'æøå' u'\xc3\xa6\xc3\xb8\xc3\xa5' # the interpreter prints the unicode object like so >>> unicode('\xc3\xa6\xc3\xb8\xc3\xa5', 'latin1') u'\xc3\xa6\xc3\xb8\xc3\xa5' >>> '\xc3\xa6\xc3\xb8\xc3\xa5'.decode('latin1') u'\xc3\xa6\xc3\xb8\xc3\xa5'
每当从网络或磁盘文件接收字符串数据时,通常会解码一串字节.
我相信在python 3中unicode处理有一些变化,所以上面的python 3可能不正确.
一些好的链接:
绝对最低每个软件开发人员绝对必须知道Unicode和字符集(没有借口!)
Unicode HOWTO
anUnicode.encode('encoding')产生一个字符串对象,可以在unicode对象上调用
ASTRING.decode('encoding')产生一个unicode对象,可以在一个字符串上调用,以给定的编码进行编码.
更多解释:
您可以创建一些unicode对象,该对象没有任何编码集.Python在内存中存储的方式无关紧要.你可以搜索它,拆分它并调用你喜欢的任何字符串操作函数.
但有一段时间,当你想将你的unicode对象打印到控制台或某个文本文件时.所以你必须对它进行编码(例如 - 在UTF-8中),你调用encode('utf-8'),你会得到一个内部带有'\ u
然后,再次 - 你想做相反的事情 - 读取UTF-8编码的字符串并将其视为Unicode,因此\ u360将是一个字符,而不是5.然后你解码一个字符串(使用选定的编码)和获得unicode类型的全新对象.
正如旁注 - 你可以选择一些变态编码,如'zip','base64','rot',其中一些将从字符串转换为字符串,但我相信最常见的情况是涉及UTF-8/UTF-16和字符串.
mybytestring.encode(somecodec)对以下值有意义somecodec
:
BASE64
BZ2
zlib的
十六进制
quopri
ROT13
string_escape
UU
我不确定解码已经解码的unicode文本是什么有用的.尝试使用任何编码似乎总是尝试首先使用系统的默认编码进行编码.
有一些编码可用于从str到str或从unicode到unicode进行解码/编码.例如base64,hex或甚至rot13.它们列在编解码器模块中.
编辑:
unicode字符串上的解码消息可以撤消相应的编码操作:
In [1]: u'0a'.decode('hex') Out[1]: '\n'
返回的类型是str而不是unicode,这在我看来是不幸的.但是当你没有在str和unicode之间进行适当的en//解码时,无论如何这看起来都像是一团糟.