8赞

为什么unicode()只在没有给出编码的情况下对我的对象使用str()？

作者：惬听风吟jyy_802 | 2023-09-05 11:21

如何解决《为什么unicode()只在没有给出编码的情况下对我的对象使用str()？》经验，为你挑选了1个好方法。

我首先创建一个字符串变量,其中包含一些非ascii utf-8编码数据:

>>> text = 'á'
>>> text
'\xc3\xa1'
>>> text.decode('utf-8')
u'\xe1'

使用unicode()它会引发错误......

>>> unicode(text)
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: 
                    ordinal not in range(128)

...但如果我知道编码,我可以将它用作第二个参数:

>>> unicode(text, 'utf-8')
u'\xe1'
>>> unicode(text, 'utf-8') == text.decode('utf-8')
True

现在,如果我有一个在该__str__()方法中返回此文本的类:

>>> class ReturnsEncoded(object):
...     def __str__(self):
...         return text
... 
>>> r = ReturnsEncoded()
>>> str(r)
'\xc3\xa1'

unicode(r)似乎使用str()它,因为它引起了与unicode(text)上面相同的错误:

>>> unicode(r)
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: 
                    ordinal not in range(128)

到现在为止一切都按计划进行!

但正如没有人会想到的那样,unicode(r, 'utf-8')甚至不会尝试:

>>> unicode(r, 'utf-8')
Traceback (most recent call last):
  File "", line 1, in 
TypeError: coercing to Unicode: need string or buffer, ReturnsEncoded found

为什么？为什么这种不一致的行为？这是一个错误吗？是打算吗？很尴尬.

1> Blair Conrad..：

这种行为确实令人困惑,但具有内涵.我在这里重现了Python内置函数文档中的整个unicode文档(对于版本2.5.2,我写这篇文章):

unicode([object [,encoding [,errors]]])

使用以下模式之一返回对象的Unicode字符串版本:

如果给出了编码和/或错误,unicode()将使用编解码器解码对象,该对象可以是8位字符串或字符缓冲区.encoding参数是一个给出编码名称的字符串; 如果编码未知,则引发LookupError.错误处理是根据错误完成的; 这指定了对输入编码中无效的字符的处理.如果错误是'strict'(默认值),则会在错误时引发ValueError,而'ignore'的值会导致错误被忽略,而'replace'的值会导致官方的Unicode替换字符U + FFFD,用于替换无法解码的输入字符.另请参阅编解码器模块.

如果没有给出可选参数,unicode()将模仿str()的行为,除了它返回Unicode字符串而不是8位字符串.更确切地说,如果object是Unicode字符串或子类,它将返回该Unicode字符串,而不应用任何其他解码.

对于提供__unicode __()方法的对象,它将调用此方法而不使用参数来创建Unicode字符串.对于所有其他对象,请求8位字符串版本或表示,然后使用"严格"模式下的默认编码的编解码器将其转换为Unicode字符串.

2.0版中的新功能.在2.2版中更改:添加了对__unicode __()的支持.

因此,当您调用时unicode(r, 'utf-8'),它需要一个8位字符串或一个字符缓冲区作为第一个参数,因此它使用该__str__()方法强制您的对象,并尝试使用utf-8编解码器对其进行解码.没有utf-8,unicode()函数__unicode__()在你的对象上寻找一个方法,而不是找到它,调用__str__(),按照您的建议方法,尝试使用默认编解码器转换为unicode.

推荐阅读

程序员
在webpack文件的顶部添加注释

如何解决《在webpack文件的顶部添加注释》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不从第一项开始的情况下打印整个列表

如何解决《如何在不从第一项开始的情况下打印整个列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
应用程序在iPad上运行时,Xcode 7错误消息"__connection_block_invoke_2中的错误:连接中断"

如何解决《应用程序在iPad上运行时,Xcode7错误消息"__connection_block_invoke_2中的错误:连接中断"》经验，为你挑选了0个好方法。 ... [详细]
程序员
外部CSS样式表未加载

如何解决《外部CSS样式表未加载》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PHP字符串中替换表意空间？

如何解决《如何在PHP字符串中替换表意空间？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Assembly.LoadFile()之前从DLL读取属性

如何解决《如何在Assembly.LoadFile()之前从DLL读取属性》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决"错误:无法读取应用程序的Info.plist(无法加载DVTFilePath的信息字典)"

如何解决《如何解决"错误:无法读取应用程序的Info.plist(无法加载DVTFilePath的信息字典)"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在等待JS加载内容后解析HTML页面？

如何解决《如何在等待JS加载内容后解析HTML页面？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果可能的话，如何使Momentjs不是Angularjs中的全局变量

如何解决《如果可能的话，如何使Momentjs不是Angularjs中的全局变量》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在meanjs中获得基本网址？

如何解决《如何在meanjs中获得基本网址？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法从一个点填充,直到它使用HTML Canvas和JavaScript到达边框？

如何解决《有没有办法从一个点填充,直到它使用HTMLCanvas和JavaScript到达边框？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从WPF RichTextBox中删除特定字符串？

如何解决《如何从WPFRichTextBox中删除特定字符串？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在visual studio上以管理员身份运行最近的项目或解决方案

如何解决《如何在visualstudio上以管理员身份运行最近的项目或解决方案》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用正则表达式替换字符串中的参数

如何解决《使用正则表达式替换字符串中的参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python Scatter Plot,每个X都有多个Y值

如何解决《PythonScatterPlot,每个X都有多个Y值》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除由角度组件创建的主机HTML元素选择器

如何解决《删除由角度组件创建的主机HTML元素选择器》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何设置'crates.io'的本地存储库？

如何解决《如何设置'crates.io'的本地存储库？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Azure Portal无法创建新的os磁盘,vm映像等

如何解决《AzurePortal无法创建新的os磁盘,vm映像等》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何管理iOS apns令牌更改

如何解决《如何管理iOSapns令牌更改》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Javascript在每个第二个字符后添加冒号(:)

如何解决《使用Javascript在每个第二个字符后添加冒号(:)》经验，为你挑选了2个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章