6赞

Python 2.7.6将单个"高"unicode代码点拆分为两个

作者：和谐啄木鸟 | 2023-06-15 09:04

如何解决《Python2.7.6将单个"高"unicode代码点拆分为两个》经验，为你挑选了0个好方法。

作为MySQL在遇到"高"(序数> = 2 ^ 16)代码点时截断unicode字符串的一种解决方法,我一直在使用一个逐步执行字符串的小Python方法(字符串是序列,记住),ord()在字符上,并通过替换其他内容或直接删除代码点来取代截断.这已经在许多使用Python 2.7.3的机器上运行(Ubuntu 12.04 LTS,一些Centos 6,混合32位和64位CPU,到目前为止还不重要).

我注意到在Python 2.7.6安装上,这会中断.Ascii字符和"低"代码点(序数<2 ^ 16)表现如前.但是高代码点(> = 2 ^ 16)表现得非常奇怪.Python2.7.6似乎将它们视为两个代码点.这是一个基础知识的测试用例:

### "good" machine, Python2.7.3
$ uname -a && echo $LANG
Linux *** 3.2.0-60-virtual #91-Ubuntu SMP Wed Feb 19 04:13:28 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux
en_US.UTF-8
$ python2.7
Python 2.7.3 (default, Feb 27 2014, 19:58:35) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> utest = u'a\u0395\U0001f30e'    # three chars: ascii, "low" codepoint, "high" codepoint
>>> utest.__class__

>>> len(utest), hash(utest)
(3, 1453079728409075183)
>>> list(utest)        # split into list of single chars
[u'a', u'\u0395', u'\U0001f30e']
>>> utest[2]   # trying to extract third char (high codepoint)
u'\U0001f30e'
>>> len(utest[2])
1
>>> "%x" % ord(utest[2])
'1f30e'

这是预期的行为.我用三个字符初始化一个unicode字符串.Python说它是三个字符,它可以"解决"第三个字符,返回单个预期的高代码点.如果我得到该代码点的序数,我会得到与原始转义序列中相同的数字.

现在是Python 2.7.6

### "bad" machine, Python 2.7.6
$ uname -a && echo $LANG
Linux *** 2.6.32-431.5.1.el6.x86_64 #1 SMP Wed Feb 12 00:41:43 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux
en_US.UTF-8
$ python2.7
Python 2.7.6 (default, Jan 29 2014, 20:05:36)
[GCC 4.4.7 20120313 (Red Hat 4.4.7-4)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> utest = u'a\u0395\U0001f30e'
>>> utest.__class__

>>> len(utest), hash(utest)    # !!!
(4, -2836525916470507760)

第一个差异:Python 2.7.6表示utest的长度为4.哈希值也不同.下一个惊喜:

>>> list(utest)                # !!!
[u'a', u'\u0395', u'\ud83c', u'\udf0e']

不仅长度表现得很奇怪,分裂成单个字符甚至更奇怪,因为高码点的两个"半"变成两个低码点,没有明显的数字关系 - 至少对我来说 - 对于原始码点.

通过序列索引来解决该代码点表现出相同的破坏:

>>> utest[2]
u'\ud83c'

为了获得原始的高代码点,我现在必须使用两个字符的切片:

>>> utest[2:4]
u'\U0001f30e'

但是,如果不是很明显,Python2.7.6仍然在内部将其视为两个代码点.我没办法从中得到一个序数.

>>> len(utest[2:4])
2
>>> "%x" % ord(utest[2:4])
Traceback (most recent call last):
  File "", line 1, in 
TypeError: ord() expected a character, but string of length 2 found

那么该怎么办？我的代码取决于unicode字符串中的代码点的序数.如果一个代码点有时真的是两个代码点,那么我的序数就会变得毫无意义,而我的代码也无法执行它的功能.

这种行为有理由吗？这是故意改变吗？是否有一些配置旋钮我可以在Python内部或系统级别恢复旧的行为？猴子补丁？我不知道在哪里看.

不幸的是,我甚至无法将其缩小到精确的次要版本.我们有很多2.7.3,一些2.7.1和几个2.7.6安装.否2.7.4/2.7.5.我只能说,我在任何2.7.3安装上都没有遇到过这个问题.

额外信息:将字符串编码为utf8会产生两个Python版本完全相同的响应(相同的字符,相同的长度,相同的哈希值).再次解码编码的utf8仍然会让我回到正方形1(即它不是解决方法,行为在unicode空间中仍然存在分歧).

推荐阅读

程序员
如何将@Configuration和@EnableScheduling与Spring Batch一起使用

如何解决《如何将@Configuration和@EnableScheduling与SpringBatch一起使用》经验，为你挑选了0个好方法。 ... [详细]
程序员
anaconda - windows中的路径环境变量

如何解决《anaconda-windows中的路径环境变量》经验，为你挑选了4个好方法。 ... [详细]
程序员
Haskell的逆向性:从Tardis到RevState

如何解决《Haskell的逆向性:从Tardis到RevState》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用GitPython检查合并是否存在冲突

如何解决《使用GitPython检查合并是否存在冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
预定的WebJob

如何解决《预定的WebJob》经验，为你挑选了2个好方法。 ... [详细]
程序员
我们怎么知道Activity共享元素转换将会运行？

如何解决《我们怎么知道Activity共享元素转换将会运行？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python中的默认舍入模式,以及如何将其指定为另一个？

如何解决《python中的默认舍入模式,以及如何将其指定为另一个？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何创建一个"外部模块"打字稿定义文件以包含一个npm包？

如何解决《如何创建一个"外部模块"打字稿定义文件以包含一个npm包？》经验，为你挑选了0个好方法。 ... [详细]
程序员
鼠标悬停在轴标签d3.js javascript上的事件

如何解决《鼠标悬停在轴标签d3.jsjavascript上的事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
java中的GUI问题

如何解决《java中的GUI问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
cout << std :: ios :: hex有什么作用？

如何解决《cout<<std::ios::hex有什么作用？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Android Studio Start Failed:初始化'com.intellij.util.net.ssl.certificatemanager'时出现致命错误

如何解决《AndroidStudioStartFailed:初始化'com.intellij.util.net.ssl.certificatemanager'时出现致命错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否存在与Perforce的"文件同步到先前版本"图标的Tortoise SVN模拟

如何解决《是否存在与Perforce的"文件同步到先前版本"图标的TortoiseSVN模拟》经验，为你挑选了1个好方法。 ... [详细]
程序员
交叉表故障("返回和sql元组描述不兼容")

如何解决《交叉表故障("返回和sql元组描述不兼容")》经验，为你挑选了1个好方法。 ... [详细]
程序员
用变量base在python中向上计数

如何解决《用变量base在python中向上计数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Jersey StreamingOutput上调用flush()没有任何效果

如何解决《在JerseyStreamingOutput上调用flush()没有任何效果》经验，为你挑选了0个好方法。 ... [详细]
程序员
C#在JSON中搜索而不反序列化

如何解决《C#在JSON中搜索而不反序列化》经验，为你挑选了1个好方法。 ... [详细]
程序员
NSNotification子类与Swift 2.1中的Generics

如何解决《NSNotification子类与Swift2.1中的Generics》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查两个数字是否有不同符号的简单方法？

如何解决《检查两个数字是否有不同符号的简单方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
OS X屏幕保护程序:Retina缩略图图像

如何解决《OSX屏幕保护程序:Retina缩略图图像》经验，为你挑选了0个好方法。 ... [详细]

和谐啄木鸟

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章