当前位置:  开发笔记 > 编程语言 > 正文

如何在python中取消引用urlencoded unicode字符串?

如何解决《如何在python中取消引用urlencodedunicode字符串?》经验,为你挑选了3个好方法。

我有一个像"Tanım"这样的unicode字符串,它以某种方式被编码为"Tan%u0131m".如何将此编码的字符串转换回原始的unicode.显然urllib.unquote不支持unicode.



1> Aaron Maenpa..:

%uXXXX是一种非标准的编码方案,虽然实际上仍然存在于JavaScript领域,但已被w3c拒绝.

更常见的技术似乎是UTF-8编码字符串,然后%%使用%XX转义结果字节.urllib.unquote支持此方案:

>>> urllib2.unquote("%0a")
'\n'

不幸的是,如果你真的需要支持%uXXXX,你可能不得不推出自己的解码器.否则,简单地UTF-8编码你的unicode然后%转义结果字节可能更为可取.

一个更完整的例子:

>>> u"Tan?m"
u'Tan\u0131m'
>>> url = urllib.quote(u"Tan?m".encode('utf8'))
>>> urllib.unquote(url).decode('utf8')
u'Tan\u0131m'


'urllib2.unquote'应为'urllib.unquote'

2> Markus Jarde..:
def unquote(text):
    def unicode_unquoter(match):
        return unichr(int(match.group(1),16))
    return re.sub(r'%u([0-9a-fA-F]{4})',unicode_unquoter,text)



3> Ali Afshar..:

如果你绝对必须这样做,我会这样做(我真的同意"非标准"的呼声):

from urllib import unquote

def unquote_u(source):
    result = unquote(source)
    if '%u' in result:
        result = result.replace('%u','\\u').decode('unicode_escape')
    return result

print unquote_u('Tan%u0131m')

> Tan?m

推荐阅读
殉情放开那只小兔子
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有