我有一个像"Tanım"这样的unicode字符串,它以某种方式被编码为"Tan%u0131m".如何将此编码的字符串转换回原始的unicode.显然urllib.unquote不支持unicode.
%uXXXX是一种非标准的编码方案,虽然实际上仍然存在于JavaScript领域,但已被w3c拒绝.
更常见的技术似乎是UTF-8编码字符串,然后%%使用%XX转义结果字节.urllib.unquote支持此方案:
>>> urllib2.unquote("%0a") '\n'
不幸的是,如果你真的需要支持%uXXXX,你可能不得不推出自己的解码器.否则,简单地UTF-8编码你的unicode然后%转义结果字节可能更为可取.
一个更完整的例子:
>>> u"Tan?m" u'Tan\u0131m' >>> url = urllib.quote(u"Tan?m".encode('utf8')) >>> urllib.unquote(url).decode('utf8') u'Tan\u0131m'
def unquote(text): def unicode_unquoter(match): return unichr(int(match.group(1),16)) return re.sub(r'%u([0-9a-fA-F]{4})',unicode_unquoter,text)
如果你绝对必须这样做,我会这样做(我真的同意"非标准"的呼声):
from urllib import unquote def unquote_u(source): result = unquote(source) if '%u' in result: result = result.replace('%u','\\u').decode('unicode_escape') return result print unquote_u('Tan%u0131m') > Tan?m