13赞

在python中过滤非法xml unicode字符的快速方法？

作者：雯颜哥_135 | 2023-08-15 21:22

如何解决《在python中过滤非法xmlunicode字符的快速方法？》经验，为你挑选了1个好方法。

该XML规范列出一串Unicode字符要么是非法或"望而却步".给定一个字符串,如何从中删除所有非法字符？

我提出了以下正则表达式,但它有点满口.

illegal_xml_re = re.compile(u'[\x00-\x08\x0b-\x1f\x7f-\x84\x86-\x9f\ud800-\udfff\ufdd0-\ufddf\ufffe-\uffff]')
clean = illegal_xml_re.sub('', dirty)

(Python 2.5不知道0xFFFF以上的Unicode字符,所以不需要过滤那些.)

1> Olemis Lang..：

最近我们(Trac XmlRpcPlugin维护者)已经被告知上面的正则表达式在Python窄版本上剥离了代理对(参见:评论:13:ticket:11050).另一种方法是使用以下正则表达式(参见:changeset:13729).

_illegal_unichrs = [(0x00, 0x08), (0x0B, 0x0C), (0x0E, 0x1F), 
                        (0x7F, 0x84), (0x86, 0x9F), 
                        (0xFDD0, 0xFDDF), (0xFFFE, 0xFFFF)] 
if sys.maxunicode >= 0x10000:  # not narrow build 
        _illegal_unichrs.extend([(0x1FFFE, 0x1FFFF), (0x2FFFE, 0x2FFFF), 
                                 (0x3FFFE, 0x3FFFF), (0x4FFFE, 0x4FFFF), 
                                 (0x5FFFE, 0x5FFFF), (0x6FFFE, 0x6FFFF), 
                                 (0x7FFFE, 0x7FFFF), (0x8FFFE, 0x8FFFF), 
                                 (0x9FFFE, 0x9FFFF), (0xAFFFE, 0xAFFFF), 
                                 (0xBFFFE, 0xBFFFF), (0xCFFFE, 0xCFFFF), 
                                 (0xDFFFE, 0xDFFFF), (0xEFFFE, 0xEFFFF), 
                                 (0xFFFFE, 0xFFFFF), (0x10FFFE, 0x10FFFF)]) 

_illegal_ranges = ["%s-%s" % (unichr(low), unichr(high)) 
                   for (low, high) in _illegal_unichrs] 
_illegal_xml_chars_RE = re.compile(u'[%s]' % u''.join(_illegal_ranges))

ps请参阅这篇关于代理人的帖子,解释他们的用途.

更新以便不匹配(替换)0x0D这是一个有效的XML字符.

推荐阅读

程序员
缺少Type.GetMember和MemberInfo.GetCustomAttributes（C＃PCL .NET 4.6）

如何解决《缺少Type.GetMember和MemberInfo.GetCustomAttributes（C＃PCL.NET4.6）》经验，为你挑选了1个好方法。 ... [详细]
程序员
转储Postgres DB，时间和.sql文件的权重

如何解决《转储PostgresDB，时间和.sql文件的权重》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何直接写入模仿scalar_summary的摘要？

如何解决《如何直接写入模仿scalar_summary的摘要？》经验，为你挑选了2个好方法。 ... [详细]
程序员
更改左侧的ToolBar默认图标

如何解决《更改左侧的ToolBar默认图标》经验，为你挑选了1个好方法。 ... [详细]
程序员
BufferedWriter类的writeLine方法

如何解决《BufferedWriter类的writeLine方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
部分索引的局限性是什么？

如何解决《部分索引的局限性是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我怎样才能简单地添加一个Spring Data REST实体的链接

如何解决《我怎样才能简单地添加一个SpringDataREST实体的链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这个函数返回NaN？

如何解决《为什么这个函数返回NaN？》经验，为你挑选了0个好方法。 ... [详细]
程序员
由于约束错误,无法在C#中实现VB接口

如何解决《由于约束错误,无法在C#中实现VB接口》经验，为你挑选了1个好方法。 ... [详细]
程序员
从SPARK中的另一个RDD返回最大N值的RDD

如何解决《从SPARK中的另一个RDD返回最大N值的RDD》经验，为你挑选了1个好方法。 ... [详细]
程序员
Try-catch创建无限循环

如何解决《Try-catch创建无限循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
E_UNEXPECTED UWP灾难性失败

如何解决《E_UNEXPECTEDUWP灾难性失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何识别向量中一系列NA的索引

如何解决《如何识别向量中一系列NA的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
由2个分支共享的Git rebase 2提交

如何解决《由2个分支共享的Gitrebase2提交》经验，为你挑选了1个好方法。 ... [详细]
程序员
一种方法在几种方法中调用

如何解决《一种方法在几种方法中调用》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在flask-migrate迁移中自动导入模块

如何解决《如何在flask-migrate迁移中自动导入模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
纵向和横向模式下的不同布局

如何解决《纵向和横向模式下的不同布局》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将变量从BeforeTest传递给Test annotation

如何解决《如何将变量从BeforeTest传递给Testannotation》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过Javascript函数打开和关闭对话框元素

如何解决《通过Javascript函数打开和关闭对话框元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
将TextWatcher与自定义适配器连接以通过EditText过滤文本

如何解决《将TextWatcher与自定义适配器连接以通过EditText过滤文本》经验，为你挑选了0个好方法。 ... [详细]

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章