当前位置:  开发笔记 > 编程语言 > 正文

寻找包含字母数字+"&"和";"的正则表达式

如何解决《寻找包含字母数字+"&"和";"的正则表达式》经验,为你挑选了2个好方法。

这是问题所在:

split=re.compile('\\W*')

这个正则表达式在处理常规单词时工作正常,但有时候我需要表达式包含像käyttäj&aml;auml;.

我应该在正则表达式中添加什么来包含&;字符?



1> Konrad Rudol..:

我会将实体视为一个单元(因为它们也可以包含数字字符代码),从而产生以下正则表达式:

(\w|&(#(x[0-9a-fA-F]+|[0-9]+)|[a-z]+);)+

这匹配

要么是单词字符(包括" _"),要么是

由...组成的HTML实体

字符" &",

字符" #",

字符" x"后跟至少一个十六进制数字,或

至少一个十进制数字,或

至少一个字母(=命名实体),

分号

至少一次.

/编辑:感谢ΤΖΩΤΖΙΟΥ指出错误.



2> PierreBdR..:

你可能想要反过来解决问题,即找到没有空格的所有字符:

[^ \t\n]*

或者您想要添加额外的字符:

[a-zA-Z0-9&;]*

如果你想匹配HTML实体,你应该尝试类似的东西:

(\w+|&\w+;)*

推荐阅读
凹凸曼00威威_694
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有