当前位置:  开发笔记 > 前端 > 正文

正则表达式匹配HTML中的属性?

如何解决《正则表达式匹配HTML中的属性?》经验,为你挑选了1个好方法。

我有一个txt文件,实际上是某个网页的html源代码.在该txt文件中,有各种字符串,前面是"title ="标记.例如

我有兴趣将文本连接框架引入并写入单独的文件.

与此类似,也有每个具有所有权后不同的文字很多这样的标签="这里一些文字,我需要提取"我想从HTML源/ TXT文件中提取文本的所有这样的情况下,写一个单独的TXT文件.文本可以包含小写字母,大写字母和数字.每个文本字符串的长度(以字符为单位)会有所不同.

我正在使用PowerGrep for windows.Powergrep允许我使用正则表达式inout搜索文本文件.我尝试使用搜索作为title ='[a-zA-Z0-9]

它显示了正确的比赛,但只有字符串的第一个字符匹配,并且只写匹配到第二个txt文件,而不是所有的字符串文本字符串的第一个字符.

我希望所有字符串都匹配并写入第二个文件.

什么是正确的正则表达式或办法做我想做的事,使用powergrep?

-广告.



1> cletus..:

我只是不确定有多少次必须要求正确表达式解析HTML文件的问题(并使用"使用DOM解析器"的正确解决方案来回答).它每天都会出现.

困难是:

在HTML中,属性可以有单引号,双引号甚至没有引号;

类似的字符串可以出现在HTML文档本身中;

你必须处理正确的逃避; 和

格式错误的HTML(适当的解析器对常见错误非常强大).

因此,如果您满足所有这些(并且它是一个相当复杂但仍然不完美的正则表达式),它仍然不是100%.

HTML解析器存在是有原因的.使用它们.

推荐阅读
mobiledu2402851323
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有