1赞

RegEx匹配HTML标记并提取文本

作者：Chloemw | 2023-09-02 18:13

如何解决《RegEx匹配HTML标记并提取文本》经验，为你挑选了2个好方法。

我有一串这样的测试:

hey

我想使用RegEx修改"customtag"标签之间的文本,使其看起来像这样:

hey, this is changed!

我知道我可以使用MatchEvaluator来修改文本,但我不确定要使用正确的RegEx语法.任何帮助将非常感激.

1> Tjofras..：

我不会为此使用正则表达式,但如果你必须这个表达式应该工作: (.+?)

作为对他人的警告:它不适用于正确形成的语法| 某些文本 | - 管道符号之间的区域匹配,因此第二个将被删除,留下格式错误的XML.

或者只是([^ <] +).但是,HTML不是常规语言,因此在更一般的情况下,您不能使用正则表达式来匹配它.这与使用正则表达式匹配平衡括号的问题相同.

2> Bill Karwin..：

在使用正则表达式解析和修改HTML之前,我会嚼掉自己的腿.

使用XSL或DOM.

有两条评论让我澄清一下.正则表达式替换在OP的问题的特定情况下起作用,但通常正则表达式不是一个好的解决方案.正则表达式可以匹配常规语言,即可以被有限状态机接受的输入序列.HTML可以包含任意深度的嵌套标记,因此它不是常规语言.

这与这个问题有什么关系？在编写OP的问题时使用正则表达式,但如果标记之间的内容包含其他标记,该怎么办？如果文本中<出现文字字符怎么办？自从Jon Tackabury提出这个问题已经过去了11个月,而且我猜在那个时候,他的问题的复杂性可能会增加.

正则表达式是很好的工具,我一直都在使用它们.但是使用它们来代替真正的解析器以获得需要的输入只能在非常简单的情况下工作.这些案例实际上不可避免地超出了正则表达式所能处理的范围.当这种情况发生时,你会想要编写一个更复杂的正则表达式,但这些很快就会变得非常费力,无法进行开发和调试.准备好在解析需求扩展时废弃正则表达式解决方案.

XSL和DOM是两种标准技术,旨在使用XML或XHTML标记.这两种技术都知道如何解析结构化标记文件,跟踪嵌套标记,并允许您转换标记属性或内容.

以下是一些关于如何在C#中使用XSL的文章:

http://www.csharpfriends.com/Articles/getArticle.aspx?articleID=63

http://www.csharphelp.com/archives/archive78.html

这里有几篇关于如何在C#中使用DOM的文章:

http://msdn.microsoft.com/en-us/library/aa290341%28VS.71%29.aspx

http://blogs.msdn.com/tims/archive/2007/06/13/programming-html-with-c.aspx

这是一个.NET库,可以帮助HTML上的DOM和XSL操作:

http://www.codeplex.com/Wiki/View.aspx?ProjectName=htmlagilitypack

那你为什么不告诉我们如何用C#中的XSL或DOM来做呢？很容易做出全面的陈述.我们来看看实际的代码.正则表达式不适合解析一般HTML,但它们非常适合使用特定的HTML代码执行特定的操作.

推荐阅读

程序员
Javascript complex One-liner if语句

如何解决《JavascriptcomplexOne-linerif语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
String的NumberFormatException似乎是一个数字

如何解决《String的NumberFormatException似乎是一个数字》经验，为你挑选了0个好方法。 ... [详细]
程序员
BeautifulSoup:如何忽略虚假结束标记

如何解决《BeautifulSoup:如何忽略虚假结束标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
dict和set之间的区别(python)

如何解决《dict和set之间的区别(python)》经验，为你挑选了3个好方法。 ... [详细]
程序员
版本冲突更新到8.4.0

如何解决《版本冲突更新到8.4.0》经验，为你挑选了5个好方法。 ... [详细]
程序员
动态过滤器链接Java 8

如何解决《动态过滤器链接Java8》经验，为你挑选了1个好方法。 ... [详细]
程序员
理解多线程C#

如何解决《理解多线程C#》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果变量没有数据PHP,则隐藏输出

如何解决《如果变量没有数据PHP,则隐藏输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何选择列值为null的行？

如何解决《如何选择列值为null的行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何保护使用Electron构建的商业应用？

如何解决《如何保护使用Electron构建的商业应用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ASP.Net 5类库包中的EntityFramework命令？

如何解决《ASP.Net5类库包中的EntityFramework命令？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap垂直书写

如何解决《Bootstrap垂直书写》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS3 - 特殊的边界半径

如何解决《CSS3-特殊的边界半径》经验，为你挑选了1个好方法。 ... [详细]
程序员
蓝鸟警告"承诺是在处理程序中创建的,但未从中返回"

如何解决《蓝鸟警告"承诺是在处理程序中创建的,但未从中返回"》经验，为你挑选了2个好方法。 ... [详细]
程序员
没有名为_cffi_backend的模块

如何解决《没有名为_cffi_backend的模块》经验，为你挑选了2个好方法。 ... [详细]
程序员
std :: future.get()有时会卡在os x中

如何解决《std::future.get()有时会卡在osx中》经验，为你挑选了0个好方法。 ... [详细]
程序员
两个相同的字符串可以是C#中的两个独立实例吗？

如何解决《两个相同的字符串可以是C#中的两个独立实例吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
需要多个系列的堆积柱形图

如何解决《需要多个系列的堆积柱形图》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法用gulp启动webpack-dev-server

如何解决《无法用gulp启动webpack-dev-server》经验，为你挑选了1个好方法。 ... [详细]
程序员
类应用程序(框架)如何工作？

如何解决《类应用程序(框架)如何工作？》经验，为你挑选了1个好方法。 ... [详细]

Chloemw

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章