我有一串这样的测试:
hey
我想使用RegEx修改"customtag"标签之间的文本,使其看起来像这样:
hey, this is changed!
我知道我可以使用MatchEvaluator来修改文本,但我不确定要使用正确的RegEx语法.任何帮助将非常感激.
我不会为此使用正则表达式,但如果你必须这个表达式应该工作:
在使用正则表达式解析和修改HTML之前,我会嚼掉自己的腿.
使用XSL或DOM.
有两条评论让我澄清一下.正则表达式替换在OP的问题的特定情况下起作用,但通常正则表达式不是一个好的解决方案.正则表达式可以匹配常规语言,即可以被有限状态机接受的输入序列.HTML可以包含任意深度的嵌套标记,因此它不是常规语言.
这与这个问题有什么关系?在编写OP的问题时使用正则表达式,但如果
标记之间的内容包含其他标记,该怎么办?如果文本中<
出现文字字符怎么办?自从Jon Tackabury提出这个问题已经过去了11个月,而且我猜在那个时候,他的问题的复杂性可能会增加.
正则表达式是很好的工具,我一直都在使用它们.但是使用它们来代替真正的解析器以获得需要的输入只能在非常简单的情况下工作.这些案例实际上不可避免地超出了正则表达式所能处理的范围.当这种情况发生时,你会想要编写一个更复杂的正则表达式,但这些很快就会变得非常费力,无法进行开发和调试.准备好在解析需求扩展时废弃正则表达式解决方案.
XSL和DOM是两种标准技术,旨在使用XML或XHTML标记.这两种技术都知道如何解析结构化标记文件,跟踪嵌套标记,并允许您转换标记属性或内容.
以下是一些关于如何在C#中使用XSL的文章:
http://www.csharpfriends.com/Articles/getArticle.aspx?articleID=63
http://www.csharphelp.com/archives/archive78.html
这里有几篇关于如何在C#中使用DOM的文章:
http://msdn.microsoft.com/en-us/library/aa290341%28VS.71%29.aspx
http://blogs.msdn.com/tims/archive/2007/06/13/programming-html-with-c.aspx
这是一个.NET库,可以帮助HTML上的DOM和XSL操作:
http://www.codeplex.com/Wiki/View.aspx?ProjectName=htmlagilitypack