当前位置:  开发笔记 > 编程语言 > 正文

删除所有HTML标记和格式(RegEx)

如何解决《删除所有HTML标记和格式(RegEx)》经验,为你挑选了1个好方法。

我有想要在飞行中修改的RSS源,我需要的是文本(和换行)所以其他一切都必须删除(所有图像,样式,链接)

如何使用ASP.NET c#轻松完成此操作



1> bobince..:

正则表达式无法解析XML.不要使用正则表达式来解析XML.不要过去Go.不要收200英镑.

您需要一个合适的XML解析器.将RSS加载到XMLDocument中,然后使用innerText仅获取文本内容.

请注意,即使您从RSS中提取了描述内容,它也可以包含活动的HTML.那是:

 <em>Fish</em> &amp; chips 

可以,当正确解析为XML然后作为文本读取给你文字字符串:

Fish & chips

或者,标记:

和薯条

关于RSS的有趣之处在于你并不知道哪个是对的.在RSS 2.0中,它是明确的HTML标记(第二种情况); 在其他版本中没有指定.通常,您应该假设描述可以包含实体编码的HTML标记,如果您想进一步从最终文本中删除它们,则需要第二个解析步骤.

(不幸的是,由于这是遗留的HTML而不是XML,因此难以解析;正则表达式将比解析XML更加无用.在.NET中没有内置的HTML解析器,但有第三方诸如HTML Agility Pack之类的库.)

推荐阅读
N个小灰流_701
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有