我有想要在飞行中修改的RSS源,我需要的是文本(和换行)所以其他一切都必须删除(所有图像,样式,链接)
如何使用ASP.NET c#轻松完成此操作
正则表达式无法解析XML.不要使用正则表达式来解析XML.不要过去Go.不要收200英镑.
您需要一个合适的XML解析器.将RSS加载到XMLDocument中,然后使用innerText仅获取文本内容.
请注意,即使您从RSS中提取了描述内容,它也可以包含活动的HTML.那是:
<em>Fish</em> & chips
可以,当正确解析为XML然后作为文本读取给你文字字符串:
Fish & chips
或者,标记:
鱼和薯条
关于RSS的有趣之处在于你并不知道哪个是对的.在RSS 2.0中,它是明确的HTML标记(第二种情况); 在其他版本中没有指定.通常,您应该假设描述可以包含实体编码的HTML标记,如果您想进一步从最终文本中删除它们,则需要第二个解析步骤.
(不幸的是,由于这是遗留的HTML而不是XML,因此难以解析;正则表达式将比解析XML更加无用.在.NET中没有内置的HTML解析器,但有第三方诸如HTML Agility Pack之类的库.)