我有一个C#WPF应用程序需要使用作为HTML表格在网页上公开的数据.
从这个url获得灵感后,我尝试使用Linq to Xml来解析Html文档,但这只适用于HTML文档形式非常好(并且其中没有任何注释或HTML实体).我已经设法使用这种技术获得了一个有效的解决方案,但它远非理想.
我正在寻找用于解析HTML的解决方案.我之前曾经破解过"解决方案",但它们很脆弱.我正在寻找一种解析/操作文档的强大方法.理想情况下,我喜欢让任务变得像Javascript/JQuery一样简单的东西.
有谁知道一个好的.Net库或实用程序来解析/操作HTML?
即使它不是基于LINQ的,我建议从CodePlex 研究HTML Agility Pack.
注意:Html Agility Pack现在支持Linq to Objects(通过LINQ to Xml Like界面)
从HTML Agility Pack页面:
这是一个敏捷的HTML解析器,它构建一个读/写DOM并支持普通的XPATH或XSLT(你实际上不需要理解XPATH或XSLT来使用它,不用担心......).它是一个.NET代码库,允许您解析"out of the web"HTML文件.解析器非常容忍"真实世界"格式错误的HTML.对象模型与提出System.Xml非常相似,但对于HTML文档(或流).
这里有一个LINQ to HTML库:
http://www.superstarcoders.com/linq-to-html.aspx