我正在寻找一个.NET库,它可以从无效的HTML代码生成一个干净的Xml树,理想情况下是System.Xml.XmlDocument.IE应该做出最好的努力猜测,修复和替换浏览器遇到这种情况,并生成假装XmlDocument.图书馆也应该得到很好的维护.:)
我意识到这很多(太多了?)要问,我会很感激任何有用的线索.似乎有相当多的Java实现,但我宁愿不生成自己的绑定.到目前为止,我已经找到了http://www.majestic12.co.uk/projects/html_parser.php和http://users.rcn.com/creitzel/tidy.html#dotnet,以及http:// sourceforge .net/projects/tidyfornet.
我还没有构建或测试任何这些,但从(稀疏)文档和罕见的更新,他们似乎没有他们有我正在寻找的东西.那么你有什么建议,要么是这些选择,要么是你过去的经验.
该HTML敏捷性包高度评价.它肯定会进行解析/最佳猜测等.
该模型在本质上类似于XmlDocument,包括用于查询的SelectNodes等.
如果你需要xhtml输出,那就有一个OptionOutputAsXml
标志; 我假设将此设置为true并Save
在xhtml中调用结果.