2赞

使用HTML Agility Pack抓取元标记和注释

作者：地之南_816 | 2023-08-08 02:33

如何解决《使用HTMLAgilityPack抓取元标记和注释》经验，为你挑选了1个好方法。

我一直在寻找使用HTML Agility Pack的教程,因为它似乎做了我想做的一切,但似乎对于这样一个强大的工具,它在互联网上几乎没有什么噪音.

我正在编写一个简单的方法,它将根据名称检索任何给定的标记:

public string[] GetTagsByName(string TagName, string Source) {
    ...
}

这可以使用正则表达式轻松完成,但我们都知道使用正则表达式解析HTML是不对的.到目前为止,我有以下代码:

...
// TODO: Clear Comments (can this be done or should I use RegEx?)
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(Source);
ArrayList tags = new ArrayList();
string xpath = "//" + TagName;
foreach (HtmlTextNode node in doc.DocumentNode.SelectNodes(xpath) {
    tags.Add(node.Text);
}
return (string[])tags.ToArray(typeof(String));

我希望能够首先从HTML中删除所有注释,然后根据其名称返回正确的标记.如果可能的话,我还想根据属性返回某些元标记,例如机器人.我对xpath不太好,所以任何帮助都会很好.

任何帮助将非常感激.

1> Lachlan Roch..：

HtmlAgilityPack的HtmlDocument实现了IXpathNavigable,因此它使用标准的.NET XPath引擎.任何XPath 1.0文档都适用,特别是如果它涉及System.Xml.XPath.

"// comment()"查找所有注释
"// meta"查找所有"元"元素

HtmlDocument的设计看起来非常像XmlDocument,因此有关它的示例和教程将在某种程度上适用.

一些MSDN链接:

XPath参考

例子

XPath函数

推荐阅读

程序员
Scala案例类在receive方法中不匹配(在akka actor中)

如何解决《Scala案例类在receive方法中不匹配(在akkaactor中)》经验，为你挑选了1个好方法。 ... [详细]
程序员
代码混淆 - 为什么一个工作,而另一个工作？

如何解决《代码混淆-为什么一个工作,而另一个工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以在Swift中访问阴影顶级函数？

如何解决《是否可以在Swift中访问阴影顶级函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#等待问题

如何解决《C#等待问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS悬停样式在不相关的元素上？

如何解决《CSS悬停样式在不相关的元素上？》经验，为你挑选了1个好方法。 ... [详细]
程序员
事件处理程序S100的方法名称

如何解决《事件处理程序S100的方法名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何分发asdf/quicklisp依赖项以及使用Embeddable Common Lisp编译的应用程序？

如何解决《如何分发asdf/quicklisp依赖项以及使用EmbeddableCommonLisp编译的应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Excel VBA保存截图

如何解决《ExcelVBA保存截图》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何显示文本框重复值的警报

如何解决《如何显示文本框重复值的警报》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在LINQ to Entities查询中使用CAST吗？

如何解决《我可以在LINQtoEntities查询中使用CAST吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
何时将配置放在file.properties或Jndi中

如何解决《何时将配置放在file.properties或Jndi中》经验，为你挑选了1个好方法。 ... [详细]
程序员
TreeView - 单击空白区域

如何解决《TreeView-单击空白区域》经验，为你挑选了1个好方法。 ... [详细]
程序员
由Python 3.5破坏的Jupyter笔记本

如何解决《由Python3.5破坏的Jupyter笔记本》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ScalatraSuite（FunSuiteLike）进行独立sbt项目的Scalatra测试失败

如何解决《使用ScalatraSuite（FunSuiteLike）进行独立sbt项目的Scalatra测试失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在AWS Cloudformation json模板的"参数"中使用"Fn :: Join"吗？

如何解决《我可以在AWSCloudformationjson模板的"参数"中使用"Fn::Join"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
包含列表太慢,如何改进？

如何解决《包含列表太慢,如何改进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在TFS登记之前是否执行Get Latest强制要求,以免覆盖/丢失代码？

如何解决《在TFS登记之前是否执行GetLatest强制要求,以免覆盖/丢失代码？》经验，为你挑选了2个好方法。 ... [详细]
程序员
TRUE和FALSE宏的奇怪定义

如何解决《TRUE和FALSE宏的奇怪定义》经验，为你挑选了6个好方法。 ... [详细]
程序员
神经网络:了解theano图书馆

如何解决《神经网络:了解theano图书馆》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Clang将OpenCL编译为PTX时未解决的extern？

如何解决《使用Clang将OpenCL编译为PTX时未解决的extern？》经验，为你挑选了0个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章