C# - 解析网页的最佳方法？

作者：mobiledu2402851173 | 2023-09-02 18:10

如何解决《C#-解析网页的最佳方法？》经验，为你挑选了3个好方法。

我已经将整个网页的html保存为字符串,现在我想从链接中获取"href"值,最好能够将它们保存到不同的字符串中.最好的方法是什么？

我已经尝试将字符串保存为.xml文档并使用XPathDocument导航器解析它,但是(惊喜)它并没有很好地导航非真正的xml文档.

正则表达式是实现我想要实现的目标的最佳方式吗？

1> Jeff Donnici..：

我可以推荐HTML Agility Pack.我在一些需要解析HTML的情况下使用过它并且效果很好.将HTML加载到其中后,您可以使用XPath表达式查询文档并获取锚标记(以及其中的任何其他内容).

HtmlDocument yourDoc = // load your HTML;
int someCount = yourDoc.DocumentNode.SelectNodes("your_xpath").Count;

2> NotMe..：

正则表达式是一种方法,但它可能会有问题.

大多数HTML页面都无法使用标准的html技术进行解析,因为正如您所知,大多数HTML页面都没有验证.

您可以花时间尝试集成HTML Tidy或类似工具,但只需构建所需的正则表达式会快得多.

UPDATE

在此次更新时,我收到了15个up和9个downvotes.我想也许人们不是在阅读这个问题,也不是对这个答案的评论.OP想要做的就是获取href值. 而已. 从这个角度来看,一个简单的正则表达式就好了.如果作者想要解析其他项目,那么就像我在开始时所说的那样,我无法推荐正则表达式,这在最好的情况下是有问题的.

答案不好.不要这样做.

-1嗯,使用Regex解析HTML.什么可能出错？哦,这是正确的:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags

尝试使用RegEx解析所有标记是不是一个坏主意？是.但是,正则表达式构建为从字符串中获取所有href ="whatever"值.这是OP想要做的事情

3> Duncan..：

为了处理各种形状和大小的HTML,我更喜欢使用HTMLAgility包@ http://www.codeplex.com/htmlagilitypack,它允许您针对所需的节点编写XPath并在集合中获得返回.

推荐阅读

程序员
MongoDB Java API:全文搜索

如何解决《MongoDBJavaAPI:全文搜索》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure Continuous Deploy with Debug配置

如何解决《AzureContinuousDeploywithDebug配置》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kotlin在android.support.v4.app.Fragment null对象引用中直接访问Button

如何解决《Kotlin在android.support.v4.app.Fragmentnull对象引用中直接访问Button》经验，为你挑选了1个好方法。 ... [详细]
程序员
html范围滑块 - oninput在IE 11中不起作用

如何解决《html范围滑块-oninput在IE11中不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查接口{}的相等性

如何解决《检查接口{}的相等性》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除字符串中整数的括号

如何解决《删除字符串中整数的括号》经验，为你挑选了1个好方法。 ... [详细]
程序员
作为嵌入式服务器运行时Jetty自定义错误页面

如何解决《作为嵌入式服务器运行时Jetty自定义错误页面》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法像默认出口一样使用ES6正常出口？

如何解决《有没有办法像默认出口一样使用ES6正常出口？》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ无法解析build.sbt中的符号

如何解决《IntelliJ无法解析build.sbt中的符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算字典列表中的公共键值对

如何解决《计算字典列表中的公共键值对》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Google Apps脚本中从服务器到客户端进行通信

如何解决《在GoogleApps脚本中从服务器到客户端进行通信》经验，为你挑选了1个好方法。 ... [详细]
程序员
Apache POI性能

如何解决《ApachePOI性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在没有eval的情况下解除列表/元组的字符串

如何解决《如何在没有eval的情况下解除列表/元组的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
针对具有单个端点的多个响应的RESTful设计

如何解决《针对具有单个端点的多个响应的RESTful设计》经验，为你挑选了1个好方法。 ... [详细]
程序员
从列表python中的某个东西开始删除后面的字符串

如何解决《从列表python中的某个东西开始删除后面的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法访问docker容器

如何解决《无法访问docker容器》经验，为你挑选了1个好方法。 ... [详细]
程序员
Excel VBA“自动化错误：调用的对象已与其客户端断开连接”

如何解决《ExcelVBA“自动化错误：调用的对象已与其客户端断开连接”》经验，为你挑选了1个好方法。 ... [详细]
程序员
ERR_CONNECTION_REFUSED http:// localhost:3000/socket.io/socket.io.js

如何解决《ERR_CONNECTION_REFUSEDhttp://localhost:3000/socket.io/socket.io.js》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python RandomForest - 未知标签错误

如何解决《PythonRandomForest-未知标签错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
将for(;;)循环转换为foreach

如何解决《将for(;;)循环转换为foreach》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851173

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章