14赞

Web爬虫解析PHP/Javascript链接？

作者：放ch养奶牛 | 2023-08-08 18:04

如何解决《Web爬虫解析PHP/Javascript链接？》经验，为你挑选了1个好方法。

我目前正在使用C#中的HTML Agility Pack作为网络爬虫.到目前为止,我已经成功避免了许多问题(无效的URI,例如"/extra/url/to/base.html"和"#"链接),但我还需要处理PHP,Javascript等.网站,链接是PHP,当我的网页抓取工具尝试导航到这些链接时,它会失败.一个例子是PHP/Javascript手风琴链接页面.我将如何导航/解析这些链接？

1> hannson..：

让我们看看我是否正确理解了你的问题.我知道这个答案可能不够,但如果你需要一个更具体的答案,我需要更多细节.

您正在尝试对网络抓取工具进行编程,但它无法抓取以.php结尾的网址？

如果是这种情况,你需要退一步思考为什么会这样.这可能是因为爬虫根据URI方案选择使用正则表达式进行爬网的URL.

在大多数情况下,这些URL只是普通的HTML,但它们也可以是生成的图像(如验证码)或700mb iso文件的下载链接 - 如果没有检查HTTP响应的标头,就无法确定那个URL.

注意:如果您从头开始编写自己的爬虫,则需要很好地理解HTTP.

您的抓取工具在获取URL时将首先看到的是包含MIME内容类型的标头- 它告诉浏览器/抓取工具如何处理和打开数据(HTML,普通文本,.exe等) ).您可能希望基于MIME类型而不是URL方案下载页面.HTML的MIME类型是text/html,您应该在下载URL的其余内容之前使用您正在使用的HTTP库来检查它.

Javascript问题

与上面相同,除了在爬虫/解析器中运行javascript对于简单项目来说非常罕见,并且可能产生比它解决的问题更多的问题.你为什么需要Javascript？

一个不同的解决方案
如果你愿意学习Python(或者已经知道它),我建议你看看Scrapy.它是一个类似于Django Web框架构建的Web爬行框架.它非常易于使用,并且已经解决了很多问题,因此如果您想要了解有关该技术的更多信息,这可能是一个很好的起点.

推荐阅读

程序员
Python 2.7 Openpyxl用户警告

如何解决《Python2.7Openpyxl用户警告》经验，为你挑选了0个好方法。 ... [详细]
程序员
以编程方式启用AOSP Build上的禁用系统UI

如何解决《以编程方式启用AOSPBuild上的禁用系统UI》经验，为你挑选了1个好方法。 ... [详细]
程序员
单击按钮时禁用特定表单域

如何解决《单击按钮时禁用特定表单域》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么R说它不是NA,而它是NA？

如何解决《为什么R说它不是NA,而它是NA？》经验，为你挑选了1个好方法。 ... [详细]
程序员
VB.NET Visual Basic Power Pack不能在VS2015上运行？

如何解决《VB.NETVisualBasicPowerPack不能在VS2015上运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
以角度解决包裹的承诺

如何解决《以角度解决包裹的承诺》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用正则表达式在不在锚中的页面上查找电话号码

如何解决《使用正则表达式在不在锚中的页面上查找电话号码》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Pandas DataFrame中的字符串中打印相当漂亮的线条

如何解决《在PandasDataFrame中的字符串中打印相当漂亮的线条》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是可装饰元素？

如何解决《什么是可装饰元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQLAlchemy:引擎,连接和会话差异

如何解决《SQLAlchemy:引擎,连接和会话差异》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android - myLooper()vs getMainLooper()

如何解决《Android-myLooper()vsgetMainLooper()》经验，为你挑选了1个好方法。 ... [详细]
程序员
405不允许使用的方法Web API 2

如何解决《405不允许使用的方法WebAPI2》经验，为你挑选了0个好方法。 ... [详细]
程序员
Vue和Vue资源

如何解决《Vue和Vue资源》经验，为你挑选了2个好方法。 ... [详细]
程序员
具有多个根的编程语言

如何解决《具有多个根的编程语言》经验，为你挑选了1个好方法。 ... [详细]
程序员
特设承诺库

如何解决《特设承诺库》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在docker-compose中传递参数？

如何解决《如何在docker-compose中传递参数？》经验，为你挑选了3个好方法。 ... [详细]
程序员
将因子转换为原始数值

如何解决《将因子转换为原始数值》经验，为你挑选了0个好方法。 ... [详细]
程序员
重写System.out.print语句要容易一些

如何解决《重写System.out.print语句要容易一些》经验，为你挑选了3个好方法。 ... [详细]
程序员
为什么递归函数的输出为0？

如何解决《为什么递归函数的输出为0？》经验，为你挑选了1个好方法。 ... [详细]
程序员
JS图表库,允许部分着色y轴

如何解决《JS图表库,允许部分着色y轴》经验，为你挑选了1个好方法。 ... [详细]

放ch养奶牛

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章