网络爬虫http请求的正确礼仪

作者：雨天是最美 | 2023-08-27 13:17

如何解决《网络爬虫http请求的正确礼仪》经验，为你挑选了1个好方法。

我有一个简单的网络爬虫来请求网站的站点地图中我需要缓存和索引的所有页面.经过多次请求后,网站开始提供空白页面.

robots.txt除了链接到他们的站点地图之外,他们没有任何东西,所以我认为我没有打破他们的"规则".我有一个描述性标题,链接到我的意图,我抓取的唯一页面来自他们的站点地图.

http状态代码仍然可以,所以我只能想象它们会在短时间内阻止大量的http请求.什么被认为是请求之间的合理延迟？

我是否忽略了可能导致此问题的任何其他考虑因素？

1> Adam Davis..：

每个网站都有不同的抓取和滥用特征.

任何爬虫的关键是模拟人类活动,并遵守robots.txt.

一次详尽的爬行会绊倒一些网站,无论你走得多慢,它们都会让你失望,而一些主机并不介意爬行者一气呵成,一气呵成.

一般来说,您不希望以每分钟6次(约人速)的速度请求页面.

按照网页上的可见性顺序,您将更安全地关注链接.

尝试忽略网页上看不到的链接(很多人使用蜜罐).

如果所有其他方法都失败了,请不要超过每分钟一页的请求.如果某个网站以此价格阻止您,请直接与他们联系 - 他们显然不希望您以这种方式使用他们的内容.

推荐阅读

程序员
Laravel 5注销或会话破坏

如何解决《Laravel5注销或会话破坏》经验，为你挑选了1个好方法。 ... [详细]
程序员
多处理队列子类问题

如何解决《多处理队列子类问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
TLS握手错误

如何解决《TLS握手错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android自定义属性未显示

如何解决《Android自定义属性未显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在CakePHP 3中的model-> save()上获取SQL查询？

如何解决《如何在CakePHP3中的model->save()上获取SQL查询？》经验，为你挑选了0个好方法。 ... [详细]
程序员
允许管理员用户查看其他用户类型可以查看/执行的操作？

如何解决《允许管理员用户查看其他用户类型可以查看/执行的操作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将对象列表保存到文本文件

如何解决《将对象列表保存到文本文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
GNU malloc_info():获得真正分配的内存？

如何解决《GNUmalloc_info():获得真正分配的内存？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在正则表达式拆分期间发生javascript未定义元素

如何解决《在正则表达式拆分期间发生javascript未定义元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
从数组中选择奇数或偶数元素

如何解决《从数组中选择奇数或偶数元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
缺少Type.GetMember和MemberInfo.GetCustomAttributes（C＃PCL .NET 4.6）

如何解决《缺少Type.GetMember和MemberInfo.GetCustomAttributes（C＃PCL.NET4.6）》经验，为你挑选了1个好方法。 ... [详细]
程序员
转储Postgres DB，时间和.sql文件的权重

如何解决《转储PostgresDB，时间和.sql文件的权重》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何直接写入模仿scalar_summary的摘要？

如何解决《如何直接写入模仿scalar_summary的摘要？》经验，为你挑选了2个好方法。 ... [详细]
程序员
更改左侧的ToolBar默认图标

如何解决《更改左侧的ToolBar默认图标》经验，为你挑选了1个好方法。 ... [详细]
程序员
BufferedWriter类的writeLine方法

如何解决《BufferedWriter类的writeLine方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
部分索引的局限性是什么？

如何解决《部分索引的局限性是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我怎样才能简单地添加一个Spring Data REST实体的链接

如何解决《我怎样才能简单地添加一个SpringDataREST实体的链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这个函数返回NaN？

如何解决《为什么这个函数返回NaN？》经验，为你挑选了0个好方法。 ... [详细]
程序员
由于约束错误,无法在C#中实现VB接口

如何解决《由于约束错误,无法在C#中实现VB接口》经验，为你挑选了1个好方法。 ... [详细]
程序员
从SPARK中的另一个RDD返回最大N值的RDD

如何解决《从SPARK中的另一个RDD返回最大N值的RDD》经验，为你挑选了1个好方法。 ... [详细]

雨天是最美

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章