Web爬网程序更新策略

作者：ERIK又 | 2023-07-16 17:54

如何解决《Web爬网程序更新策略》经验，为你挑选了1个好方法。

我想从某些网站抓取有用的资源(如背景图片..).这不是一项艰苦的工作,特别是在一些精彩的项目如scrapy的帮助下.

这里的问题是我不仅想要一次抓取这个网站.我还想让我的爬网长时间运行并抓取更新的资源.所以我想知道网络爬虫是否有任何好的策略来获取更新的页面？

这是我想到的粗略算法.我将抓取过程分为几轮.每轮URL存储库将为爬网程序提供一定数量(如10000)的URL进行爬网.然后是下一轮.详细步骤如下:

crawler将起始URL添加到URL存储库

crawler要求URL存储库最多抓取N个URL

crawler获取URL,并更新URL存储库中的某些信息,如页面内容,获取时间以及内容是否已更改.

回到第2步

为了进一步说明,我仍然需要解决以下问题:如何确定网页的"刷新",这表明此网页已更新的概率？

由于这是一个悬而未决的问题,希望它会在这里带来一些富有成果的讨论.

1> Shane Evans..：

您描述的"批处理"算法是实现此目的的常用方法,我已经使用scrapy进行了一些此类实现.

我采用的方法是初始化您的蜘蛛起始URL以使下一批抓取并正常输出数据(资源+链接).然后在您选择生成下一批时处理这些.可以将所有这些并行化,因此您可以同时抓取不同批次的蜘蛛,如果您将属于同一站点的URL放在同一批次中,则scrapy将负责礼貌(根据您的偏好设置一些配置).

一个有趣的调整是将调度分解为短期(在单个批次内,在scrapy内)和长期(在爬行批次之间),提供更多增量方法的一些优点,同时保持事情稍微简单一些.

爬行订购问题有多种方法(如何决定你所提到的"刷新"),最好的方法取决于你的优先级(新鲜度与全面性,资源比其他资源更重要等) .

我想推荐Christopher Olston和Marc Najork 撰写的这篇Web爬行文章.这是一个很棒的调查,涵盖了您感兴趣的主题(批量爬行模型和爬网排序).

推荐阅读

程序员
f#:编码偶数和奇数(归纳)类型？

如何解决《f#:编码偶数和奇数(归纳)类型？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Swift中将Int转换为字符

如何解决《如何在Swift中将Int转换为字符》经验，为你挑选了4个好方法。 ... [详细]
程序员
应该std :: future ::等待使用这么多CPU吗？有更高性能的电话吗？

如何解决《应该std::future::等待使用这么多CPU吗？有更高性能的电话吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在单页网站上替换Div的内容

如何解决《在单页网站上替换Div的内容》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在spring项目中使用自定义anotation(hibernate)加密/解密数据

如何解决《如何在spring项目中使用自定义anotation(hibernate)加密/解密数据》经验，为你挑选了2个好方法。 ... [详细]
程序员
Docker 1.9中配置文件的位置是什么？

如何解决《Docker1.9中配置文件的位置是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MapReduce示例

如何解决《MapReduce示例》经验，为你挑选了0个好方法。 ... [详细]
程序员
从类型中获取DbSet

如何解决《从类型中获取DbSet》经验，为你挑选了0个好方法。 ... [详细]
程序员
当引用相同的变量时,Swift Array内存地址会发生变化

如何解决《当引用相同的变量时,SwiftArray内存地址会发生变化》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个方法会被调用吗？(仍需要一个可接受的答案......详见答案)

如何解决《这个方法会被调用吗？(仍需要一个可接受的答案详见答案)》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何禁止访问除.well-已知的所有点目录？

如何解决《如何禁止访问除.well-已知的所有点目录？》经验，为你挑选了2个好方法。 ... [详细]
程序员
XCode Simulator:如何更改其快捷方式？

如何解决《XCodeSimulator:如何更改其快捷方式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
loc和ix之间的意外差异

如何解决《loc和ix之间的意外差异》经验，为你挑选了0个好方法。 ... [详细]
程序员
只发布控制器

如何解决《只发布控制器》经验，为你挑选了0个好方法。 ... [详细]
程序员
未捕获的TypeError:无法读取未定义的属性'__SECRET_DOM_DO_NOT_USE_OR_YOU_WILL_BE_FIRED'

如何解决《未捕获的TypeError:无法读取未定义的属性'__SECRET_DOM_DO_NOT_USE_OR_YOU_WILL_BE_FIRED'》经验，为你挑选了1个好方法。 ... [详细]
程序员
自定义HTML5表单验证错误仅在首次尝试后发生

如何解决《自定义HTML5表单验证错误仅在首次尝试后发生》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Ionic框架中启用Android版Multidex

如何解决《在Ionic框架中启用Android版Multidex》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何限制用户在ui-ace编辑器中只编写一个javascript函数(方法)

如何解决《如何限制用户在ui-ace编辑器中只编写一个javascript函数(方法)》经验，为你挑选了0个好方法。 ... [详细]
程序员
将第一行作为下一行哈希的键？

如何解决《将第一行作为下一行哈希的键？》经验，为你挑选了1个好方法。 ... [详细]
程序员
matplotlib图只显示点而不是线

如何解决《matplotlib图只显示点而不是线》经验，为你挑选了1个好方法。 ... [详细]

ERIK又

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章