当前位置:  开发笔记 > 后端 > 正文

创建Web爬网程序时的关键考虑因素是什么?

如何解决《创建Web爬网程序时的关键考虑因素是什么?》经验,为你挑选了1个好方法。

我刚刚开始考虑创建/自定义网络爬虫,并且对网络爬虫/机器人礼仪知之甚少.我发现大多数关于礼仪的着作看起来都很古老而且很尴尬,所以我想从网络开发者社区获得一些当前(和实际)的见解.

我想使用爬虫来超越"网络"以达到一个超级简单的目的 - "站点XYZ的标记是否满足条件ABC?".

这为我提出了很多问题,但我认为首先要解决的两个主要问题是:

从一开始就感觉有点"不确定" - 这种事情是否可以接受?

爬虫需要采取哪些具体考虑因素才能让人不安?

Will Dean.. 9

服从robots.txt(并没有像已经说过的那样过于激进).

您可能想要考虑一下您的用户代理字符串 - 他们是您正在做的事情以及如何与您联系的好地方.



1> Will Dean..:

服从robots.txt(并没有像已经说过的那样过于激进).

您可能想要考虑一下您的用户代理字符串 - 他们是您正在做的事情以及如何与您联系的好地方.

推荐阅读
mobiledu2402851377
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有