我刚刚开始考虑创建/自定义网络爬虫,并且对网络爬虫/机器人礼仪知之甚少.我发现大多数关于礼仪的着作看起来都很古老而且很尴尬,所以我想从网络开发者社区获得一些当前(和实际)的见解.
我想使用爬虫来超越"网络"以达到一个超级简单的目的 - "站点XYZ的标记是否满足条件ABC?".
这为我提出了很多问题,但我认为首先要解决的两个主要问题是:
从一开始就感觉有点"不确定" - 这种事情是否可以接受?
爬虫需要采取哪些具体考虑因素才能让人不安?
Will Dean.. 9
服从robots.txt(并没有像已经说过的那样过于激进).
您可能想要考虑一下您的用户代理字符串 - 他们是您正在做的事情以及如何与您联系的好地方.
服从robots.txt(并没有像已经说过的那样过于激进).
您可能想要考虑一下您的用户代理字符串 - 他们是您正在做的事情以及如何与您联系的好地方.