除了Ask,Google,Microsoft和Yahoo!之外,我一直在考虑禁止每一个爬虫.来自我的网站.
这背后的原因是我从来没有看到任何其他网络爬虫生成任何流量.
我的问题是:
有什么理由不去吗?
有人这样做过吗?
你有没有注意到任何负面影响?
更新:
到目前为止,我使用黑名单方法:如果我不喜欢爬虫,我将它们添加到禁用列表中.
我不是黑名单的粉丝,因为这是一个永无止境的故事:那里总有更多的爬虫.
我并不担心真正丑陋的行为不端的爬虫,它们会被自动检测和阻止.(无论如何,他们通常不会要求robots.txt :)
但是,许多爬虫在任何方面都没有真正行为不端,它们似乎对我/我的客户没有任何价值.
例如,有几个抓取工具为网站提供支持,声称他们将成为下一个Google; 只有更好.我从未见过来自他们的任何流量,我对他们变得比上面提到的四个搜索引擎中的任何一个都更好持怀疑态度.
更新2:
我一直在分析几个站点的流量一段时间,似乎对于合理的小站点,每天有100个独特的访问者(=我无法识别为不是人类的访问者).大约52%的生成流量来自自动化流程.
60%的自动访问者没有阅读robots.txt,40%(占总流量的21%)确实请求robots.txt.(包括Ask,Google,Microsoft和Yahoo!)
所以我的想法是,如果我阻止所有似乎没有为我生成任何价值的表现良好的爬虫,我可以将带宽使用和服务器负载减少大约12%-17%.