我正在尝试为Web服务器上的某些文件获取准确的下载数字.我看一下用户代理,有些显然是机器人或网络抓取工具,但很多很多我不确定,它们可能是也可能不是网络爬虫,它们导致很多下载,因此对我来说很重要.
是否存在一些已知的Web爬虫列表,其中包含一些文档,如用户代理,IP,行为等?
我对官方的不感兴趣,比如Google,雅虎或微软.这些通常是表现良好和自我识别.
我通常使用http://www.user-agents.org/作为参考,希望这可以帮助你.
您也可以尝试http://www.robotstxt.org/db.html或http://www.botsvsbrowsers.com.
我在https://github.com/monperrus/crawler-user-agents/上维护了一个爬虫用户代理模式列表.
它是协作的,您可以通过拉取请求为其做出贡献.