当前位置:  开发笔记 > 编程语言 > 正文

是否有已知的网络抓取工具列表?

如何解决《是否有已知的网络抓取工具列表?》经验,为你挑选了2个好方法。

我正在尝试为Web服务器上的某些文件获取准确的下载数字.我看一下用户代理,有些显然是机器人或网络抓取工具,但很多很多我不确定,它们可能是也可能不是网络爬虫,它们导致很多下载,因此对我来说很重要.

是否存在一些已知的Web爬虫列表,其中包含一些文档,如用户代理,IP,行为等?

我对官方的不感兴趣,比如Google,雅虎或微软.这些通常是表现良好和自我识别.



1> Jaan J..:

我通常使用http://www.user-agents.org/作为参考,希望这可以帮助你.

您也可以尝试http://www.robotstxt.org/db.html或http://www.botsvsbrowsers.com.



2> Martin Monpe..:

我在https://github.com/monperrus/crawler-user-agents/上维护了一个爬虫用户代理模式列表.

它是协作的,您可以通过拉取请求为其做出贡献.

推荐阅读
手机用户2502851955
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有