当前位置:  开发笔记 > 编程语言 > 正文

是否有一种用于抓取网络数据的流行工具?

如何解决《是否有一种用于抓取网络数据的流行工具?》经验,为你挑选了1个好方法。

我正在从事信息提取方面的工作,我需要一个从网页抓取数据的工具,Windows中是否有一个受欢迎的工具?



1> miku..:

来自:http://en.wikipedia.org/wiki/Web_crawler:

Aspseek是一个爬虫,索引器和搜索引擎,用C编写并根据GPL许可

arachnode.net是一个使用SQL 2008和Lucene用C#编写的.NET Web爬虫.

DataparkSearch是一个在GNU通用公共许可证下发布的爬虫和搜索引擎.

GNU Wget是一个用C编写的命令行操作的爬虫,并在GPL下发布.它通常用于镜像Web和FTP站点.

GRUB是一种开源分布式搜索爬虫,Wikia Search(http://wikiasearch.com)使用它来抓取Web.

Heritrix是Internet Archive的档案级爬虫,专为存档大部分Web的定期快照而设计.它是用Java编写的.

ht:// Dig在其索引引擎中包含一个Web爬虫.

HTTrack使用Web爬虫创建网站镜像以进行离线查看.它是用C语言编写的,并在GPL下发布.

ICDL Crawler是一个用C++编写的跨平台Web爬虫,旨在使用计算机的免费CPU资源基于Web站点解析模板来爬网.

mnoGoSearch是一个爬虫,索引器和搜索引擎,用C语言编写,并根据GPL许可

Nutch是一个用Java编写的爬虫,并在Apache许可下发布.它可以与Lucene文本索引包一起使用.

Pavuk是一个命令行Web镜像工具,带有可选的X11 GUI爬虫,并在GPL下发布.与wget和httrack相比,它具有许多高级功能,例如,基于正则表达式的过滤和文件创建规则.

YaCy是一个免费的分布式搜索引擎,建立在点对点网络的原则上(根据GPL许可).

还有一些阅读: Spidering Hacks 100工业强度提示和工具:

Spidering Hacks是为开发人员,研究人员,技术助理,图书管理员和高级用户编写的,提供有关抓取和抓取方法的专家提示.您将从一个速成课程开始,包括蜘蛛概念,工具(Perl,LWP,开箱即用的实用程序)和道德规范(如何知道何时走得太远:什么是可接受的和不可接受的).接下来,您将从数据库中收集媒体文件和数据.然后,您将学习如何解释和理解数据,将其重新用于其他应用程序,甚至构建授权接口以将数据集成到您自己的内容中.

推荐阅读
wangtao
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有