是否有一种用于抓取网络数据的流行工具？

作者：wangtao | 2023-08-13 17:47

如何解决《是否有一种用于抓取网络数据的流行工具？》经验，为你挑选了1个好方法。

我正在从事信息提取方面的工作,我需要一个从网页抓取数据的工具,Windows中是否有一个受欢迎的工具？

1> miku..：

来自:http://en.wikipedia.org/wiki/Web_crawler:

Aspseek是一个爬虫,索引器和搜索引擎,用C编写并根据GPL许可

arachnode.net是一个使用SQL 2008和Lucene用C#编写的.NET Web爬虫.

DataparkSearch是一个在GNU通用公共许可证下发布的爬虫和搜索引擎.

GNU Wget是一个用C编写的命令行操作的爬虫,并在GPL下发布.它通常用于镜像Web和FTP站点.

GRUB是一种开源分布式搜索爬虫,Wikia Search(http://wikiasearch.com)使用它来抓取Web.

Heritrix是Internet Archive的档案级爬虫,专为存档大部分Web的定期快照而设计.它是用Java编写的.

ht:// Dig在其索引引擎中包含一个Web爬虫.

HTTrack使用Web爬虫创建网站镜像以进行离线查看.它是用C语言编写的,并在GPL下发布.

ICDL Crawler是一个用C++编写的跨平台Web爬虫,旨在使用计算机的免费CPU资源基于Web站点解析模板来爬网.

mnoGoSearch是一个爬虫,索引器和搜索引擎,用C语言编写,并根据GPL许可

Nutch是一个用Java编写的爬虫,并在Apache许可下发布.它可以与Lucene文本索引包一起使用.

Pavuk是一个命令行Web镜像工具,带有可选的X11 GUI爬虫,并在GPL下发布.与wget和httrack相比,它具有许多高级功能,例如,基于正则表达式的过滤和文件创建规则.

YaCy是一个免费的分布式搜索引擎,建立在点对点网络的原则上(根据GPL许可).

还有一些阅读: Spidering Hacks 100工业强度提示和工具:

Spidering Hacks是为开发人员,研究人员,技术助理,图书管理员和高级用户编写的,提供有关抓取和抓取方法的专家提示.您将从一个速成课程开始,包括蜘蛛概念,工具(Perl,LWP,开箱即用的实用程序)和道德规范(如何知道何时走得太远:什么是可接受的和不可接受的).接下来,您将从数据库中收集媒体文件和数据.然后,您将学习如何解释和理解数据,将其重新用于其他应用程序,甚至构建授权接口以将数据集成到您自己的内容中.

推荐阅读

程序员
使用斯坦福NLP(StanfordNERTagger和StanfordPOSTagger)为西班牙语设置NLTK

如何解决《使用斯坦福NLP(StanfordNERTagger和StanfordPOSTagger)为西班牙语设置NLTK》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于LayoutManager为NULL,RecycleView在Fragment中崩溃

如何解决《由于LayoutManager为NULL,RecycleView在Fragment中崩溃》经验，为你挑选了1个好方法。 ... [详细]
程序员
在npm脚本中用uglify和exorcist管道浏览

如何解决《在npm脚本中用uglify和exorcist管道浏览》经验，为你挑选了1个好方法。 ... [详细]
程序员
设置Highcharts x轴标签的宽度

如何解决《设置Highchartsx轴标签的宽度》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在之前添加hover for ::

如何解决《如何在之前添加hoverfor::》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:无法解决android studio中的依赖项

如何解决《Android:无法解决androidstudio中的依赖项》经验，为你挑选了1个好方法。 ... [详细]
程序员
请求caretRectForPosition:NSTextStorage有很多变化

如何解决《请求caretRectForPosition:NSTextStorage有很多变化》经验，为你挑选了1个好方法。 ... [详细]
程序员
静态成员函数与C语言绑定？

如何解决《静态成员函数与C语言绑定？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么GNU binutils和GDB合并为一个包？

如何解决《为什么GNUbinutils和GDB合并为一个包？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从bitset获取某些位的十进制值的快速方法

如何解决《从bitset获取某些位的十进制值的快速方法》经验，为你挑选了2个好方法。 ... [详细]
程序员
shouldAutorotate不使用导航控制器swift 2

如何解决《shouldAutorotate不使用导航控制器swift2》经验，为你挑选了1个好方法。 ... [详细]
程序员
扩展方法不起作用(快速图表序列化)

如何解决《扩展方法不起作用(快速图表序列化)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python列表理解在guard和result中具有相同的功能

如何解决《Python列表理解在guard和result中具有相同的功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spring Boot:如何创建一个自包含的可执行jar？

如何解决《SpringBoot:如何创建一个自包含的可执行jar？》经验，为你挑选了1个好方法。 ... [详细]
程序员
当用户名包含斜杠时,PuTTY PSCP错误"不支持本地到本地副本"

如何解决《当用户名包含斜杠时,PuTTYPSCP错误"不支持本地到本地副本"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Square MockWebServer中使用SSL？

如何解决《如何在SquareMockWebServer中使用SSL？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何判断星号的使用是否与指针有关？

如何解决《如何判断星号的使用是否与指针有关？》经验，为你挑选了1个好方法。 ... [详细]
程序员
快速创建主题

如何解决《快速创建主题》经验，为你挑选了1个好方法。 ... [详细]
程序员
在wordpress中如何在注释中显示USER ROLE

如何解决《在wordpress中如何在注释中显示USERROLE》经验，为你挑选了1个好方法。 ... [详细]
程序员
下拉预选择而不激发onchange

如何解决《下拉预选择而不激发onchange》经验，为你挑选了1个好方法。 ... [详细]

wangtao

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章