18赞

有人知道一个很好的可扩展的开源网络爬虫吗？

作者：爱唱歌的郭少文_ | 2023-08-24 11:48

如何解决《有人知道一个很好的可扩展的开源网络爬虫吗？》经验，为你挑选了1个好方法。

爬虫需要具有可扩展的体系结构以允许更改内部进程,例如实现新步骤(预解析器,解析器等......)

我找到了Heritrix项目(http://crawler.archive.org/).

但还有其他不错的项目吗？

1> Andrew Sieme..：

对于免费的爬虫来说,Nutch是你能做的最好的事情.它基于Lucene的概念(以企业缩放的方式)构建,并由Hadoop后端使用MapReduce(类似于Google)进行大规模数据查询.好产品!我正在阅读Manning中新的(尚未发布的)Hadoop in Action中关于Hadoop的所有内容.如果你走这条路,我建议你去他们的技术评审小组获得这个标题的早期副本!

这些都是基于Java的.如果你是一个.net人(像我一样!!)那么你可能对Lucene.NET,Nutch.NET和Hadoop.NET更感兴趣,它们都是逐类的,api是api端口到C#.

从它的外观来看,Nutch.NET是完全不存在的,我甚至找不到下载它的方法.

推荐阅读

程序员
使用Pandas在MySQL中创建临时表

如何解决《使用Pandas在MySQL中创建临时表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让kGADAdSizeSmartBannerPortrait工作

如何解决《如何让kGADAdSizeSmartBannerPortrait工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在pageInfo中将总计数传递给客户端

如何解决《如何在pageInfo中将总计数传递给客户端》经验，为你挑选了2个好方法。 ... [详细]
程序员
构建PBRT v2错误 - 错误1错误U1077:'if':返回代码'0x1'

如何解决《构建PBRTv2错误-错误1错误U1077:'if':返回代码'0x1'》经验，为你挑选了0个好方法。 ... [详细]
程序员
火炬 - 如何改变张量类型？

如何解决《火炬-如何改变张量类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:如何检查CSV文件中的单元格是否为空？

如何解决《Python:如何检查CSV文件中的单元格是否为空？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular ng-click无法使用$ compile

如何解决《Angularng-click无法使用$compile》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用渲染脚本android旋转位图

如何解决《使用渲染脚本android旋转位图》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？

如何解决《如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
应该在提交历史中保持合并吗？

如何解决《应该在提交历史中保持合并吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中的电源操作

如何解决《Python中的电源操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Firebase部署不更新JS文件

如何解决《Firebase部署不更新JS文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
将十进制（用户字符串）转换为带有0x前缀的十六进制

如何解决《将十进制（用户字符串）转换为带有0x前缀的十六进制》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在matplotlib的轴刻度中删除小数点后的数字？

如何解决《如何在matplotlib的轴刻度中删除小数点后的数字？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我怎样才能获得firebase部署--email或--token参数？

如何解决《我怎样才能获得firebase部署--email或--token参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio上的奇怪错误 - "您可以使用导航栏切换上下文"

如何解决《VisualStudio上的奇怪错误-"您可以使用导航栏切换上下文"》经验，为你挑选了2个好方法。 ... [详细]
程序员
Deb软件包维护者脚本应该使用Bash还是Sh

如何解决《Deb软件包维护者脚本应该使用Bash还是Sh》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在加载页面后设置选择选项'选中'？

如何解决《如何在加载页面后设置选择选项'选中'？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么杰克逊多态序列化在列表中不起作用？

如何解决《为什么杰克逊多态序列化在列表中不起作用？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Knockout JS - 获取模态弹出窗口来编辑项目

如何解决《KnockoutJS-获取模态弹出窗口来编辑项目》经验，为你挑选了1个好方法。 ... [详细]

爱唱歌的郭少文_

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章