当前位置:  开发笔记 > 编程语言 > 正文

有人知道一个很好的可扩展的开源网络爬虫吗?

如何解决《有人知道一个很好的可扩展的开源网络爬虫吗?》经验,为你挑选了1个好方法。

爬虫需要具有可扩展的体系结构以允许更改内部进程,例如实现新步骤(预解析器,解析器等......)

我找到了Heritrix项目(http://crawler.archive.org/).

但还有其他不错的项目吗?



1> Andrew Sieme..:

对于免费的爬虫来说,Nutch是你能做的最好的事情.它基于Lucene的概念(以企业缩放的方式)构建,并由Hadoop后端使用MapReduce(类似于Google)进行大规模数据查询.好产品!我正在阅读Manning中新的(尚未发布的)Hadoop in Action中关于Hadoop的所有内容.如果你走这条路,我建议你去他们的技术评审小组获得这个标题的早期副本!

这些都是基于Java的.如果你是一个.net人(像我一样!!)那么你可能对Lucene.NET,Nutch.NET和Hadoop.NET更感兴趣,它们都是逐类的,api是api端口到C#.


从它的外观来看,Nutch.NET是完全不存在的,我甚至找不到下载它的方法.
推荐阅读
爱唱歌的郭少文_
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有