爬虫需要具有可扩展的体系结构以允许更改内部进程,例如实现新步骤(预解析器,解析器等......)
我找到了Heritrix项目(http://crawler.archive.org/).
但还有其他不错的项目吗?
对于免费的爬虫来说,Nutch是你能做的最好的事情.它基于Lucene的概念(以企业缩放的方式)构建,并由Hadoop后端使用MapReduce(类似于Google)进行大规模数据查询.好产品!我正在阅读Manning中新的(尚未发布的)Hadoop in Action中关于Hadoop的所有内容.如果你走这条路,我建议你去他们的技术评审小组获得这个标题的早期副本!
这些都是基于Java的.如果你是一个.net人(像我一样!!)那么你可能对Lucene.NET,Nutch.NET和Hadoop.NET更感兴趣,它们都是逐类的,api是api端口到C#.