有关与Lucene或Solr一起使用的蜘蛛工具的建议吗？

作者：N个小灰流_701 | 2023-09-02 23:52

如何解决《有关与Lucene或Solr一起使用的蜘蛛工具的建议吗？》经验，为你挑选了2个好方法。

什么是用于HTML和XML文档(本地或基于Web)的良好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好？可能是基于Java的,但不一定是.

1> 小智..：

在我看来,这是一个非常重要的漏洞,它阻止了Solr的广泛采用.新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档摄取管道.Nutch确实有效,但Nutch履带式和Solr之间的集成有些笨拙.
我已经尝试过每一个我都能找到的开源爬虫,而且没有一个与Solr集成开箱即用.
密切关注OpenPipeline和Apache Tika.

2> John..：

我尝试过nutch,但很难与Solr集成.我会看看Heritrix.它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多.它广泛使用线程来加速进程.

推荐阅读

程序员
将jqPlot图保存到图像文件

如何解决《将jqPlot图保存到图像文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
XCode 4.5中的分布式构建？

如何解决《XCode4.5中的分布式构建？》经验，为你挑选了1个好方法。 ... [详细]
程序员
飞镖货币格式

如何解决《飞镖货币格式》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何以编程方式训练SpeechRecognitionEngine并将音频文件转换为C#或vb.net中的文本

如何解决《如何以编程方式训练SpeechRecognitionEngine并将音频文件转换为C#或vb.net中的文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL UPDATE随机数介于1-3之间

如何解决《MySQLUPDATE随机数介于1-3之间》经验，为你挑选了2个好方法。 ... [详细]
程序员
--launcher.XXMaxPermSize在eclipse.ini中出现两次

如何解决《--launcher.XXMaxPermSize在eclipse.ini中出现两次》经验，为你挑选了0个好方法。 ... [详细]
程序员
对于在时间1和时间2之间没有发生任何变化的情况,删除所有id的情况

如何解决《对于在时间1和时间2之间没有发生任何变化的情况,删除所有id的情况》经验，为你挑选了0个好方法。 ... [详细]
程序员
初学Java挑战

如何解决《初学Java挑战》经验，为你挑选了1个好方法。 ... [详细]
程序员
登录用户注册与巫术

如何解决《登录用户注册与巫术》经验，为你挑选了1个好方法。 ... [详细]
程序员
从一个元组中的两个列表中总结相应的对 - 在Haskell中

如何解决《从一个元组中的两个列表中总结相应的对-在Haskell中》经验，为你挑选了1个好方法。 ... [详细]
程序员
所有电子邮件提供商都会忽略@前面的时段吗？

如何解决《所有电子邮件提供商都会忽略@前面的时段吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
AI有公共聊天数据库吗？

如何解决《AI有公共聊天数据库吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何降低svg过滤器中alpha层的不透明度？

如何解决《如何降低svg过滤器中alpha层的不透明度？》经验，为你挑选了2个好方法。 ... [详细]
程序员
零正确(资源处理)规则在哪里？

如何解决《零正确(资源处理)规则在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Flexslider 100%宽度创建水平滚动条

如何解决《Flexslider100%宽度创建水平滚动条》经验，为你挑选了1个好方法。 ... [详细]
程序员
在java EE中,我应该将哪些jar放入库目录？

如何解决《在javaEE中,我应该将哪些jar放入库目录？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在AngularJS指令中查看函数的值

如何解决《在AngularJS指令中查看函数的值》经验，为你挑选了2个好方法。 ... [详细]
程序员
页面右侧的Twitter引导白色缺口

如何解决《页面右侧的Twitter引导白色缺口》经验，为你挑选了4个好方法。 ... [详细]
程序员
Qt - 如何构建多标签窗口？

如何解决《Qt-如何构建多标签窗口？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在NSString中解码Base-64编码的PNG

如何解决《在NSString中解码Base-64编码的PNG》经验，为你挑选了3个好方法。 ... [详细]

N个小灰流_701

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章