Lucene爬虫(它需要构建lucene索引)

作者：雯颜哥_135 | 2023-08-17 14:40

如何解决《Lucene爬虫(它需要构建lucene索引)》经验，为你挑选了1个好方法。

我正在寻找用java编写的Apache Lucene网络爬虫(如果可能或任何其他语言).爬虫必须使用lucene并创建一个有效的lucene索引和文档文件,所以这就是为什么nutch被淘汰的原因......

有没有人知道这样的网络爬虫存在,如果答案是肯定的,我可以找到它.TNX ...

1> Esko..：

你问的是两个组成部分:

网络爬虫

基于Lucene的自动索引器

首先是勇气的一句话:去过那里,做到了.从创建自己的角度来看,我会单独处理这两个组件,因为我不相信你可以使用Lucene来做你要求的事情,而不会真正了解下面发生了什么.

网络爬虫

因此,您有一个网站/目录,您希望"抓取"以收集特定资源.假设它是列出目录内容的任何常见Web服务器,使网络爬虫很容易:只需将其指向目录的根目录并定义收集实际文件的规则,例如"以.txt结尾".非常简单的东西,真的.

实际的实现可能是这样的:使用HttpClient获取实际的网页/目录列表,以您发现最有效的方式解析它们,例如使用XPath从提取的文档中选择所有链接或者仅使用正则表达式解析它Java的Pattern和Matcher类随时可用.如果您决定使用XPath路由,请考虑使用JDOM进行DOM处理,将Jaxen用于实际的XPath.

获得所需的实际资源(如一堆文本文件)后,您需要确定数据类型,以便能够知道索引内容以及可以安全忽略的内容.为简单起见,我假设这些是没有字段或任何内容的纯文本文件,并且不会更深入,但如果你有多个字段要存储,我建议你让你的爬虫生成1..n的带访问器的专用bean 和修改器(积分:使豆不变,不允许存取变异bean的内部状态,创建一个拷贝构造函数为bean)中的其他组件使用.

在API调用方面,你应该有类似的东西HttpCrawler#getDocuments(String url)返回a List与实际的索引器一起使用.

基于Lucene的自动索引器

除了Lucene 的显而易见的东西,比如设置一个目录并理解它的线程模型(任何时候只允许一次写操作,即使索引被更新也可以存在多次读取),你当然希望将bean提供给指数.我已经链接到的五分钟教程基本上就是这样,查看示例addDoc(..)方法,只需用String替换它YourBean.

请注意,Lucene IndexWriter确实有一些清理方法可以方便地以受控方式执行,例如IndexWriter#commit()只有在将一堆文档添加到索引后调用才有利于提高性能,然后调用IndexWriter#optimize()以确保索引不会大幅增加随着时间的推移臃肿也是一个好主意.永远记得关闭索引以避免LockObtainFailedException抛出不必要的s,就像Java中的所有IO一样,这样的操作当然应该在finally块中完成.

注意事项

你需要记住不时地使你的Lucene索引的内容过期,否则你永远不会删除任何东西,它会变得臃肿,最终因为它自己的内部复杂性而死亡.

由于线程模型,您很可能需要为索引本身创建单独的读/写抽象层,以确保在任何给定时间只有一个实例可以写入索引.

由于源数据采集是通过HTTP完成的,因此您需要考虑数据验证和可能的错误情况,例如服务器不可用,以避免任何形式的错误索引和客户端挂起.

您需要知道要从索引中搜索的内容,以便能够决定将要添加到其中的内容.请注意,必须按日期编制索引,以便将日期分为年,月,日,小时,分钟,秒而不是毫秒值,因为从Lucene索引执行范围查询时,[0 to 5]实际上会转换为+0 +1 +2 +3 +4 +5范围查询很快就消失了,因为查询子部分的数量最多.

有了这些信息,我相信你可以在不到一天的时间内制作出自己独特的Lucene索引器,如果你想要严格测试它,可以使用三个.

推荐阅读

程序员
如何让kGADAdSizeSmartBannerPortrait工作

如何解决《如何让kGADAdSizeSmartBannerPortrait工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在pageInfo中将总计数传递给客户端

如何解决《如何在pageInfo中将总计数传递给客户端》经验，为你挑选了2个好方法。 ... [详细]
程序员
构建PBRT v2错误 - 错误1错误U1077:'if':返回代码'0x1'

如何解决《构建PBRTv2错误-错误1错误U1077:'if':返回代码'0x1'》经验，为你挑选了0个好方法。 ... [详细]
程序员
火炬 - 如何改变张量类型？

如何解决《火炬-如何改变张量类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:如何检查CSV文件中的单元格是否为空？

如何解决《Python:如何检查CSV文件中的单元格是否为空？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular ng-click无法使用$ compile

如何解决《Angularng-click无法使用$compile》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用渲染脚本android旋转位图

如何解决《使用渲染脚本android旋转位图》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？

如何解决《如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
应该在提交历史中保持合并吗？

如何解决《应该在提交历史中保持合并吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中的电源操作

如何解决《Python中的电源操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Firebase部署不更新JS文件

如何解决《Firebase部署不更新JS文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
将十进制（用户字符串）转换为带有0x前缀的十六进制

如何解决《将十进制（用户字符串）转换为带有0x前缀的十六进制》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在matplotlib的轴刻度中删除小数点后的数字？

如何解决《如何在matplotlib的轴刻度中删除小数点后的数字？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我怎样才能获得firebase部署--email或--token参数？

如何解决《我怎样才能获得firebase部署--email或--token参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio上的奇怪错误 - "您可以使用导航栏切换上下文"

如何解决《VisualStudio上的奇怪错误-"您可以使用导航栏切换上下文"》经验，为你挑选了2个好方法。 ... [详细]
程序员
Deb软件包维护者脚本应该使用Bash还是Sh

如何解决《Deb软件包维护者脚本应该使用Bash还是Sh》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在加载页面后设置选择选项'选中'？

如何解决《如何在加载页面后设置选择选项'选中'？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么杰克逊多态序列化在列表中不起作用？

如何解决《为什么杰克逊多态序列化在列表中不起作用？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Knockout JS - 获取模态弹出窗口来编辑项目

如何解决《KnockoutJS-获取模态弹出窗口来编辑项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#WPF - 如何组合datatrigger和触发器？

如何解决《C#WPF-如何组合datatrigger和触发器？》经验，为你挑选了1个好方法。 ... [详细]

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章