当前位置:  开发笔记 > 编程语言 > 正文

Apache Lucene与Google Search Appliance

如何解决《ApacheLucene与GoogleSearchAppliance》经验,为你挑选了1个好方法。

有没有人遇到Apache Lucene的功能?我听说它甚至可以与Google Search Appliance(GSA)相媲美.如果可能的话,我正在寻找两者之间的明确比较?

在线提供的这些比较非常模糊.



1> Reto Hugi..:

可能很难找到Apache Lucene和Google Search Appliance之间的比较,因为它们是如此不同的东西.虽然Lucene是一个软件组件,用于索引内置基本相关性"增强"的文档,但GSA是一个企业搜索产品(设备/物理硬件),具有大量现成功能,可根据情况调整和优化搜索结果的谷歌搜索算法.

所以它们基本上是两个具有不同实现方案的优秀工具.但当然重叠,特别是如果用于在您的普通网站上提供搜索.

在我的脑海中,你可能想要开始一些比较的主题:

部署/建筑

Lucene是一个软件组件,可以深度集成到您自己的软件中,提供索引(通常基于文件,有时在内存中)以快速索引和检索内容.

lucene项目提供了相当多的分析器列表,可以对不同语言(西方语言,阿拉伯语,亚洲语等)进行propper索引,但是有分析器改进的空间

Lucene for .Net是一个非常受欢迎的端口,可以集成到Microsoft .Net Plattforms上.

GSA软件和硬件捆绑在一起并作为具有HTTP(s)接口的设备出售,以HTML(通过其自己的XSLT)或XML(为了更好地集成到您的网站中)提供搜索结果

GSA附带语言包(已安装和可下载).您必须选择其中一个捆绑包.如果您需要支持更多语言,则可能需要将另一个GSA添加到基础结构中(如果所有必需语言不在单个包中)

GSA表现出色,只需要很少的维护

GSA让您在几乎没有工程努力的情况下进行扩展.全局分布,但可以通过Web界面设置连接的GSA

通过购买更便宜的热备份模块,可以使GSA成为HA

索引

Lucene提供了爬虫(和爬虫API)来索引内容.它不关心您的抓取工具是否实际抓取Google等网站,或者您是否基于SQL语句抓取数据库或提供从平面文件读取的文本流.但通常您必须实现爬虫,如果提供的不符合您的需求

GSA使用Google使用的爬虫技术,尊重机器人指令(在TXT或Meta标签中),它为无法抓取的源(​​即它们之间没有链接)提供源API,并且它支持为所有市长DB设置SQL查询用于从数据库中检索数据(无论是要爬网的URL还是数据本身)

检索/相关性调整

Lucene并不瞄准相关调优并且没有很好的支持(除了提升索引中的条目).由应用程序使用索引结果来进行调整

Lucene是SOLR使用的索引,它提供更类似于GSA的调优和体系结构(包括HTTP上的结果检索)

GSA让您根据元数据,日期和URL模式来偏置结果集.在最新版本中,您甚至可以设置自己的实体并根据它们偏置结果

GSA支持元数据的开箱即用方面,以及他们界面上的一些更奇特的东西,如文档的预览图像,自动提取等.

商业用品

Lucene是一个开源(无成本)产品,但需要购买硬件

对于500k文档/ URL,GSA的起价约为2万美元

Google提供了多种支持级别

GSA许可证必须在2年或3年后续订(您获得新硬件)

GSA不需要任何其他硬件(包括设备)

......还有更多要补充的内容,但我希望你明白这一点.


2016年2月更新:

谷歌已通知合作伙伴,GSA将于2019年左右停产.目前链接的最佳网站似乎是http://fortune.com/2016/02/04/google-ends-search-appliance/.

推荐阅读
和谐啄木鸟
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有