有没有人遇到Apache Lucene的功能?我听说它甚至可以与Google Search Appliance(GSA)相媲美.如果可能的话,我正在寻找两者之间的明确比较?
在线提供的这些比较非常模糊.
可能很难找到Apache Lucene和Google Search Appliance之间的比较,因为它们是如此不同的东西.虽然Lucene是一个软件组件,用于索引内置基本相关性"增强"的文档,但GSA是一个企业搜索产品(设备/物理硬件),具有大量现成功能,可根据情况调整和优化搜索结果的的谷歌搜索算法.
所以它们基本上是两个具有不同实现方案的优秀工具.但当然重叠,特别是如果用于在您的普通网站上提供搜索.
在我的脑海中,你可能想要开始一些比较的主题:
部署/建筑
Lucene是一个软件组件,可以深度集成到您自己的软件中,提供索引(通常基于文件,有时在内存中)以快速索引和检索内容.
lucene项目提供了相当多的分析器列表,可以对不同语言(西方语言,阿拉伯语,亚洲语等)进行propper索引,但是有分析器改进的空间
Lucene for .Net是一个非常受欢迎的端口,可以集成到Microsoft .Net Plattforms上.
GSA软件和硬件捆绑在一起并作为具有HTTP(s)接口的设备出售,以HTML(通过其自己的XSLT)或XML(为了更好地集成到您的网站中)提供搜索结果
GSA附带语言包(已安装和可下载).您必须选择其中一个捆绑包.如果您需要支持更多语言,则可能需要将另一个GSA添加到基础结构中(如果所有必需语言不在单个包中)
GSA表现出色,只需要很少的维护
GSA让您在几乎没有工程努力的情况下进行扩展.全局分布,但可以通过Web界面设置连接的GSA
通过购买更便宜的热备份模块,可以使GSA成为HA
索引
Lucene提供了爬虫(和爬虫API)来索引内容.它不关心您的抓取工具是否实际抓取Google等网站,或者您是否基于SQL语句抓取数据库或提供从平面文件读取的文本流.但通常您必须实现爬虫,如果提供的不符合您的需求
GSA使用Google使用的爬虫技术,尊重机器人指令(在TXT或Meta标签中),它为无法抓取的源(即它们之间没有链接)提供源API,并且它支持为所有市长DB设置SQL查询用于从数据库中检索数据(无论是要爬网的URL还是数据本身)
检索/相关性调整
Lucene并不瞄准相关调优并且没有很好的支持(除了提升索引中的条目).由应用程序使用索引结果来进行调整
Lucene是SOLR使用的索引,它提供更类似于GSA的调优和体系结构(包括HTTP上的结果检索)
GSA让您根据元数据,日期和URL模式来偏置结果集.在最新版本中,您甚至可以设置自己的实体并根据它们偏置结果
GSA支持元数据的开箱即用方面,以及他们界面上的一些更奇特的东西,如文档的预览图像,自动提取等.
商业用品
Lucene是一个开源(无成本)产品,但需要购买硬件
对于500k文档/ URL,GSA的起价约为2万美元
Google提供了多种支持级别
GSA许可证必须在2年或3年后续订(您获得新硬件)
GSA不需要任何其他硬件(包括设备)
......还有更多要补充的内容,但我希望你明白这一点.
2016年2月更新:
谷歌已通知合作伙伴,GSA将于2019年左右停产.目前链接的最佳网站似乎是http://fortune.com/2016/02/04/google-ends-search-appliance/.