我想你可以使用Solr并将其与其他工具结合使用.标量化,停止单词删除,词干化,甚至同义词都是Solr开箱即用的.如果您需要命名实体识别或基本名词短语提取,则需要使用OpenNLP或等效工具作为预处理阶段.您可能需要术语向量用于检索目的.将Apache Mahout与Apache Lucene和Solr集成可能很有用,因为它讨论了Lucene和Solr与机器学习(包括推荐)引擎的集成.除此之外,请随时提出更具体的问题.
我想你可以使用Solr并将其与其他工具结合使用.标量化,停止单词删除,词干化,甚至同义词都是Solr开箱即用的.如果您需要命名实体识别或基本名词短语提取,则需要使用OpenNLP或等效工具作为预处理阶段.您可能需要术语向量用于检索目的.将Apache Mahout与Apache Lucene和Solr集成可能很有用,因为它讨论了Lucene和Solr与机器学习(包括推荐)引擎的集成.除此之外,请随时提出更具体的问题.
实际上,您可以将索尔配置为在索引文档和搜索时使用NLP算法.第一阶段(索引时间)可以使用/编写Solr UpdateRequestProcessor插件来分析字段文本,而第二阶段可以实现编写自定义QParserPlugin来分析用户查询的查询.我在Lucene Eurocon 2011上提出了一种在Solr中实现自然语言搜索的方法,该方法利用Apache UIMA来运行(开源)NLP算法.您可以查看幻灯片和演讲视频.希望这可以帮助.托马索