我们公司有数以千计的PDF文档.我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接.
我对lucene运气不错,但它不是点击,安装和搜索,它确实需要一些工作.
如果您需要可以下载并安装并在10分钟内搜索的内容,请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/,它使用Lucene,但是打包以便配置它并且准备运行安装,一个更容易尝试Lucene的方法.
在Nutch中启用Nutch + Lucene + Pdf插件是您的解决方案.Nutch允许您通过启用pdf插件来解析pdf.
Lucene将允许您索引已爬网和已解析的数据,Nutch具有servlet,可为您提供搜索界面.
我们对内部lans使用相同的内容.