我们已经删除了数千页的报纸文章.每页的报纸,问题,日期,页码和OCR文本都已放入mySQL数据库.
我们现在想要在PHP中构建类似Google的搜索引擎,以查找给定查询的页面.它必须快速,并且任何搜索都不会超过一秒钟.
我们该怎么做?
您也可以试用SphinxSearch.Craigslist使用sphinx,它可以连接到mysql和postgresql.
有一些有趣的搜索引擎供您查看.我不知道"谷歌喜欢"是什么意思所以我只是忽略那一部分.
看看Lucene引擎吧.原始版本是高性能的,但是用Java编写.有一个Lucene到PHP的端口(已在其他地方提到),但它太慢了.
仔细看看Xapian项目.它很快.它是用C++编写的,所以你很可能必须为你的目标服务器构建它,但是有PHP绑定.
如果MySQL的全文搜索每个查询花费20秒,那么你要么在配置不当的硬件上配置错误或运行 - 一些大型网站成功使用普通的MyISAM搜索.
不过,我的投票支持Solr.它基于Lucene,因此您可以获得最佳产品的所有丰富性和性能,但使用RESTful API,可以非常轻松地使用PHP.甚至有一篇dW文章.