java实现简单的搜索引擎 -博客-DevBox开发工具箱

问题一：这里面的分词采用的是字符分词，对汉语的处理还是挺不错的，但是对英文的处理就很弱。

改进方法：采用现在成熟的分词方法，比如IKAnalyzer、StandardAnalyzer等，这样修改，keySearch的数据结构就需要做下修改，可以修改为 private HashMap[] keySearch = new HashMap[maxLength]; 其中key存储分的词元，value存储唯一标识id。

问题二：本文实现的搜索引擎对词元并没有像lucene设置权重，只是简单的判断词元是否在对象中出现。

改进方法：暂无。添加权重处理，使数据结构更加复杂，所以暂时没有对其做处理，在今后的文章中会实现权重的处理。

在SerachBase类中设置details和keySearch两个属性，details用于存储Object的详细信息，keySearch用于对搜索域做索引。details数据格式为HashMap，keySearch的数据格式为稀疏数组（也可以为HashMap，HashMap中额key值相当于稀疏数组中的下标，value相当于稀疏数组在该位置的值）。

keySearch中数组下标（如用HashMap就是key）的计算方法是获取词元的第一个字符int值（因为本文的分词采用的是字符分词，所以一个字符就是一个词元），该int值就是数组的下标，相应的数组值就是Object的唯一标识。这样keySearch的数据结构就如下图

对于搜索的实现逻辑和上面的keySearch类似。对于id的搜索直接使用HashMap的get方法即可。对于搜索词的一个搜索，整体的过程也是采用先分词、其次查询、最后排序。当然这里面的分词要和创建采用的分词要一致（即创建的时候采用字符分词，查找的时候也采用字符分词）。

在getIds方法中，HashMap idTimes = new HashMap();idTimes 变量用来存储搜索词中的词元有多少个在keySearch中出现，key值为唯一标识id，value为出现的词元个数。HashSet ids = new HashSet(); ids变量用来存储出现的词元的ids。这样搜索的复杂度就是搜索词的词元个数n。获得包含词元的ids，构造SortBean数组，对其排序，排序规则是出现词元个数的降序排列。最后返回ids字符串，每个id用"，"分割。如要获取详细信息
再使用getObjects方法即可。

上述的只是一个简单的搜索引擎，并没有设计太多的计算方法，希望对大家的学习有所启发。

java实现简单的搜索引擎

写入文件时了解logcat输出

从iframe更改父元素不起作用？

将jqPlot图保存到图像文件

XCode 4.5中的分布式构建？

飞镖货币格式

如何以编程方式训练SpeechRecognitionEngine并将音频文件转换为C#或vb.net中的文本

MySQL UPDATE随机数介于1-3之间

--launcher.XXMaxPermSize在eclipse.ini中出现两次

对于在时间1和时间2之间没有发生任何变化的情况,删除所有id的情况

初学Java挑战

登录用户注册与巫术

从一个元组中的两个列表中总结相应的对 - 在Haskell中

所有电子邮件提供商都会忽略@前面的时段吗？

AI有公共聊天数据库吗？

如何降低svg过滤器中alpha层的不透明度？

零正确(资源处理)规则在哪里？

Flexslider 100%宽度创建水平滚动条

在java EE中,我应该将哪些jar放入库目录？

在AngularJS指令中查看函数的值

页面右侧的Twitter引导白色缺口