你知道在哪里可以找到Lucene相似度算法的高级解释.我想理解它,而不必破译搜索和索引所涉及的所有数学和术语.
Lucene的内置Similarity
是一个相当标准的"逆文档频率"评分算法.维基百科的文章很简短,但涵盖了基础知识.Lucene in Action这本书更详细地分解了Lucene公式; 它没有完美地反映当前的Lucene公式,但解释了所有主要概念.
首先,分数随着当前文档中术语出现的次数(术语频率)而变化,并且与术语在所有文档中出现的次数(文档频率)成反比.公式中的其他因素是次要的,调整分数以试图使来自不同查询的分数相互比较.