例如,Soundex算法针对英语进行了优化.是否有更普遍的算法适用于大型语言系列?
SOUNDEX确实以英语为导向.考虑到更广泛的语音差异的另外两个是:双Metaphone和NYSIIS.
他们将编码产生到比SOUNDEX更大的可能空间.具体而言,Double Metaphone包括缩减,其明确目的是基于比英语更多的语言处理替代发音.
我最近做了关于模糊字符串匹配的演示文稿,幻灯片可能会有所帮助.