常见字符串相似度算法
-
Levenshtein Distance(编辑距离):计算两个字符串之间的最小编辑距离,即将一个字符串转换为另一个字符串所需的最少操作数。
-
Jaro-Winkler Distance:计算两个字符串之间的相似度,考虑了字符的顺序和缺失字符等因素。
-
Cosine Similarity(余弦相似度):计算两个字符串在向量空间中的夹角,从而得出相似度。
-
Jaccard Similarity(杰卡德相似度):计算两个字符串之间共同出现词语的比例,从而得出相似度。
-
Editex(变位距离):计算两个字符串之间的变位距离,即两个字符串交换相邻字符的最少次数。
-
Hamming Distance(汉明距离):计算两个等长字符串之间不同字符的个数。
-
Soundex(声音相似度):将字符串转换为其音标表示,从而得到其相似度。常用于英文单词相似度计算。
-
N-Gram Similarity:将字符串分成N个连续的子字符串,计算其相似度。常用于文本相似度计算。
-
Longest Common Subsequence(最长公共子序列):计算两个字符串之间最长的相同子序列的长度,从而得出相似度。
-
Damerau-Levenshtein Distance:计算两个字符串之间的最小编辑距离,允许交换相邻字符,也可用于拼写检查和字符串匹配。
原文地址: https://www.cveoy.top/t/topic/WFs 著作权归作者所有。请勿转载和采集!