1. Levenshtein Distance(编辑距离):计算两个字符串之间的最小编辑距离,即将一个字符串转换为另一个字符串所需的最少操作数。

  2. Jaro-Winkler Distance:计算两个字符串之间的相似度,考虑了字符的顺序和缺失字符等因素。

  3. Cosine Similarity(余弦相似度):计算两个字符串在向量空间中的夹角,从而得出相似度。

  4. Jaccard Similarity(杰卡德相似度):计算两个字符串之间共同出现词语的比例,从而得出相似度。

  5. Editex(变位距离):计算两个字符串之间的变位距离,即两个字符串交换相邻字符的最少次数。

  6. Hamming Distance(汉明距离):计算两个等长字符串之间不同字符的个数。

  7. Soundex(声音相似度):将字符串转换为其音标表示,从而得到其相似度。常用于英文单词相似度计算。

  8. N-Gram Similarity:将字符串分成N个连续的子字符串,计算其相似度。常用于文本相似度计算。

  9. Longest Common Subsequence(最长公共子序列):计算两个字符串之间最长的相同子序列的长度,从而得出相似度。

  10. Damerau-Levenshtein Distance:计算两个字符串之间的最小编辑距离,允许交换相邻字符,也可用于拼写检查和字符串匹配。

常见字符串相似度算法

原文地址: https://www.cveoy.top/t/topic/WFs 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录