数据对象距离计算:曼哈顿、欧几里得、切比雪夫、余弦距离及皮尔逊相关系数
数据对象距离计算:实例详解
本文以数据对象 X=(37,44,34,8) 和 Y=(16,45,5,24) 为例,详细计算它们之间的几种常用距离:
1. 曼哈顿距离(Manhattan Distance)
曼哈顿距离计算两个向量对应元素绝对差值的总和。
- 计算公式:曼哈顿距离 = |x1-y1| + |x2-y2| + ... + |xn-yn|
- 计算过程:|37-16| + |44-45| + |34-5| + |8-24| = 21 + 1 + 29 + 16 = 67
2. 欧几里得距离(Euclidean Distance)
欧几里得距离计算两个向量的欧几里得范数(L2范数)。
- 计算公式:欧几里得距离 = √[(x1-y1)² + (x2-y2)² + ... + (xn-yn)²]
- 计算过程:√[(37-16)² + (44-45)² + (34-5)² + (8-24)²] ≈ 34.99
3. 切比雪夫距离(Chebyshev Distance)
切比雪夫距离计算两个向量对应元素的最大差值。
- 计算公式:切比雪夫距离 = max(|x1-y1|, |x2-y2|, ..., |xn-yn|)
- 计算过程:max(|37-16|, |44-45|, |34-5|, |8-24|) = 29
4. 余弦距离(Cosine Distance)
余弦距离计算两个向量的余弦相似度的差别,等于1减去余弦相似度。
- 计算公式:
- 余弦相似度 = (x1y1 + x2y2 + ... + xn*yn) / (√(x1² + x2² + ... + xn²) * √(y1² + y2² + ... + yn²))
- 余弦距离 = 1 - 余弦相似度
- 计算过程:
- 余弦相似度 = (3716 + 4445 + 345 + 824) / (√(37² + 44² + 34² + 8²) * √(16² + 45² + 5² + 24²)) ≈ 0.6401
- 余弦距离 = 1 - 0.6401 ≈ 0.3599
5. 皮尔逊相关系数(Pearson Correlation Coefficient)
皮尔逊相关系数计算两个向量之间的线性相关性。
- 计算公式:皮尔逊相关系数 = cov(X, Y) / (std(X) * std(Y))
- cov(X, Y) 是 X 和 Y 的协方差
- std(X) 和 std(Y) 分别是 X 和 Y 的标准差
- 计算过程:
- cov(X, Y) = (37-24.75)(16-22.5) + (44-24.75)(45-22.5) + (34-24.75)(5-22.5) + (8-24.75)(24-22.5) ≈ -257.31
- std(X) ≈ 14.97,std(Y) ≈ 16.37
- 皮尔逊相关系数 = -257.31 / (14.97 * 16.37) ≈ -0.495
总结
通过以上计算,我们得到了数据对象 X 和 Y 之间的距离:
- 曼哈顿距离 ≈ 67
- 欧几里得距离 ≈ 34.99
- 切比雪夫距离 = 29
- 余弦距离 ≈ 0.3599
- 皮尔逊相关系数 ≈ -0.495
原文地址: https://www.cveoy.top/t/topic/lzz 著作权归作者所有。请勿转载和采集!