文本分类为何选择余弦距离,图片分类却用欧氏距离?
在文本分类中,选择余弦相似度(cosine similarity)作为距离度量的优势在于,文本往往是高维稀疏的,每个词的出现或者频率可以看作文本特征的一个维度。而欧氏距离在高维稀疏数据上会存在'维度诅咒'的问题,即随着维度的增加,欧氏距离的效果会变差。而余弦相似度则不受维度的影响,只考虑向量的方向,因此在文本分类中更适用。
在图片分类中,图片是由像素点组成的二维矩阵,每个像素点可以看作是图片的一个特征。欧氏距离可以用于度量像素点之间的差异,因为欧氏距离考虑了特征在各个维度上的差异,可以更好地区分不同的图片。而余弦相似度则不适用于像素点之间的比较,因为它只考虑了向量的方向,忽略了特征的具体差异。因此在图片分类中,欧氏距离更常用。
原文地址: https://www.cveoy.top/t/topic/o8XY 著作权归作者所有。请勿转载和采集!