加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

常用的相似性度量-各种距离总结

发布时间:2020-12-24 17:13:28 所属栏目:大数据 来源:网络整理
导读:在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 本文目录

常用的相似性度量-各种距离总结

?????? 也就是欧氏距离了。

  若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。

(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。

(3)Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的马氏距离

X = [1 2; 1 3; 2 2; 3 1]

Y = pdist(X,'mahalanobis')

?

结果:

Y=

??? 2.3452???2.0000??? 2.3452??? 1.2247???2.4495??? 1.2247

?


7. 夹角余弦(Cosine)

?????? 有没有搞错,又不是学几何,怎么扯到夹角余弦了?各位看官稍安勿躁。几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

常用的相似性度量-各种距离总结

(2)两个n维样本点a(x11,x1n)和b(x21,x2n)的夹角余弦

?????? 类似的,对于两个n维样本点a(x11,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度。

常用的相似性度量-各种距离总结

  即:

常用的相似性度量-各种距离总结

?????? 夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

?????? 夹角余弦的具体应用可以参阅参考文献[1]。

(3)Matlab计算夹角余弦

例子:计算(1,0)、( 1,1.732)、(-1,0)两两间的夹角余弦

X= [1 0 ; 1 1.732 ; -1 0]

D= 1- pdist(X,'cosine')? % Matlab中的pdist(X,'cosine')得到的是1减夹角余弦的值

结果:

D=

??? 0.5000??-1.0000?? -0.5000

?


8. 汉明距离(Hammingdistance)

(1)汉明距离的定义

?????? 两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。

?????? 应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)。

(2)Matlab计算汉明距离

  Matlab中2个向量之间的汉明距离的定义为2个向量不同的分量所占的百分比。

?????? 例子:计算向量(0,2)两两间的汉明距离

X = [0 0 ; 1 0 ; 0 2];

D = PDIST(X,'hamming')

结果:

D=

??? 0.5000???0.5000??? 1.0000

?


9. 杰卡德相似系数(Jaccardsimilarity coefficient)

(1) 杰卡德相似系数

?????? 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。

常用的相似性度量-各种距离总结

  杰卡德相似系数是衡量两个集合的相似度一种指标。

(2) 杰卡德距离

?????? 与杰卡德相似系数相反的概念是杰卡德距离(Jaccarddistance)。杰卡德距离可用如下公式表示:

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读