0

常用距离总结

 2 years ago
source link: https://liangyaorong.github.io/blog/2016/%E5%B8%B8%E7%94%A8%E8%B7%9D%E7%A6%BB%E6%80%BB%E7%BB%93/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

常用距离总结

这篇文章会对常用的距离进行简单总结.将会涉及到:

  1. 余弦相似度
  2. 皮尔逊相关系数(标准化后的余弦相似度)
  3. Spearmana相关系数
  4. 切比雪夫距离
  5. 曼哈顿距离
  6. 闵科夫斯基距离(闵氏距离)
  7. Jaccard相似度
  8. 卡方统计量
  • 特点:
    同心圆型的点不能正确分类;个别取值较大的变量会对结果产生重要影响,量纲对其有较大影响。可通过先对特征进行归一化或标准化解决.
  • 特点:
    不受量纲影响;排除了变量之间相关性干扰.同样的样本在不同的总体中,其马氏距离通常是不同的
  • 理解:
    马氏距离就是对数据进行旋转后计算加权欧氏距离;数据旋转的理解与PCA中的旋转一致.具体推导可以参考这篇博文传送门

余弦相似度

  • 特点:
    余弦相似度在[-1,1]之间.即有比较标准;对数据的刻度不敏感,如(3,5),(6,10)分别与(1,1)的余弦相似度是一致的,但欧氏距离是不一致的.
  • 理解:
    以两个向量的夹角余弦衡量向量间的距离,从得到

(Pearson)相关系数(标准化后的余弦相似度)

  • 特点:
    刻画向量间线性相关关系
  • 理解:
    就是平时统计常用的相关系数

Spearman等级(秩)相关系数

  • 定义:
    对数据进行排序,若相同则对取平均序号.然后计算其序号的相关系数
  • 特点:
    解决非线性相关问题

切比雪夫距离

  • 理解:
    切比雪夫距离又称棋盘距离。国际象棋中王和后走的就是切比雪夫距离。

曼哈顿距离(绝对值距离)

  • 理解:
    曼哈顿距离又称出租车距离,假设街区的道路都是水平或竖直的,那么出租车来回两点间的距离显然不能用欧式距离衡量。此时出租车走的距离就是曼哈顿距离。

闵科夫斯基距离(闵氏距离)

  • 特点:
    与欧氏距离类似, 量纲对结果影响很大
  • 理解:
    当k=1时,为曼哈顿距离;当k=2时,为欧式距离;当k=无穷时,为切比雪夫距离

Jaccard相似度

  • 特点:
    衡量两集合相似程度
  • 理解:
    可用于文本识别中,把文本当作一个大集合,里面有很多不同字段(如:”I’m handsome”可分为”I’”,”m h”,”ands”,”ome”).若两文本集合的Jaccard相似度高,则两个文本很可能相似。

卡方统计量

  • 特点:
    适用于离散型变量.
  • 理解:
    卡方统计量用于衡量两变量是否服从同一分布.若统计量越大,则考虑两变量越独立.

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK