search.png
关于我
menu.png
距离和向量相似度

距离

欧几里得距离


应用:几何距离求解,最小二乘法,数据拟合

曼哈顿距离



如图黄线和红线,距离相同。

切比雪夫距离

二个点之间的距离定义为其各座标数值差的最大值


切比雪夫距离会把高维数据降到一维上,可能会丢失特征;由于只考虑各维度上的最大差值,因此它对异常值较为敏感。
应用:仓储物流、聚类分析

点积

代数定义

向量

的点积定义为


还可以写成:

示例


几何定义


点积的几何解释通常只适用于维度小于3的。

余弦相似度

文本 -> 词的向量 -> 计算余弦相似度 -> cosin = 1 表示方向重合, -1 表示方向相反 -> 特征越匹配,则余弦相似度越接近 1

每个词项被赋予不同的维度,而一个文档由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。

修正余弦相似度

普通的余弦相似度没有考虑到均值偏移,修正余弦会先计算向量每个维度上的均值,然后减去这个均值。这可以更大程度反映差异,比如大家的打分普遍高分(如某个普遍流行的东西),那么通过减去均值,差异便可以得到放大,适用于评分推荐系统。

应用场景:

推荐系统协同过滤,文本相似度度量。
item based collaborative filtering 基于物品的协同过滤算法,简称 Item CF (1. 计算物品相似度, 2. 根据物品相似度结合历史特征推荐物品)


推荐算法、向量数据库

jaccard 相似度

比较两个集合间的交集 / 并集的比值,如果交集越多,那么表示越相似(只判断存在,不判断出现次数,不判断出现顺序)。适用于兴趣爱好推荐系统,标签推荐系统。

汉明距离

计算两个字符串在同位置上不同的字符的数量。主要对不的是不同。相近但是如果中间多了一个字符,字符串长度不同,差距就会变的很大。
如 你好啊,你好呀,第三个字符不同,计算的就是 1;

编辑距离(莱文斯坦距离)

需要处理多少次,才能将两个字符串变成相同的。操作可以包括替换、删除、插入。编辑距离越小,表示字符串越相近。
需要通过动态规划计算。

版权声明

知识共享许可协议 本文章由作者“衡于墨”创作,转载请注明出处,未经允许禁止用于商业用途

本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。
发布时间:2025年01月04日 19:08:34

评论区#

还没有评论哦,期待您的评论!

关闭特效