距离
欧几里得距离
应用:几何距离求解,最小二乘法,数据拟合
曼哈顿距离
如图黄线和红线,距离相同。
切比雪夫距离
二个点之间的距离定义为其各座标数值差的最大值
切比雪夫距离会把高维数据降到一维上,可能会丢失特征;由于只考虑各维度上的最大差值,因此它对异常值较为敏感。
应用:仓储物流、聚类分析
点积
代数定义
向量
还可以写成:
示例
几何定义
点积的几何解释通常只适用于维度小于3的。
余弦相似度
文本 -> 词的向量 -> 计算余弦相似度 -> cosin = 1 表示方向重合, -1 表示方向相反 -> 特征越匹配,则余弦相似度越接近 1
每个词项被赋予不同的维度,而一个文档由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。
修正余弦相似度
普通的余弦相似度没有考虑到均值偏移,修正余弦会先计算向量每个维度上的均值,然后减去这个均值。这可以更大程度反映差异,比如大家的打分普遍高分(如某个普遍流行的东西),那么通过减去均值,差异便可以得到放大,适用于评分推荐系统。
应用场景:
推荐系统协同过滤,文本相似度度量。
item based collaborative filtering 基于物品的协同过滤算法,简称 Item CF (1. 计算物品相似度, 2. 根据物品相似度结合历史特征推荐物品)
推荐算法、向量数据库
jaccard 相似度
比较两个集合间的交集 / 并集的比值,如果交集越多,那么表示越相似(只判断存在,不判断出现次数,不判断出现顺序)。适用于兴趣爱好推荐系统,标签推荐系统。
汉明距离
计算两个字符串在同位置上不同的字符的数量。主要对不的是不同。相近但是如果中间多了一个字符,字符串长度不同,差距就会变的很大。
如 你好啊,你好呀,第三个字符不同,计算的就是 1;
编辑距离(莱文斯坦距离)
需要处理多少次,才能将两个字符串变成相同的。操作可以包括替换、删除、插入。编辑距离越小,表示字符串越相近。
需要通过动态规划计算。
版权声明
本文章由作者“衡于墨”创作,转载请注明出处,未经允许禁止用于商业用途
评论区#
还没有评论哦,期待您的评论!
引用发言