原文:https://zhuanlan.zhihu.com/p/26308272 插入一条信息:特征编码一定要考虑是否需要距离度量,编码方式对距离度量的适应:例如:我们用one-hot编码颜色,向量正交,各个颜色之间的距离等同,如果此处用序数编码显然不太合适,但是我们用one-hot编码星期几就不好 ...
分类:
其他好文 时间:
2018-09-13 14:00:58
阅读次数:
326
特征向量 机器学习方法 距离度量 2.曼哈顿距离:在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”,也称为“城市街区距离”。 3.切比雪夫距离:国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个 ...
分类:
其他好文 时间:
2018-09-12 11:10:05
阅读次数:
418
判别模型 误分点到超平面的距离 对偶解法(Gram矩阵) 多类分类, 回归 特征空间, 样本点 判别模型 三要素: 1、距离度量:曼哈顿和欧氏距离 2、k值选取:(估计误差和近似误差),交叉验证求最优 3、分类决策:多数表决 kd树(构造和搜索,适用于训练实例远大于空间维数) 特征与类别的联合概率 ...
分类:
其他好文 时间:
2018-08-29 19:57:48
阅读次数:
203
1.布雷格曼散度:是一种类似距离度量的方式,用于衡量两者之间差异的大小。Bregman 散度是损失或者失真函数。考虑如下情况:设点是点的失真或者近似的点,也就是说可能是由添加了一些噪声形成的,损失函数的目的是度量用近似近似导致的失真或者损失,因而Bregman散度可以用作相异性函数。 2.挖掘方向: ...
分类:
其他好文 时间:
2018-07-26 18:51:03
阅读次数:
199
Word Mover的距离(WMD)是用于衡量两个文档之间差异的距离度量,它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。该小组的论文“ 从Word嵌入到文档距离”发表了在第32届国际机器学习大会(ICML)上。在本文中,他们证明了WMD度量导致8个真实世界文档分类数据集中前所未 ...
分类:
其他好文 时间:
2018-07-16 15:05:36
阅读次数:
195
k近邻法 基础知识 1 模型 使用的模型实际上对应于特征空间的划分.模型的三个基本要素: 距离度量 , k值的选择 , 分类决策规则决定. 思想脉络 1 方法的流程简述 给定一个训练数据集,对于新的输入实例,在训练数据集中找到与之最临近的k个实例,这k个实例的多数属于某个类, 就把实例分为这个类. ...
分类:
其他好文 时间:
2018-06-24 16:07:52
阅读次数:
337
基于结构的距离度量是找出序列的在较高尺度上的结构,并在全局尺度上进行比较。基于结构的距离度量又可以进一步分成两种:基于模型(model-based)的距离度量和基于压缩(compression-based)的距离度量。基于模型的距离度量是先对每个待比较的时间序列分别构建各自的全局模型,建好各自的模型 ...
分类:
其他好文 时间:
2018-06-21 23:47:23
阅读次数:
217
1、直方图方法 方法描述:有两幅图像patch(当然也可是整幅图像),分别计算两幅图像的直方图,并将直方图进行归一化,然后按照某种距离度量的标准进行相似度的测量。 方法的思想:基于简单的向量相似度来对图像相似度进行度量。 优点:直方图能够很好的归一化,比如256个bin条,那么即使是不同分辨率的图像 ...
分类:
其他好文 时间:
2018-06-05 15:32:42
阅读次数:
151
knn 最邻近分类 Class = knnclassify(test_data,train_data,train_label, k, distance, rule) k:选择最邻近的数量 distance:距离度量 'euclidean' 欧几里得距离,默认的 'cityblock' 绝对差的和 ' ...
分类:
其他好文 时间:
2018-05-12 11:20:49
阅读次数:
490
1. 欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: ...
分类:
其他好文 时间:
2018-04-24 17:35:43
阅读次数:
528