MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T ...
分类:
其他好文 时间:
2018-01-19 14:03:29
阅读次数:
172
kNN是一种基本分类与回归方法。k-NN的输入为实例的特征向量,对应于特征空间中的点;输出为实例的类别,可以取多类。k近邻实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k值的选择、距离度量及分类决策规则是k近邻的三个基本要素。算法输入:训练数据集T={(x1,y1),(x2,y... ...
分类:
编程语言 时间:
2017-12-31 12:00:05
阅读次数:
137
§4.1 特征值与特征向量 §4.1.1特征值与特征向量的概念及其计算 定义1. 设A是数域P上的一个n阶矩阵,l是一个未知量, 称为A的特征多项式,记 ¦(l)=| lE-A|,是一个P上的关于 l 的n次多项式,E是单位矩阵。 ¦(l)=| lE-A|=ln+a1ln-1+…+an= 0是一个n ...
分类:
其他好文 时间:
2017-12-28 00:01:39
阅读次数:
280
一. 引入NMS 在R-CNN中对于2000多个region proposals得到特征向量(4096维)后,输入到SVM中进行打分(score)。除了背景以外VOC数据集共有20类。那么2000*4096维特征矩阵与20个SVM组成的权重矩阵4096*20相乘得到结果为2000*20维矩阵。这个矩 ...
分类:
其他好文 时间:
2017-12-14 23:59:56
阅读次数:
530
线性可分问题的支持向量机学习方法,对线性不可分训练数据是不适用的,因为这时上述方法中的不等式约束并不能都成立,因此这时候需要将硬间隔最大化,使其变成软间隔最大化。 假定给定特征空间上的训练数据集:T={(x1,y1),(x2,y2),...(xn,yn)},xi为第i个特征向量,yi为xi的类标记, ...
分类:
其他好文 时间:
2017-12-13 19:52:03
阅读次数:
110
E= eig(A),求解矩阵A的特征值,返回值E为列向量 [V,D] = eig(A),求解矩阵A的特征值D和特征向量V,使其满足A V = V D,D为对角阵 例子: A= 1 0 0 0 2 0 0 0 3 E = eig(A) E= 1 2 3 [V,D] = eig(A) V= 1 0 0 ...
分类:
其他好文 时间:
2017-12-11 20:06:13
阅读次数:
129
1. 引言 在许多实际应用中,能够对相互依赖的多个变量进行预测的能力非常重要。这些应用的涵盖范围很广,包括图片区域划分[49,61,69]、Go游戏中的得分评估[130]、DNA基因切分[7]、自然语言文本语法解析[144]等。这些应用所共有的特征,是在已知观测特征向量$\mathbf{x}$的条件 ...
分类:
其他好文 时间:
2017-12-02 16:15:51
阅读次数:
134
本地向量和矩阵 本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存储所有的值包括零值,而稀疏向量存 ...
分类:
其他好文 时间:
2017-11-10 13:55:35
阅读次数:
340
Obvious,最小特征值对应的特征向量为平面的法向 ...
分类:
编程语言 时间:
2017-11-07 10:21:30
阅读次数:
251
VectorIndexer: 倘若所有特征都已经被组织在一个向量中,又想对其中某些单个分量进行处理时,Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。 通过为其提供maxCategories超参数,它可以自动识别哪些特征是类别型的,并且将原始值转换为类别索引。它 ...
分类:
其他好文 时间:
2017-10-31 22:19:51
阅读次数:
196