文本特征提取
词袋(Bag of Words)表征
文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说:
标记(tokenizing)文本以及为每一...
分类:
其他好文 时间:
2014-12-16 11:46:54
阅读次数:
203
感知器(perceptron)1957年由Rosenblatt提出,是神经网络与支持向量机的基础。感知器是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。...
分类:
其他好文 时间:
2014-12-11 20:53:03
阅读次数:
202
1. PCA整体思想PCA,Principle Componet Analysis,主成分分析,主要用于数据降维。它通过计算给定数据集的协方差矩阵的特征值和特征向量,来得到数据集最关键的方向(数据集在此方向的投影方差最大,这个能保持最多的信息),并从关键的方向中选取前k个构成k维空间,在此空间中重新...
分类:
其他好文 时间:
2014-12-07 06:28:10
阅读次数:
171
线性代数中特征向量的几何意义?
概念:
特征向量确实有很明确的几何意义,矩阵(既然讨论特征向量的问题,当然是方阵,这里不讨论广义特征向量的概念,就是一般的特征向量)乘以一个向量的结果仍是同维数的一个向量,因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量,那么变换的效果是什么呢?这当然与方阵的构造有密切关系,比如可以取适当的二维方阵,使得这个变换的效果就是将平面上的二维向量逆时针...
分类:
其他好文 时间:
2014-12-04 23:20:15
阅读次数:
286
考虑典型的文本分类,一个经典的方法就是 分词,扫描所有特征,建立特征词典
重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
学习参数 w
存储学习参数 w , 存储特征映射词典
预测截断装载学习参数w,装载特征映射词典
扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到...
分类:
其他好文 时间:
2014-12-04 17:47:41
阅读次数:
327
机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归(二值分类)参数估计(极大似然估计...
分类:
其他好文 时间:
2014-11-27 12:34:58
阅读次数:
369
KMP是一种复杂度较低的字符串比较算法。基本思路是对欲匹配字符串进行预处理,分析当k位匹配时可以后移的位数,所得的数构成该字符串的特征向量。求特征向量Next 1 int* Next(string p){ 2 int m=p.length(); 3 int *N=new int[m]; 4...
分类:
编程语言 时间:
2014-11-26 15:49:23
阅读次数:
214
在信号处理中经常碰到观测值的自相关矩阵,从物理意义上说,如果该观测值是由几个(如 K 个)相互统计独立的源信号线性混合而成,则该相关矩阵的秩或称维数就为 K,由这 K 个统计独立信号构成 K 维的线性空间,可由自相关矩阵最大 K 个特征值所对应的特征向量或观测值矩阵最大 K 个奇异值所对应的左...
分类:
其他好文 时间:
2014-11-24 16:49:22
阅读次数:
154
在因子分析(Factor analysis)中,介绍了一种降维概率模型,用EM算法(EM算法原理详解)估计参数。在这里讨论另外一种降维方法:主元分析法(PCA),这种算法更加直接,只需要进行特征向量的计算,不需要用到EM算法。 假设数据集表示 m 个不同类型汽车的属性,比如最大速度,转弯半径等...
分类:
其他好文 时间:
2014-11-22 16:03:37
阅读次数:
249
这是我在上模式识别课程时的内容,也有参考这里。线性判别函数的基本概念判别函数为线性的情况的一般表达式 式中x是d 维特征向量,又称样本向量, 称为权向量, 分别表示为 是个常数,称为阈值权。设样本d维特征空间中描述,则两类别问题中线性判别函数的一般形式可表示成 (3-1) 其中 而ω0...
分类:
其他好文 时间:
2014-11-16 17:08:44
阅读次数:
281