数据作为信息的载体,要分析数据中包含的主要信息,即要分析数据的主要特征(即数据的数字特征), 对于数据的数字特征, 包含数据的集中位置、分散程度和数据分布,常用统计项目如下: 集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数 离散趋势统计量:标准差(sd)、方差 ...
分类:
其他好文 时间:
2016-10-19 07:46:17
阅读次数:
316
最近接触了pLSA模型,由于该模型中引入了主题作为隐变量,所以需要使用期望最大化(Expectation Maximization)算法求解。 为什么需要EM算法 数理统计的基本问题就是根据样本所提供的信息,对总体的分布或者分布的数字特征作出统计推断。所谓总体,就是一个具有确定分布的随机变量,来自总 ...
分类:
编程语言 时间:
2016-08-16 19:57:14
阅读次数:
250
概率论中,所研究的随机变量是假定其分布是已知的,在此前提下研究它的性质、数字特征等。 在数理统计中,所研究的随机变量的分布是未知或不完全知道的,通过重复独立的试验得到许多观察值去推断随机变量的种种可能分布。 1、随机样本 总体:试验的全部可能的观察值。 =样本空间 个体:每一个可能观察值。 =样本点 ...
分类:
其他好文 时间:
2016-06-17 12:36:58
阅读次数:
228
现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错。 同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性, ...
分类:
编程语言 时间:
2016-05-19 23:00:25
阅读次数:
278
一.昨天做了什么? 昨天完成了图片保存后的查询功能,并可以在数据库的可视化工具显示,还有在安卓的界面上显示。 二.今天准备做什么? 今天准备帮助团队伙伴完善一下捕捉人脸的界面,还有修改人脸识别的算法。 三.遇到困难没有? 因为我们组人脸识别的算法还有待完善,在将人的脸部特征转化为数字特征的时候还有缺 ...
分类:
其他好文 时间:
2016-04-23 19:59:21
阅读次数:
119
描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识。在此所提供之统计量包含: 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算。 例如: 中位数描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据的一半。对于对称分布的数据,均值与中位数比较
分类:
编程语言 时间:
2016-03-14 21:42:47
阅读次数:
1290
一、随机变量的数字特征 1. 数学期望 刻画随机变量取值的平均数,若X,Y相互独立,则E(XY)=E(X)E(Y) 2. 方差 刻画随机变量取值的离散程度 定义方差:D(x) = E{[X-E(X)]^2}标准差:sigma(x) = sqrt(D(x)) 常用计算公式D(X)=E(X^2)-[E(
分类:
其他好文 时间:
2016-02-01 18:27:56
阅读次数:
189
本文主要想说明三个问题:一是样本的数字特征,二是样本方差和样本均值的方差的区别,三是三大分布怎样构造抽样分布。(一)为了简便,假设有一个正态分布总体ξ~N(µ,σ2),设想我们从中随机抽取n个样本,ξ1,。。。ξn。此时就有样本均值和样本方差了。样本均值很好理解,不就是算术平均:而样本方差呢,按之前...
分类:
其他好文 时间:
2015-11-05 06:06:03
阅读次数:
308
我们已经知道一个事件的概率和随机变量这些基本概念我们要想弄清楚 一个随机变量的规律性,就必须知道它的概率分布,概率分布知道,则什么都可以算出来。或者退而求其次,至小要知道它的数字特征,如数学期望,方差,等。而我们的理想是知道总体的,但现实 不可以,我们又退而求其次,求出样本的,但知道样本的不是我们的...
分类:
其他好文 时间:
2015-11-03 17:29:49
阅读次数:
236
http://scikit-learn.org/stable/modules/feature_extraction.html
4.2节内容太多,因此将文本特征提取单独作为一块。
1、the bag of words representation
将raw data表示成长度固定的数字特征向量,scikit-learn提供了三个方式:
tokenizing:给每一个token(字、词...
分类:
其他好文 时间:
2015-07-22 10:53:22
阅读次数:
191