1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。 其核心思想和基本步骤如下: (1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2)根据抽出的样本计 ...
分类:
其他好文 时间:
2016-11-11 07:19:50
阅读次数:
2389
一、信号的表示 1.波形转函数表达式 连续信号一般有连续函数f(t)和波形(函数图像) 解答: 离散信号则一般有序列f(t) 和序列图像 解答 2.已知函数画出其图像 二、奇异函数性质 1.阶跃函数: 开关函数,电路中的开关;做门函数限制信号作... ...
分类:
其他好文 时间:
2016-10-27 07:42:56
阅读次数:
509
数据之巅读后感 1、内容概述 全书分两个部分,第一部分讲述小数据历史,第二部分讲述大数据的崛起。 第一部分以美国历史为主线,讲述了大数据文化如何形成以及数据治国的理念如何深入人心的宏伟画卷。 其中第一部分主要讲述了,初数时代、内战时代、镀金时代、进步时代、抽样时代 初数时代,讲述了美国利用数据来划分 ...
分类:
其他好文 时间:
2016-10-23 23:16:56
阅读次数:
282
在一个实例中,有近60个特征,上千组数据样本。考虑到数据受噪声污染可能比较严重,希望能首先筛除部分不合理数据,也就是仅采用高度集中区域的数据。那么,问题就是,如何找到数据高度集中区域。找到数据密集区,数据之间的规律性更强,更利于接下来的识别。 首先考虑到的就是抽样,或者美其名曰蒙特卡洛抽样。这是一种 ...
分类:
其他好文 时间:
2016-10-22 11:44:52
阅读次数:
192
在做图片上传时,大图片如果没有压缩直接上传时间会非常长,因为有的图片太大,传到服务器上再压缩太慢了,而且损耗流量。 思路是将图片抽样显示在canvas上,然后用通过canvas.toDataURL方法得到base64字符串来实现压缩。 废话不多少不多说直接看代码: 本次测试使用了 zepto.min ...
分类:
Web程序 时间:
2016-10-18 23:07:00
阅读次数:
577
拔靴法属于重复抽样(resampling)方法,与Monte Carlo相比,二者真实的母体不同。它是将已有的观察值作为母体重复抽样, 以求取原先资料不足二无法探讨的资料特性。 举个例子,假设x1,x2,...,xn为来自同一分配的观察值,我们想了解这个分配的中位数。 设一组有Poisson分配抽出 ...
分类:
编程语言 时间:
2016-10-12 06:45:27
阅读次数:
480
AdaBoost D Tree有了新的权重的概念。 现在的优化目标,如何进行优化呢? 不更改算法的部门,而想办法在输入的数据方面做修改。 权重的意义就是被重复取到的数据的次数。这样的话,根据权重的比例进行重复的抽样。最后的结果也和之前一样能够表达权重的意义在里面了。 在一个fully grown t ...
分类:
其他好文 时间:
2016-10-08 19:17:20
阅读次数:
166
1.正则表达式使用 MySQl利用REGEXP命令,提供正则表达式功能。 例子:select 'abcdef' REGEXP '^a'; select 'efg' REGEXP '[^XYZ]'; 2. 用RAND()函数提取随机行 使用RAND()函数从表中随机抽取记录行,这对一些抽样分析统计非常 ...
分类:
数据库 时间:
2016-09-27 13:19:41
阅读次数:
166
翻译自官网的文档。转自http://www.mamicode.com/info-detail-507676.html 随机抽样 (numpy.random) 简单的随机数据 rand(d0, d1, ..., dn) 随机值 >>> np.random.rand(3,2) array([[ 0.14 ...
分类:
其他好文 时间:
2016-09-12 12:23:51
阅读次数:
154
一、大数据时代处理数据理念上的三大转变 1、要全体不要抽样(不用随机的方法,而是采用所有的数据) 2、要效率不要精确(接受数据的不精准和不完美,反而可以更好的进行预测,适用于精确度不要求那么极端的任务) 3、要相关不要因果(不一定非要知道原因,只要知道结果) 二、面对新领域和新概念应有的态度 1、努 ...
分类:
其他好文 时间:
2016-08-31 12:01:07
阅读次数:
170