一:引言在前面我们谈论到的算法都是在给定x的情况下直接对p(y|x;Θ)进行建模。例如,逻辑回归利用hθ(x) = g(θTx)对p(y|x;Θ)建模。现在考虑这样一个分类问题,我们想根据一些特征来区别动物是大象(y=1)还是狗(y=0)。给定了这样一个训练集,逻辑回归或感知机算法要做的就是去找到一... ...
分类:
编程语言 时间:
2017-10-31 20:41:32
阅读次数:
207
数据预处理 数据预处理一般包括: (1) 数据标准化 这是最常用的数据预处理,把某个特征的所有样本转换成均值为0,方差为1。 将数据转换成标准正态分布的方法: 对每维特征单独处理: 其中, 可以调用sklearn.preprocessing中的StandardScaler()进行数据的标准化。 (2 ...
分类:
其他好文 时间:
2017-10-26 22:57:15
阅读次数:
234
下面介绍一种基于redis的抢红包方案。把原始的红包称为大红包,拆分后的红包称为小红包。1.小红包预先生成,插到数据库里,红包对应的用户ID是null,红包生成算法如下:预先生成所有的红包还是一个请求随机生成一个红包简单来说,就是把一个大整数m分解(直接以“分为单位,如1元即100)分解成n个小整数 ...
分类:
其他好文 时间:
2017-10-26 13:35:34
阅读次数:
211
1.脏数据包括:缺失值,异常值,不一致的值,重复数据及含有特殊字符(#,¥,*)的数据。 2.异常值也称离群点,异常值分析也称离群点分析。 简单统计量分析:最常用的统计量是最大值和最小值。(如客户年龄最大值199,存在异常) 3σ原则:如果数据服从正态分布,在3σ原则下,测定值中与平均值的偏差超过3 ...
分类:
其他好文 时间:
2017-10-22 11:03:05
阅读次数:
148
Python中的random模块用于生成随机数。下面介绍一下random模块中最常用的几个函数。 random.random random.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0 random.uniform random.uniform的函数原型为:random ...
分类:
编程语言 时间:
2017-10-16 11:10:16
阅读次数:
198
原帖地址:http://blog.csdn.net/pipisorry/article/details/39076957常见离散概率分布Bernoulli、Binomial、Poisson伯努利分布对单次抛硬币的建模,X~Bernoulli(p)的PDF为随机变量X只能取{0, 1}。对于所有的pd... ...
分类:
其他好文 时间:
2017-10-14 18:46:01
阅读次数:
205
1. Ziggurat 算法与 Box-muller 算法的效率比较 2. Box-Muller a. 一般形式 因函数调用较多,速度慢,当u接近0时存在数值稳定性问题 先假设。 用Box-Muller方法,随机抽出两个从均匀分布的数字和。然后那和都是正态分布的。证明可用极坐标,请参考教科书中的Bo ...
分类:
其他好文 时间:
2017-10-13 17:55:42
阅读次数:
252
numpy创建数组 np.random.randn(3,4) 【生成的数据符合正态分布】 numpy中的function ...
分类:
其他好文 时间:
2017-10-10 18:56:01
阅读次数:
225
回归:过拟合情况 / 分类过拟合 防止过拟合的方法有三种: 1 增加数据集 2 添加正则项 3 Dropout,意思就是训练的时候隐层神经元每次随机抽取部分参与训练。部分不参与 最后对之前普通神经网络分类mnist数据集的代码进行优化,初始化权重参数的时候采用截断正态分布,偏置项加常数,采用drop ...
分类:
其他好文 时间:
2017-10-08 14:43:42
阅读次数:
345
1. 方法云集 mpg平均值20.1,标准偏差6.0. 分布呈现右偏(偏度0.6),较正态分布稍平(峰度-0.37) Hmisc 包安装失败 1)通过Hmisc包中的describe()函数计算描述性统计量 2)通过pastecs包中的stat.desc()函数计算描述性统计量 psych包中des ...
分类:
编程语言 时间:
2017-10-05 14:39:12
阅读次数:
433