numpy,sklearn提供随机数据生成功能,我们可以自己生成适合某一种模型的数据,用随机数据来清洗,归一化,转换,然后选择模型与算法做拟合和预测。 1.numpy随机数据生成API numpy比较适合用来生产一些简单的抽样数据。API都在random类中,常见的API有: (1).rand(d0 ...
分类:
编程语言 时间:
2018-01-09 21:14:26
阅读次数:
222
无偏估计 所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是 ...
分类:
其他好文 时间:
2018-01-09 11:13:44
阅读次数:
214
一 所有做微信公号的运营者,可能都有这种感觉:打开率正在下滑。最近两天,先是冯大辉,然后是三表,都发表了相同的观点。新榜找了几千个号,做了一次不那么随机抽样的调查,大致也是这个结论。 打开率的下降,可能导致内容创业项目估值的下降,更有可能形成内容运营者的挫败感。 我至今记得,MSN很愚蠢地去掉了好友 ...
分类:
移动开发 时间:
2017-12-25 18:22:00
阅读次数:
284
什么是机器学习 定义: 利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。 从数据中寻找规律 寻找规律:概率学 统计学统计学方法:抽样 -> 统计 -> 假设检验随着计算机处理能力增强 -> 不需要采样数据增加 -> 维度增加 -> 无法可视化 -> 只能数学方式表示 我们进行 ...
分类:
其他好文 时间:
2017-12-25 18:15:17
阅读次数:
176
原文 使用 TOP 限制更新的数据 可以使用 TOP 子句来限制 UPDATE 语句中修改的行数。当 TOP (n) 子句与 UPDATE 一起使用时,将针对随机选择的 n 行执行删除操作。例如,假设您要为一位高级销售人员减轻销售负担,而将一些客户分配给了一位初级销售人员。下列示例将随机抽样的 10 ...
分类:
数据库 时间:
2017-11-29 12:50:46
阅读次数:
294
Bagging 集成学习算法有两个大类:一个是Boosting,代表算法是AdaBoost;另一个是Bagging,本文介绍的随机森林是它的一个变种。 Bagging也叫自举汇聚法(bootstrap aggregating),它在原始数据集上通过有放回抽样重新选出$T$个包含$m$条数据的新数据集 ...
分类:
其他好文 时间:
2017-11-26 11:12:19
阅读次数:
304
第一步:首先前面是cell surface和material等的定义,忽略,然后写上下面的这些抽样信息等。最后写入fmesh卡的信息定义 第二步:计算上述输入卡,得到结果,显然不在outx,x代表p q r s t等字母。通过观察其中的解释,有这么一行 第三步:打开meshtal文件,观察结果如下 ...
分类:
其他好文 时间:
2017-11-24 21:35:06
阅读次数:
196
1. 创建新的变量 2. 变量的重编码 连续->类别 错误->正确值 分数->级别划分 3. 变量的重命名 reshape()包中的rename()函数 rename(dataframe, c(oldname='newname',oldname = 'newname') 4. 缺失值 缺失值:NA( ...
分类:
编程语言 时间:
2017-11-22 13:09:15
阅读次数:
154
box-cox 由于线性回归是基于正态分布的前提假设,所以对其进行统计分析时,需经过数据的转换,使得数据符合正态分布。 Box 和 Cox在1964年提出的Box-Cox变换可使线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息。 Box-Cox变换是统计建模中常用的一种数据变换 ...
分类:
其他好文 时间:
2017-11-16 14:15:48
阅读次数:
155
做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm ) 背后的思路。元算法是对其他算法进行组合的一种方式 7.1 基于数据集多重抽样的分类器 我们自然可以将不同的分类器组合起来,而这种组合结果则被称为集成方法( ...
分类:
编程语言 时间:
2017-11-15 22:00:02
阅读次数:
326