二值化处理:将细粒度的度量转化成粗粒度的度量,使得特征的差异化更大。 特征多项式交互:捕获特征之间的相关性 数据分布倾斜的处理: log变化:log变化倾向于拉高那些落在较低的幅度范围内自变量的取值,压缩那些落在较高的幅度范围内自变量的取值,log变化能够稳定数据的方差,使数据的分布接近于正太分布并 ...
分类:
其他好文 时间:
2018-09-18 22:58:58
阅读次数:
282
MongoDB 分片是一种海量数据水平扩展的数据库群集系统,数据分布存储在分片的各个节点上,管理者通过简单的配置就可以构建一个分布式MongoDB 分片式群集。复制集往往会与分片结合来使用,来保证MongoDB 的高可用性
分类:
数据库 时间:
2018-09-18 19:12:49
阅读次数:
175
参考论文:A Survey on Transfer Learning 1、Introduction 在机器学习和数据挖掘中有一个很普遍的假设就是训练数据和测试数据来源于统一特征空间并服从相同的分布。而当测试数据分布发生改变之后,我们又不得不从新收集同分布的训练数据并从新训练模型。这在真实的应用中去从 ...
分类:
其他好文 时间:
2018-09-17 19:42:45
阅读次数:
721
初始Hadoop hadoop概述 查看官网,了解hadoop是一个开源的可靠的可扩展的分布式框架,它有很多的组件,比如Common,HDFS YARN,MapReduce. 1. Common:支持其他Hadoop模块的常用实用程序 2. HDFS:是一个分布式文件系统,提供对应用程序数据的高吞吐 ...
分类:
其他好文 时间:
2018-09-16 15:43:36
阅读次数:
221
一、数据倾斜的原因 数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点。在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的 ...
分类:
其他好文 时间:
2018-09-12 17:03:18
阅读次数:
203
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。Adaboost算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值 ...
分类:
编程语言 时间:
2018-09-12 13:08:34
阅读次数:
236
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 一、数据不平衡 在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这 ...
分类:
其他好文 时间:
2018-09-09 14:53:15
阅读次数:
710
数据不平衡问题 在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,也就是数据不平衡”。 以下几种方法是针对数据不平衡问题所做的处理,具体包括: 1.smo ...
分类:
其他好文 时间:
2018-09-07 19:20:03
阅读次数:
232
1、线性模型 形式简单、易于建模、很好的可解释性 2、逻辑回归 无需事先假设数据分布; 可得到近似概率预测; 对率函数任意阶可导的凸函数,许多数值优化算法都可直接用于求取最优解 3、线性判别分析(LDA) 当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类 4、boosting 代表 ...
分类:
编程语言 时间:
2018-09-06 22:49:29
阅读次数:
191
1、指定需要返回的字段 [GOOD]: SELECT time,user,host FROM tbl[BAD]: SELECT * FROM tbl 2、合理设置分区字段 当过滤条件作用在分区字段上面时,可以减少数据扫描的范围,有效提升查询性能。 这个需要结合OLAP业务进行考虑,将常规过滤字段设置 ...
分类:
其他好文 时间:
2018-09-01 12:14:40
阅读次数:
690