码迷,mamicode.com
首页 >  
搜索关键字:数据的分布    ( 203个结果
HDFS中的shell操作
HDFS文件系统: HDFS 是存取数据的分布式文件系统,那么对 HDFS 的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于 lLinux 的 shell 对文件的操作,如 ls、mkdir、rm 等。 我们执行以下操 ...
分类:系统相关   时间:2017-11-21 16:55:19    阅读次数:202
MapReduce架构与执行流程
一、MapReduce是用于解决什么问题的? 每一种技术的出现都是用来解决实际问题的,否则必将是昙花一现,那么MapReduce是用来解决什么实际的业务呢? 首先来看一下MapReduce官方定义: 总结一句话:MapReduce就是批量处理海量数据的分布式计算框架。 在数据规模比较小时,如果要批量 ...
分类:其他好文   时间:2017-11-12 14:52:53    阅读次数:110
sklearn-preprocessing预处理数据的方法
预处理数 1. 标准化:去均值,方差规模化 Standardization标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1. 标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。 标准化的过程为两步:去均值的中 ...
分类:其他好文   时间:2017-11-07 20:47:14    阅读次数:350
Hadoop框架之HDFS的shell操作
既然HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等。 我们执行以下操作的时候,一定要确定hadoop是正常 ...
分类:系统相关   时间:2017-10-04 20:23:59    阅读次数:317
机器学习样本标记 示意代码
目标:根据各个字段数据的分布(例如srcIP和dstIP的top 10)以及其他特征来进行样本标注,最终将几类样本分别标注在black/white/ddos/mddos/cdn/unknown几类。 效果示意: choose one sub domain: DNSQueryName(N)ip: sr ...
分类:其他好文   时间:2017-09-28 20:43:46    阅读次数:358
将非正态分布的数据集转化为正态分布的数据集
在统一的试验条件下,有时会得到一个数据集,如果需要分析这类数据的分布特性,而这一数据集又不符合正态分布,则需要将该组数据做以下变换: 这里取‘1’的原因是,此地的r的绝对值是小于等于1的。 ...
分类:其他好文   时间:2017-09-03 11:13:37    阅读次数:139
分类中数据不平衡问题的解决经验[转载]
问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题 ...
分类:其他好文   时间:2017-09-01 20:22:01    阅读次数:117
机器学习(二):数据转换
1.数据的标准化 标准化的原因: 在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。 消除量纲的影响。把一个百分制的变量与一个5分值的变量标准化到同一个量纲时才具有可比性 1.1 z_score标准化将特征数据的分布调整成标准正态分布,也叫高斯分布。代码实现:fr ...
分类:其他好文   时间:2017-08-23 23:04:49    阅读次数:228
Python处理PDF与CDF
在拿到数据后,最需要做的工作之一就是查看一下自己的数据分布情况。而针对数据的分布,又包括pdf和cdf两类。 下面介绍使用python生成pdf和cdf的方法: 上图所示为采用3种算法生成的pdf图。下面是源代码。 ...
分类:编程语言   时间:2017-08-17 00:40:10    阅读次数:381
Hadoop学习:Map/Reduce初探与小Demo实现
一、 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架攻克了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,能够使没有并行 处理或者分布式计算经验的project师,也能非常轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程 ...
分类:其他好文   时间:2017-07-31 21:12:35    阅读次数:446
203条   上一页 1 ... 8 9 10 11 12 ... 21 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!