dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法。dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参 ...
分类:
其他好文 时间:
2017-04-27 10:29:22
阅读次数:
228
在进行中文分词统计前,往往要先把爬取下来的文本中包含的一些标签、标点符号、英文字母等过滤掉,这一过程叫做数据清洗。 通过上面的代码可以去除与中文分词统计无关的内容,效果如下: ...
分类:
Web程序 时间:
2017-04-22 00:04:27
阅读次数:
182
供应链管理对于电商企业是非常重要的一个环节。健全有保障的供应链系统能够为前线的渠道分销提供源源不断地货物,保证企业能够随时随地的满足客户的需 求。但是供应链作为一个庞大的系统,在管理上需要企业颇为一些脑筋。过于臃肿的供应系统不但会增加企业的人力成本和库存成本,还会影响企业及时的仓储调 动,降低管理效 ...
分类:
其他好文 时间:
2017-04-17 12:36:52
阅读次数:
284
【原文地址】http://blog.csdn.net/wangyaninglm/article/details/70188710 摘要:我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然Python这个语言,我比较喜欢,开发效率高,基本上怎么 ...
分类:
数据库 时间:
2017-04-16 20:19:05
阅读次数:
306
我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然python这个语言,我比较喜欢,开发效率高,基本上怎么写都能运行,而且安装配置简单,基本上...
分类:
数据库 时间:
2017-04-16 11:29:06
阅读次数:
524
转自百度百科 数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。 数据库安全风险包括:刷库、拖库、撞库。 数据库安全攻击手段包括:SQL注入攻击。 数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏 ...
分类:
数据库 时间:
2017-03-29 12:59:50
阅读次数:
317
作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El ...
分类:
其他好文 时间:
2017-03-22 20:55:35
阅读次数:
300
关于数据分析和数据挖掘学习的一点迷思 可能有些数据挖掘工程师的工作就是研究算法研究数学,不需要他们去做数据清洗,做报表展示类的工作,这类就是大牛了,不需要再读下去了 关于数据这条路大家的一致认为业务和数学是很重要的,一切的分析思路和算法都要结合业务来做,算法(数学)是内功; 但是这两点对于普通人来说 ...
分类:
其他好文 时间:
2017-03-20 21:11:40
阅读次数:
197
在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等 缺失值处理:删除记 ...
分类:
编程语言 时间:
2017-02-28 00:21:38
阅读次数:
2813
数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:
其他好文 时间:
2017-02-17 00:01:57
阅读次数:
456