【原文地址】http://blog.csdn.net/wangyaninglm/article/details/70188710 摘要:我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然Python这个语言,我比较喜欢,开发效率高,基本上怎么 ...
分类:
数据库 时间:
2017-04-16 20:19:05
阅读次数:
306
我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然python这个语言,我比较喜欢,开发效率高,基本上怎么写都能运行,而且安装配置简单,基本上...
分类:
数据库 时间:
2017-04-16 11:29:06
阅读次数:
524
作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El ...
分类:
其他好文 时间:
2017-03-22 20:55:35
阅读次数:
300
关于数据分析和数据挖掘学习的一点迷思 可能有些数据挖掘工程师的工作就是研究算法研究数学,不需要他们去做数据清洗,做报表展示类的工作,这类就是大牛了,不需要再读下去了 关于数据这条路大家的一致认为业务和数学是很重要的,一切的分析思路和算法都要结合业务来做,算法(数学)是内功; 但是这两点对于普通人来说 ...
分类:
其他好文 时间:
2017-03-20 21:11:40
阅读次数:
197
在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等 缺失值处理:删除记 ...
分类:
编程语言 时间:
2017-02-28 00:21:38
阅读次数:
2813
数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:
其他好文 时间:
2017-02-17 00:01:57
阅读次数:
456
P3 OpenStreetMap 项目思路整理 P3项目的核心在于数据的整理 data cleaning 数据清洗,数据来源于开源的OpenStreetMap平台,该平台上的很多数据都是开发者自行输入的,难免会造成数据的混乱和缺失,错误,也就是所说的dirty data 脏数据 human invo ...
分类:
其他好文 时间:
2017-02-03 00:31:37
阅读次数:
355
北京华盛恒辉科技有限公司,是一家北京软件开发公司,是专业的软件产品研发与销售企业,立足于数据领域,为航天、军工、铁路等大型企事业单位提供以数据为核心的平台级信息化解决方案。公司在数据采集、数据清洗、数据存储、数据计算与挖掘、大数据可视化等方面有着深入的研究。 同时,公司在高端软件定制方面,为中国航天 ...
分类:
其他好文 时间:
2016-12-24 13:35:54
阅读次数:
174
4.1 数据清洗: 删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘无关的数据,处理缺失值、异常值 4.1 数据清洗: 删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘无关的数据,处理缺失值、异常值 常见的插补方法:均值/中位数/众数 插补;使用固定值;最近邻插补;回 ...
分类:
其他好文 时间:
2016-12-10 19:46:51
阅读次数:
300
1.csv作为数据中介,速度最快,但是如果某个字段的内容有逗号,整个都乱套了, 还是用excel2007格式比较好. 2.导入表的字段,最好设为nvarchar,可以为空.类型转换以后再说 3.数据清洗,比如客户数据,性别,地址. 第二步:格式内容清洗 如果数据是由系统日志而来,那么通常在格式和内容 ...
分类:
其他好文 时间:
2016-12-09 19:23:29
阅读次数:
276