码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
使用SSIS进行数据清洗
简介 OLTP系统的后端关系数据库用于存储不同种类的数据,理论上来讲,数据库中每一列的值都有其所代表的特定含义,数据也应该在存入数据库之前进行规范化处理,比如说“age”列,用于存储人的年龄,设置的数据类型为INT类型。存入数据库的值是2000虽然看起来没有任何问题,但结合业务规则,这样的”Nois...
分类:其他好文   时间:2014-10-08 11:45:45    阅读次数:364
自制数据挖掘工具分析北京房价 (二) 数据清洗
上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:其他好文   时间:2014-09-01 22:32:33    阅读次数:347
Java 并发专题 : Timer的缺陷 用ScheduledExecutorService替代
继续并发,上篇博客对于ScheduledThreadPoolExecutor没有进行介绍,说过会和Timer一直单独写一篇Blog.1、Timer管理延时任务的缺陷a、以前在项目中也经常使用定时器,比如每隔一段时间清理项目中的一些垃圾文件,每个一段时间进行数据清洗;然而Timer是存在一些缺陷的,因...
分类:编程语言   时间:2014-08-25 11:22:54    阅读次数:331
SAS数据清洗之字符和数字处理
SAS数据清洗:由于SAS数据集之间的关系一般不会用到,只是在proc sql中有所涉及,至今尚未运用过用于数据分析,所以在这里只讲单个数据集的处理。在proc sql中我们可以看到:在定义数据集时涉及到字段名,字段属性,字段标签这三个最常用。我们在数据清洗时涉及到的数据集字段的处理,主要也就是围绕...
分类:其他好文   时间:2014-08-22 12:28:36    阅读次数:752
Amazon电商数据分析——数据获取
最近一段时间主要重心在Amazon电商数据分析上,这是一个偏数据分析和可视化的项目。具体来说就是先获取Amazon的商品数据,数据清洗和持久化存储后作为我们自己的数据源。分析模块和可视化模块基于数据进行一系列的操作。 显然,整个项目中最基本,也是最重要的就是前期数据的获取,本篇文章就是针对数据...
分类:其他好文   时间:2014-07-22 22:53:35    阅读次数:293
Java 并发专题 : Timer的缺陷 用ScheduledExecutorService替代
继续并发,上篇博客对于ScheduledThreadPoolExecutor没有进行介绍,说过会和Timer一直单独写一篇Blog. 1、Timer管理延时任务的缺陷 a、以前在项目中也经常使用定时器,比如每隔一段时间清理项目中的一些垃圾文件,每个一段时间进行数据清洗;然而Timer是存在一些缺陷的,因为Timer在执行定时任务时只会创建一个线程,所以如果存在多个任务,且任务时间过长,超过了两...
分类:编程语言   时间:2014-06-05 00:34:50    阅读次数:371
BI的核心价值[转]
BI的核心价值是辅助决策,从一个洁净的数据源中自动提取有价值的数据进行分析,从而成为重要商业决定的决策基础。但在国内,洁净的数据源不易得到,很多情况下都需要进行数据清洗,所以BI的应用受到很大程度的抑制,把BI当作报表来使用的企业不在少数。这也是早期BI项目在中国不成功的主要原因之一。诚然BI离不开...
分类:其他好文   时间:2014-05-26 07:04:39    阅读次数:214
基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。            现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。                                 项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:其他好文   时间:2014-05-04 00:22:05    阅读次数:476
368条   上一页 1 ... 35 36 37
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!