1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码; ...
分类:
其他好文 时间:
2016-06-04 17:58:39
阅读次数:
1231
1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 ...
分类:
其他好文 时间:
2016-05-31 00:57:12
阅读次数:
117
本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。
如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对Hbase中的数据进行统计与分析,分析之后将分析结果存入到Hive表中,然后通过Sqoop这个工具将我们的数据挖...
分类:
其他好文 时间:
2016-05-27 11:55:57
阅读次数:
268
web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域:
1 数据仓库(DW)
2数据库中的知识发现(KDD)
3数据质量管理(TDQM)
我在公司...
分类:
其他好文 时间:
2016-05-07 07:30:58
阅读次数:
598
在这部分将按照设计和实现ETL系统的流程展开,将上一个部分的那些子系统按照提取数据、清洗和一致化、向呈现服务器提交以及管理ETL环境等四个方面进行了分类。(是不是说对ETL主要就是掌握这四个方面的内容) ETL处理步骤 提取数据 清洗和一致化 向呈现层提交 管理ETL环境 计划 创建一个高层的、单页... ...
分类:
其他好文 时间:
2016-04-21 21:57:37
阅读次数:
163
抽取和提交数据虽然也很重要,但是只是传输和装载数据而已。 数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据。 子系统4——数据清洗系统 主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述。 数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数... ...
分类:
其他好文 时间:
2016-04-21 20:17:39
阅读次数:
147
数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可;利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index。 python代码如下:(data数据时csv格式) 上例是真实的数据处理,有两百列属 ...
分类:
编程语言 时间:
2016-04-18 17:16:28
阅读次数:
275
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。 (美亚搜data cleaning的结果,可以看到这书还挺贵) 我将在这篇文章中, ...
分类:
其他好文 时间:
2016-03-28 08:45:00
阅读次数:
168
抛开市场上热火朝天的大数据不谈,只从解决实际业务问题方面来看,对数据的收集、分析、辅助决策已经得到越来越多的人重视,这里简单谈一些。一、数据处理篇1、数据收集简单来讲,可以把采集的每一条数据分为:事件、时间、来源、参数等几个基本元素。为了有一个直观的理解,可以参考下Sensors data,SLS(阿里云简单日志系统)这两个产品的设计。2、数据清洗这个主要是处理异常数据,不用多说。3、数据仓库ETL...
分类:
其他好文 时间:
2016-03-22 10:40:50
阅读次数:
179
1.需求 在数据清洗(ETL),日志文件分析,分隔符信息提取时,我们都会遇到如下常见的文本数据: 中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼 中楼层/23层,南北,通惠南路6号,2003年建,板楼 中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼- 一个常见的处理思
分类:
编程语言 时间:
2016-03-07 12:08:42
阅读次数:
247