码迷,mamicode.com
首页 >  
搜索关键字:数据脱敏 datamasker 数据漂白 数据清洗    ( 383个结果
你为什么需要大数据?看台湾企业家怎么说
企业必须思索:你为什么需要大数据?要做大数据,最大的挑战就是有很多未知,也需要很多投资,像红门互动就投资数据分析工具、人员,甚至是储存设备。蒐集回来的多为杂乱数据,数据杂乱则代表资 讯源不一致,所以红门互动有70%的时间都在做数据清洗,再进入分析过程做数据计算?.
分类:其他好文   时间:2016-06-13 19:27:51    阅读次数:173
一些数据相关的重要概念
马上要开始数据相关的工作了,但是有时候会自觉不自觉的对一些最近火热的概念有些不太清晰的地方,所以在此整理一下这些概念,希望在以后的工作学习过程中,能结合自己的感受,不断进行完善。 大数据:(概念、实现、)数据采集、数据挖掘、数据清洗 深度学习: 机器学习: 自然语言处理: ...
分类:其他好文   时间:2016-06-12 21:45:01    阅读次数:181
北京数据平台总结1
首先是数据处理,来源于不同数据库,进行数据清洗 然后是springmvc 框架,以注解的方式返回接口,其中对于人口部分,每个街道有各自的表,新建了表存储表的信息,利用拼字符串的方式来合成表名,再者就是用hibernate生成表,form,里面涉及到一些数字的,最好 用对象来表示如int,用Integ ...
分类:其他好文   时间:2016-06-09 13:26:21    阅读次数:141
crontab 定时 hive2Mysql4sqoop
当我们手动执行脚本没有问题时,我们认为万事OK了。其实不然放入crontab之后缺少各种东西。我的业务是使用hive中原始表当数据源,创建一个临时表,将数据原的数据清洗一遍放入临时表,再使用sqoop将临时表的数据导入到Mysql中。首先我的hive表是orc文件压缩格式,sqoop无法直接..
分类:数据库   时间:2016-06-09 01:06:11    阅读次数:324
数据挖掘笔记(三)—数据预处理
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码; ...
分类:其他好文   时间:2016-06-04 17:58:39    阅读次数:1231
思路整理
1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 ...
分类:其他好文   时间:2016-05-31 00:57:12    阅读次数:117
Sqoop入门笔记-----架构以及应用介绍
本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。 如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对Hbase中的数据进行统计与分析,分析之后将分析结果存入到Hive表中,然后通过Sqoop这个工具将我们的数据挖...
分类:其他好文   时间:2016-05-27 11:55:57    阅读次数:268
数据质量管理--数据抽取和清洗
web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域: 1 数据仓库(DW) 2数据库中的知识发现(KDD) 3数据质量管理(TDQM) 我在公司...
分类:其他好文   时间:2016-05-07 07:30:58    阅读次数:598
设计和开发ETL系统(一)——ETL过程综述
在这部分将按照设计和实现ETL系统的流程展开,将上一个部分的那些子系统按照提取数据、清洗和一致化、向呈现服务器提交以及管理ETL环境等四个方面进行了分类。(是不是说对ETL主要就是掌握这四个方面的内容) ETL处理步骤 提取数据 清洗和一致化 向呈现层提交 管理ETL环境 计划 创建一个高层的、单页... ...
分类:其他好文   时间:2016-04-21 21:57:37    阅读次数:163
抽取、转换和装载介绍(五)抽取数据
抽取和提交数据虽然也很重要,但是只是传输和装载数据而已。 数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据。 子系统4——数据清洗系统 主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述。 数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数... ...
分类:其他好文   时间:2016-04-21 20:17:39    阅读次数:147
383条   上一页 1 ... 31 32 33 34 35 ... 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!