码迷,mamicode.com
首页 >  
搜索关键字:数据脱敏 datamasker 数据漂白 数据清洗    ( 383个结果
python数据清洗cvs里面带中文字符
数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可;利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index。 python代码如下:(data数据时csv格式) 上例是真实的数据处理,有两百列属 ...
分类:编程语言   时间:2016-04-18 17:16:28    阅读次数:275
数据清洗
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。 (美亚搜data cleaning的结果,可以看到这书还挺贵) 我将在这篇文章中, ...
分类:其他好文   时间:2016-03-28 08:45:00    阅读次数:168
简单聊聊大数据
抛开市场上热火朝天的大数据不谈,只从解决实际业务问题方面来看,对数据的收集、分析、辅助决策已经得到越来越多的人重视,这里简单谈一些。一、数据处理篇1、数据收集简单来讲,可以把采集的每一条数据分为:事件、时间、来源、参数等几个基本元素。为了有一个直观的理解,可以参考下Sensors data,SLS(阿里云简单日志系统)这两个产品的设计。2、数据清洗这个主要是处理异常数据,不用多说。3、数据仓库ETL...
分类:其他好文   时间:2016-03-22 10:40:50    阅读次数:179
文本自动分割算法
1.需求 在数据清洗(ETL),日志文件分析,分隔符信息提取时,我们都会遇到如下常见的文本数据: 中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼 中楼层/23层,南北,通惠南路6号,2003年建,板楼 中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼- 一个常见的处理思
分类:编程语言   时间:2016-03-07 12:08:42    阅读次数:247
MapReduce TopK问题实际应用
一:背景 TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduce的Shuffle过程实现排序,然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序,
分类:其他好文   时间:2016-01-31 21:13:00    阅读次数:291
数据清洗小记(15):DECODE利用sign函数做大小值判断
【背景】 对某业务数据处理时,需要判断两个数据字段的大小,保留较大的数据存入到指定字段下面。考虑使用decode函数和sign函数来实现这个目的。【解决】1、decode(条件,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值) 2、sign()函数:根据某个值是0、正数、负数,分别返回0、1、-1 3、为获得两个字段的较大值或较小值: A>B, A-B>0, sign(A-B)=1,...
分类:其他好文   时间:2015-12-28 17:04:19    阅读次数:191
数据清洗小记(12):姓与名的提取
【背景】 由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。【解决】 1、长度判读利用case、length函数; 2、截取函数利用substr函数。【实验】 1、构造源端实验表create table yuduan ( english_name varchar2(100), chinese_name...
分类:其他好文   时间:2015-12-28 17:03:59    阅读次数:196
机器学习中的数据清洗与特征处理综述
背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序...
分类:其他好文   时间:2015-12-27 06:19:37    阅读次数:243
MapReduce TopK问题实际应用
一:背景TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduce的Shuffle过程实现排序,然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序,不...
分类:其他好文   时间:2015-12-15 14:08:01    阅读次数:216
使用Django清理数据库中的数据
数据库,数据清洗问题叙述性说明:在系统我用在,因为历史和由于各种原因,原因记录的数据内的数据库表,有一个问题,有反复和不完整的数据解:首先。由于数据量还是挺大的,工的清理肯定不行,然后,我就想写SQL脚本来依照约定的规则进行更新,能够利用游标来完毕表中的记录的遍历,可是SQL是面向结构化的查询语言,...
分类:数据库   时间:2015-12-14 21:03:43    阅读次数:271
383条   上一页 1 ... 32 33 34 35 36 ... 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!