码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
数据清洗小记:“时间段”数据获取小心错误的习惯
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。 深蓝的blog:   【背景】 某项目中,有查询时间段的业务需求,java代码类似如下: and BANKJLSJ_BANKJLSJSSJto_date( #{endDate},’yyyy-mm-dd’) and BANKJLSJ_BANKJLSJSSJ=]]> to_da...
分类:其他好文   时间:2015-06-11 11:11:50    阅读次数:164
《实体解析与信息质量》- 2.1.7 信息质量的演变
尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。 问题认知:数据清洗阶段 九十年代初期,在Inmon (1992),Kimball, etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据...
分类:其他好文   时间:2015-06-08 11:48:25    阅读次数:128
数据清洗小记:主键类ID字段的生成
【背景】 在由源端抽取数据插入目标端后,需要创建一个主键ID字段。   【解决】 方法一、使用sys_guid()函数生成32位的随记数 例如向emp表中,新建一个字段,并且设置字段默认值为用sys_guid()函数自动生成一个32位不重复的随机数。 altertable EMP addIDvarchar2(32) default sys_guid();   方法二、使用触发器...
分类:其他好文   时间:2015-06-03 15:51:59    阅读次数:150
数据清洗小记:判断是否为数字函数
【背景】 在处理数据时,在向为number类型的字段插入数据的时候,出现大量中文或无意义英文,查看发现均为垃圾数据,需要清洗。   【解决】 计划调用数字判断函数来完成判断,如果判断为数字类型的,存入数据,如果为非数字类型的,赋空值处理。 编写“判断是否为number”函数,如下: createorreplacefunction isnum(v_in varchar2) retu...
分类:其他好文   时间:2015-06-03 09:46:25    阅读次数:135
数据清洗小记:全角数字转换半角数字
【背景】 在将某数字类型字段插入到目标端时,报错,提示类型不正确,查看数据发现确实为number,但发现为“全角”数字。   【解决】 利用函数,将“全角”转换成“半角”,使用如:to_single_byte()函数,对其转换,转换成半角后,成功存入数据库。 另外,如果遇到需要“半角”转换成“全角”的场合时,可以使用to_multi_byte()函数。   【实验】 小知识...
分类:其他好文   时间:2015-06-03 09:46:23    阅读次数:166
数据清洗小记:多用户调用同一个函数
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。 深蓝的blog:   【背景】         做数据抽取时,源端遇到多用户访问不同所属表情况,需要使用相同的函数时,在多用户下需要重新创建。   【解决】         多用户下遇到使用相同函数的情况时,我们可以选择重新创建函数,但有时由于函数过多,执行起来不方便,每个用户都执行...
分类:其他好文   时间:2015-06-03 09:45:36    阅读次数:150
谁说菜鸟不会数据分析(四)
在我们已经明确分析目标和思路,选区合适的数据方法论之后,就要进行数据采集和处理。理解数据:①字段和记录 ②数据类型 ③数据表 ④数据来源:关于ETL1、数据清洗:清除重复的、补充缺失的、纠正错误的2、数据加工:提取、计算、分组、转换①数据抽取:字段分列、字段和并、字段匹配、②数据计算③数据分组④数据...
分类:其他好文   时间:2015-05-28 17:53:58    阅读次数:111
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:...
分类:Web程序   时间:2015-04-29 07:05:09    阅读次数:195
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html一、数据情况分析1.1 数据情况回顾...
分类:Web程序   时间:2015-04-26 21:11:50    阅读次数:202
分页查询的那些坑和各种技巧
背景从上周开始我就一直在做数据清洗的工作,这次算是体会到了什么叫做“抛开数据量谈实现就是耍流氓”。我设计方案和调试代码连接的都是日常环境的数据库,里面的单表数据量在百级,无论我怎么实现都是瞬间洗完。到了性能测试的时候用的就是性能库,双 11 之前@W君做性能测试的时候,往里面写入了 2000W 的数...
分类:其他好文   时间:2015-04-18 19:11:53    阅读次数:259
368条   上一页 1 ... 33 34 35 36 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!