一:背景 TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduce的Shuffle过程实现排序,然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序,
分类:
其他好文 时间:
2016-01-31 21:13:00
阅读次数:
291
【背景】
对某业务数据处理时,需要判断两个数据字段的大小,保留较大的数据存入到指定字段下面。考虑使用decode函数和sign函数来实现这个目的。【解决】1、decode(条件,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值)
2、sign()函数:根据某个值是0、正数、负数,分别返回0、1、-1
3、为获得两个字段的较大值或较小值:
A>B, A-B>0, sign(A-B)=1,...
分类:
其他好文 时间:
2015-12-28 17:04:19
阅读次数:
191
【背景】
由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。【解决】
1、长度判读利用case、length函数;
2、截取函数利用substr函数。【实验】
1、构造源端实验表create table yuduan
(
english_name varchar2(100),
chinese_name...
分类:
其他好文 时间:
2015-12-28 17:03:59
阅读次数:
196
背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序...
分类:
其他好文 时间:
2015-12-27 06:19:37
阅读次数:
243
一:背景TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduce的Shuffle过程实现排序,然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序,不...
分类:
其他好文 时间:
2015-12-15 14:08:01
阅读次数:
216
数据库,数据清洗问题叙述性说明:在系统我用在,因为历史和由于各种原因,原因记录的数据内的数据库表,有一个问题,有反复和不完整的数据解:首先。由于数据量还是挺大的,工的清理肯定不行,然后,我就想写SQL脚本来依照约定的规则进行更新,能够利用游标来完毕表中的记录的遍历,可是SQL是面向结构化的查询语言,...
分类:
数据库 时间:
2015-12-14 21:03:43
阅读次数:
271
importxlrd
importpandasaspd
importnumpyasnp
data=xlrd.open_workbook(‘D:\\Data\\basket.xlsx‘)
table=data.sheets()[0]
nrows=table.nrows
ncols=table.ncols
j=2
foriinnrows:
iftable.cell(i,0).value!=table.cell(i+1,0).value:
li(i,j)=table.cell(i,0)
li[i,..
分类:
其他好文 时间:
2015-11-24 06:24:02
阅读次数:
130
【背景】
利用kettle工具,完成某表的增量工作。
【解决】
利用模块完成即可,如下简图:
【实验】
先手工准备一个实验环境:
准备基本完成如下效果:
select t.*, t.rowid from EMP_ETL t
select max(hiredate) maxsj from EMP_ETL
我们验证将2015年10月22日的数据插入目标表中。
创建目标表:...
分类:
其他好文 时间:
2015-10-22 06:47:54
阅读次数:
280
监控平台当前使用storm对日志进行流式分析计算,用于支撑监控数据清洗,后来逐渐在storm上搭建起数据在线关联,数据离线关联,明细数据清洗,日志搜索等功能,本章节对各功能进行简要概述。对storm不熟悉的话,建议先阅读相关文献:http://ifeve.com/getting-started-wi...
分类:
其他好文 时间:
2015-09-06 14:41:02
阅读次数:
154
任务 根据数据仓库中某一个构建模板" Java信用卡前台组件A"列表的数据对构建时长进行数据统计 解决步骤 数据清洗->数据抽样->正态拟合 数据清洗 进行数据拟合去掉最大值,和最小值。 随机抽样 随机抽取300条数据。 图 1. 抽样对话框 正态拟合 300条数据的正态拟合如下: 图 2. 正态拟...
分类:
其他好文 时间:
2015-09-04 07:07:50
阅读次数:
167