搜索关键字：数据清洗，搜索到368个结果！码迷,mamicode.com！

MapReduce TopK问题实际应用

一：背景 TopK问题应该是海量数据处理中应用最广泛的了，比如在海量日志数据处理中，对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难，我们完全可以利用MapReduce的Shuffle过程实现排序，然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序，

分类：其他好文时间：2016-01-31 21:13:00 阅读次数：291

数据清洗小记(15)：DECODE利用sign函数做大小值判断

【背景】对某业务数据处理时，需要判断两个数据字段的大小，保留较大的数据存入到指定字段下面。考虑使用decode函数和sign函数来实现这个目的。【解决】1、decode(条件,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值) 2、sign()函数：根据某个值是0、正数、负数，分别返回0、1、-1 3、为获得两个字段的较大值或较小值： A>B, A-B>0, sign(A-B)=1,...

分类：其他好文时间：2015-12-28 17:04:19 阅读次数：191

数据清洗小记(12)：姓与名的提取

【背景】由源端抽取数据时，姓名中文为唯一字段，落地到目标端时，由于业务需要，需要有单独的姓氏字段和姓名字段，则需要利用长度判读函数、截取函数处理。【解决】 1、长度判读利用case、length函数； 2、截取函数利用substr函数。【实验】 1、构造源端实验表create table yuduan ( english_name varchar2(100), chinese_name...

分类：其他好文时间：2015-12-28 17:03:59 阅读次数：196

机器学习中的数据清洗与特征处理综述

背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术，例如个性化推荐、筛选排序、搜索排序...

分类：其他好文时间：2015-12-27 06:19:37 阅读次数：243

MapReduce TopK问题实际应用

一：背景TopK问题应该是海量数据处理中应用最广泛的了，比如在海量日志数据处理中，对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难，我们完全可以利用MapReduce的Shuffle过程实现排序，然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序，不...

分类：其他好文时间：2015-12-15 14:08:01 阅读次数：216

使用Django清理数据库中的数据

数据库，数据清洗问题叙述性说明：在系统我用在，因为历史和由于各种原因，原因记录的数据内的数据库表，有一个问题，有反复和不完整的数据解：首先。由于数据量还是挺大的，工的清理肯定不行，然后，我就想写SQL脚本来依照约定的规则进行更新，能够利用游标来完毕表中的记录的遍历，可是SQL是面向结构化的查询语言，...

分类：数据库时间：2015-12-14 21:03:43 阅读次数：271

数据清洗

importxlrd importpandasaspd importnumpyasnp data=xlrd.open_workbook(‘D:\\Data\\basket.xlsx‘) table=data.sheets()[0] nrows=table.nrows ncols=table.ncols j=2 foriinnrows: iftable.cell(i,0).value!=table.cell(i+1,0).value: li(i,j)=table.cell(i,0) li[i,..

分类：其他好文时间：2015-11-24 06:24:02 阅读次数：130

数据清洗小记(11)：Kettle_利用设置变量实现数据增量（小例）

【背景】利用kettle工具，完成某表的增量工作。【解决】利用模块完成即可，如下简图：【实验】先手工准备一个实验环境：准备基本完成如下效果： select t.*, t.rowid from EMP_ETL t select max(hiredate) maxsj from EMP_ETL 我们验证将2015年10月22日的数据插入目标表中。创建目标表：...

分类：其他好文时间：2015-10-22 06:47:54 阅读次数：280

嗷嗷嗷

监控平台当前使用storm对日志进行流式分析计算，用于支撑监控数据清洗，后来逐渐在storm上搭建起数据在线关联，数据离线关联，明细数据清洗，日志搜索等功能，本章节对各功能进行简要概述。对storm不熟悉的话，建议先阅读相关文献：http://ifeve.com/getting-started-wi...

分类：其他好文时间：2015-09-06 14:41:02 阅读次数：154

持续构建_KPI_构建时长

任务根据数据仓库中某一个构建模板" Java信用卡前台组件A"列表的数据对构建时长进行数据统计解决步骤数据清洗->数据抽样->正态拟合数据清洗进行数据拟合去掉最大值，和最小值。随机抽样随机抽取300条数据。图 1. 抽样对话框正态拟合 300条数据的正态拟合如下：图 2. 正态拟...

分类：其他好文时间：2015-09-04 07:07:50 阅读次数：167

共368条上一页 1 ... 31 32 33 34 35 ... 37 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)