原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。
深蓝的blog:
【背景】
做数据抽取时,源端遇到多用户访问不同所属表情况,需要使用相同的函数时,在多用户下需要重新创建。
【解决】
多用户下遇到使用相同函数的情况时,我们可以选择重新创建函数,但有时由于函数过多,执行起来不方便,每个用户都执行...
分类:
其他好文 时间:
2015-06-03 09:45:36
阅读次数:
150
在我们已经明确分析目标和思路,选区合适的数据方法论之后,就要进行数据采集和处理。理解数据:①字段和记录 ②数据类型 ③数据表 ④数据来源:关于ETL1、数据清洗:清除重复的、补充缺失的、纠正错误的2、数据加工:提取、计算、分组、转换①数据抽取:字段分列、字段和并、字段匹配、②数据计算③数据分组④数据...
分类:
其他好文 时间:
2015-05-28 17:53:58
阅读次数:
111
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:...
分类:
Web程序 时间:
2015-04-29 07:05:09
阅读次数:
195
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html一、数据情况分析1.1 数据情况回顾...
分类:
Web程序 时间:
2015-04-26 21:11:50
阅读次数:
202
背景从上周开始我就一直在做数据清洗的工作,这次算是体会到了什么叫做“抛开数据量谈实现就是耍流氓”。我设计方案和调试代码连接的都是日常环境的数据库,里面的单表数据量在百级,无论我怎么实现都是瞬间洗完。到了性能测试的时候用的就是性能库,双 11 之前@W君做性能测试的时候,往里面写入了 2000W 的数...
分类:
其他好文 时间:
2015-04-18 19:11:53
阅读次数:
259
摘要:有人推崇产品,有人推崇运营,也有人推崇战略…到底该推崇什么?李智勇系统地分析了这三者之间的思路,并引用黑格尔的一句话,给出了自己的看法:在尺度中已经蕴含本质,这在产品、运营、战略的侧重上体现的非常好。视野不拉升或者认知不深入时,就容易在盲人摸象层面上反复,看到微信火了,那就产品最重要,看到阿里...
分类:
其他好文 时间:
2015-03-07 00:58:43
阅读次数:
167
详解机器学习中的数据清洗与特征处理在海军陆战队服役超过 10 年后,我于去年 7 月份退役了。随后在 8 月份找到了一份赌场的工作做公关,到今年 2 月中旬的时候又被辞退了。到 5 月中旬的时候我在 DE 协会找到了一份临时的“初级用户体验工程师”工作,而到了 8 月底我则成了正式的“用户体验工程师...
分类:
其他好文 时间:
2015-02-12 00:37:36
阅读次数:
344
package com.bank.service;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import org.apache.hadoop.conf.Co...
分类:
其他好文 时间:
2015-01-15 20:00:39
阅读次数:
204
数据质量问题分类 本文主要讨论实例层数据质量问题 数据质量评价(12个维度) 1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准; 2)数据完整性准则(Data integrity fundamenta...
分类:
其他好文 时间:
2015-01-02 23:37:56
阅读次数:
348