最近在数据库库领域新设置的职位elt工程师,大家想多了解下么?ETL(数据仓库技术)ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预
分类:
其他好文 时间:
2018-01-23 10:51:25
阅读次数:
172
我们在内容中使用以下简写: df pandas的DataFrame对象 s pandas的Series对象 导入以下包开始 import pandas as pd import numpy as np 导入数据 导出数据 创建测试对象 查看数据 数据选择 数据清洗 过滤,排序和分组 df[df[co ...
分类:
其他好文 时间:
2018-01-17 16:03:57
阅读次数:
202
Pandas系列之入门篇 简介 pandas 是 python用来数据清洗、分析的包,可以使用类sql的语法方便的进行数据关联、查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储。另外pandas还提供了大数据存储的API——HDFStore,来对接HDF5。 安装 1. pandas 利用 ...
分类:
其他好文 时间:
2018-01-16 18:20:46
阅读次数:
279
* HBase框架基础(四) 上一节我们介绍了如何使用HBase搞一些MapReduce小程序,其主要作用呢是可以做一些数据清洗和分析或者导入数据的工作,这一节我们来介绍如何使用HBase与其他框架进行搭配使用。 * HBase与Hive 在开始HBase与Hive搭配使用前,我们复习一下这两个框架 ...
分类:
其他好文 时间:
2018-01-12 22:32:09
阅读次数:
213
Flashtext:大规模数据清洗的利器 在这篇文章中,我们将介绍一种新的关键字搜索和替换的算法:Flashtext 算法。Flashtext 算法是一个高效的字符搜索和替换算法。该算法的时间复杂度不依赖于搜索或替换的字符的数量。比如,对于一个文档有 N 个字符,和一个有 M 个词的关键词库,那么时 ...
分类:
其他好文 时间:
2018-01-07 16:11:00
阅读次数:
267
数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据清洗很枯燥,但是随着数据清理技巧越来越熟练,就有越有可能从他人无从下 ...
分类:
其他好文 时间:
2018-01-06 14:16:21
阅读次数:
200
数据预处理 1数据质量 基本属性:正确性,完整性,一致性 2数据审计 运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。 数据审计的三种类型:预定义审计,自定义审计,可视化审计 3数据清洗 3.1缺失数据清洗 三个活动:缺失识别,缺失分析,缺失处理 方法:较为简 ...
分类:
其他好文 时间:
2017-12-24 12:44:48
阅读次数:
145
1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time(时间) 大于7月一号,小于10月31号。 2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖... ...
分类:
数据库 时间:
2017-12-19 19:37:16
阅读次数:
1046
本文详细的解释了机器学习中,经常会用到数据清洗与特征提取的方法PCA,从理论、数据、代码三个层次予以分析。 ...
分类:
其他好文 时间:
2017-12-14 17:53:32
阅读次数:
91
清理数据的基本步骤如下所示:从外部数据源导入数据。原始数据备份。先执行不需要列操作的任务,例如拼写检查等接下来,执行需要列操作的任务。数据清理基础知识连接(导入)数据概述-Excelhttps://support.office.com/zh-cn/article/%E8%BF%9E%E6%8E%A5-%EF%BC%88%E5%AF%BC%E5%85%A5%EF%BC%89-%E6%95%B0%E6
分类:
其他好文 时间:
2017-12-10 01:21:56
阅读次数:
228