package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...
分类:
其他好文 时间:
2019-11-13 22:12:52
阅读次数:
117
关键性python数据包的安装 pip3 install tushare 关键性python数据包的安装 pip3 install tushare import tushare as ts股票代码为code参数,start为收集该股票数据的开始日期df = ts.get_k_data(code='6 ...
分类:
其他好文 时间:
2019-11-01 20:56:43
阅读次数:
180
pandas中的DataFrame中的空数据处理方法: 方法一:直接删除 1.查看行或列是否有空格(以下的df为DataFrame类型,axis=0,代表列,axis=1代表行,以下的返回值都是行或列索引加上布尔值)? isnull方法 ? 查看行:df.isnull().any(axis=1) ? ...
分类:
编程语言 时间:
2019-11-01 18:50:42
阅读次数:
153
处理缺失值 通过isnull和notnull方法,可以返回布尔值的对象。 这时通过求和可以获取每列的缺失值数量,再通过求和就可以获得整个DataFrame的缺失值数量 侦查缺失值 创建有缺失值的DataFeame 查看缺失值 缺失值计算 通过info()方法查看缺失值 删除缺失值 通过dropna可 ...
分类:
其他好文 时间:
2019-10-29 00:11:10
阅读次数:
109
数据的预处理 数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约. 数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值. 缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理 数据补插方式: ...
分类:
其他好文 时间:
2019-10-27 12:27:11
阅读次数:
83
学习时间:2019/10/25 周五晚上22点半开始。 学习目标:Page188-Page217,共30页,目标6天学完,每天5页,预期1029学完。 实际反馈:X集中学习1.5小时,学习6页。实际XXX学完,耗时N天,M小时 数据准备工作:加载、清理、转换以及重塑,通常会占用分析师80%的时间或更 ...
分类:
编程语言 时间:
2019-10-25 23:17:26
阅读次数:
111
1.1 产品特性 UniEAP DataQuality(以下简称DataQuality)是UniEAP最新推出的数据质量管理平台。基于数据监控服务、数据质量校验引擎、数据清洗引擎以及面向服务数据质量架构实现了数据质量管理平台,产品关键特性主要有: 通过图形化的页面支持所有主流数据库的数据质量校验,校 ...
分类:
其他好文 时间:
2019-10-24 15:10:54
阅读次数:
120
import pandas as pdimport seaborn as snsimport geohashimport matplotlib.pyplot as pltfrom math import radians,cos,sin,asin,sqrt%matplotlib inline trai ...
分类:
其他好文 时间:
2019-10-18 15:47:39
阅读次数:
130
一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。 titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的 ...
分类:
其他好文 时间:
2019-10-17 13:44:14
阅读次数:
83