码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
数据探索之数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下,数据的质量分析与数据清洗是相伴而行的,在分析出脏数据的时候伴随着数据的清洗。 常见的脏数据包括如下 ...
分类:其他好文   时间:2018-04-01 20:49:12    阅读次数:117
R语言-逻辑回归建模
案例1:使用逻辑回归模型,预测客户的信用评级 数据集中采用defect为因变量,其余变量为自变量 1.加载包和数据集 2.查看数据集, 结论:一共有10000行数据,56个变量,其数据集中没有空值,但是有极大值存在 3,数据清洗 修改前 修改后 结论:visit_cnt不再有不符合业务的极大值出现 ...
分类:编程语言   时间:2018-03-30 12:14:30    阅读次数:379
R语言-文本挖掘
恢复内容开始 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 2.导入数据 3.清洗数据 4.移除感叹词 5.绘制词云 案例2:通过拉勾网的数据进行分析,找出数据分析师相关的城市,薪水,工作年限等信息 数据集下载:链接:https://pan.baidu.com/ ...
分类:编程语言   时间:2018-03-27 02:01:09    阅读次数:957
室内指纹采集车(一)
在室内定位过程中,无论是使用wifi定位,地磁定位,只要定位不是使用了自己搭建的信源,就不得不面临采集的工作。而指纹采集是一个复杂的工作,极其费人费力。因此现在也就火起来了众包采集指纹的方法。众包采集指纹一般经过种子制作,数据采集,数据清洗,指纹处理的工作步骤。 通常的指纹库建立都需要一条相对精确的 ...
分类:其他好文   时间:2018-03-21 19:53:32    阅读次数:162
R语言之数据处理常用包
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。 dplyr、tid ...
分类:编程语言   时间:2018-03-10 01:25:25    阅读次数:4450
hive权威指南<一>
一、ETL介绍: 数据抽取:把不同的数据源数据抓取过来,存到某个地方 数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取 不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库 错误的数据:比如字符串数据后面有一个回车操作、日期格式不正确、日期越界等,需要修正之后再抽取 重 ...
分类:其他好文   时间:2018-02-10 23:21:47    阅读次数:262
Python数据处理pdf
下载地址:网盘下载 内容简介 · · · · · · 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗 ...
分类:编程语言   时间:2018-02-06 23:01:12    阅读次数:495
数据挖掘工程师etl
最近在数据库库领域新设置的职位elt工程师,大家想多了解下么?ETL(数据仓库技术)ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预
分类:其他好文   时间:2018-01-23 10:51:25    阅读次数:172
DATAQUEST数据科学对照清单(Pandas)
我们在内容中使用以下简写: df pandas的DataFrame对象 s pandas的Series对象 导入以下包开始 import pandas as pd import numpy as np 导入数据 导出数据 创建测试对象 查看数据 数据选择 数据清洗 过滤,排序和分组 df[df[co ...
分类:其他好文   时间:2018-01-17 16:03:57    阅读次数:202
Pandas系列之入门篇
Pandas系列之入门篇 简介 pandas 是 python用来数据清洗、分析的包,可以使用类sql的语法方便的进行数据关联、查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储。另外pandas还提供了大数据存储的API——HDFStore,来对接HDF5。 安装 1. pandas 利用 ...
分类:其他好文   时间:2018-01-16 18:20:46    阅读次数:279
368条   上一页 1 ... 21 22 23 24 25 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!