假期闲着无聊,做了一下Kaggle练手的项目--预测泰坦尼克号乘客的存活情况。对于一些函数和算法,刚开始也是懵懵懂懂的,但通过自己查资料,还是明白了许多,我会把参考资料的网址放在需要查看的地方。 我们的整个流程如下: ①数据预处理:数据清洗、可视化、标签化 ②分割训练数据 ③随机森林分类器及其参数调 ...
分类:
其他好文 时间:
2018-04-07 11:15:37
阅读次数:
1775
为一个信息流产品作数据抓取,其中数据清洗时必不可少的。其中有一个步骤就是清洗掉其中与内容无关的广告。文本通过语料库积累和NLP相关技术进行过滤,有些文字广告不过滤对产品影响也不大。有点儿麻烦的是其中的有些图片广告如果不过滤掉,在感官上会对产品造成很大的印象,为了解决这个问题,用了一些杂七杂八的方法, ...
分类:
其他好文 时间:
2018-04-06 17:35:02
阅读次数:
159
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下,数据的质量分析与数据清洗是相伴而行的,在分析出脏数据的时候伴随着数据的清洗。 常见的脏数据包括如下 ...
分类:
其他好文 时间:
2018-04-01 20:49:12
阅读次数:
117
案例1:使用逻辑回归模型,预测客户的信用评级 数据集中采用defect为因变量,其余变量为自变量 1.加载包和数据集 2.查看数据集, 结论:一共有10000行数据,56个变量,其数据集中没有空值,但是有极大值存在 3,数据清洗 修改前 修改后 结论:visit_cnt不再有不符合业务的极大值出现 ...
分类:
编程语言 时间:
2018-03-30 12:14:30
阅读次数:
379
恢复内容开始 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 2.导入数据 3.清洗数据 4.移除感叹词 5.绘制词云 案例2:通过拉勾网的数据进行分析,找出数据分析师相关的城市,薪水,工作年限等信息 数据集下载:链接:https://pan.baidu.com/ ...
分类:
编程语言 时间:
2018-03-27 02:01:09
阅读次数:
957
在室内定位过程中,无论是使用wifi定位,地磁定位,只要定位不是使用了自己搭建的信源,就不得不面临采集的工作。而指纹采集是一个复杂的工作,极其费人费力。因此现在也就火起来了众包采集指纹的方法。众包采集指纹一般经过种子制作,数据采集,数据清洗,指纹处理的工作步骤。 通常的指纹库建立都需要一条相对精确的 ...
分类:
其他好文 时间:
2018-03-21 19:53:32
阅读次数:
162
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。 dplyr、tid ...
分类:
编程语言 时间:
2018-03-10 01:25:25
阅读次数:
4450
一、ETL介绍: 数据抽取:把不同的数据源数据抓取过来,存到某个地方 数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取 不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库 错误的数据:比如字符串数据后面有一个回车操作、日期格式不正确、日期越界等,需要修正之后再抽取 重 ...
分类:
其他好文 时间:
2018-02-10 23:21:47
阅读次数:
262
下载地址:网盘下载 内容简介 · · · · · · 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗 ...
分类:
编程语言 时间:
2018-02-06 23:01:12
阅读次数:
495