码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
数据分析进阶 数据质量
目的:使用python对excel中的数据进行清洗,根据列进行数据清洗 习题1: 处理城市 infobox 数据,对数据进行审核,然后想出清理方法并清理数据。在第一道练习中,请审核数据集中某些特定字段中的数据类型。 值类型可以是: 1. NoneType,如果值是字符串“NULL”或空字符串“” 2 ...
分类:其他好文   时间:2017-11-28 11:54:25    阅读次数:168
数据清洗、合并、转化和重构
数据清洗是数据分析关键的一步,直接影响之后的处理工作 数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 处理缺失数据:pd.fillna(),pd.dropna() 1.数据连接(pd.merge) p ...
分类:其他好文   时间:2017-11-19 19:41:11    阅读次数:204
DataMasker数据脱敏
产品简介:DataMasker数据脱敏平台,专业处理敏感数据,内置针对不同行业的敏感数据发现规则,支持多任务并发,充分利用系统资源,提高脱敏效率,真正做到智能而人性化的任务管理。DataMasker保护隐私数据满足数据规格和业务一致性、保证业务可靠运行,实时动态保护生产系统数据..
分类:其他好文   时间:2017-11-14 15:32:06    阅读次数:163
微博excel数据清洗(Java版)
微博数据清洗(Java版) 原创 2013年12月10日 10:58:24 2979 原创 2013年12月10日 10:58:24 2979 大数据公益大学提供的一份数据,义务处理一下,原始数据是Excel,含有html标签,如下: 要求清洗掉html标签,和微博内容中的url地址。 主要分为两部 ...
分类:编程语言   时间:2017-11-08 13:08:39    阅读次数:229
《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理
重复数据的处理 识别重复数据 删除重复数据 一、识别重复数据 函数法 高级筛选法 条件格式法 数据透视法 函数法 高级筛选法 条件格式法 数据透视法 总结: 函数法:根据范围选择不同,可以看到重复的个数,也可以得到这是第几个重复值。 高级筛选法:将多余的去除,只留下唯一一个。 条件格式法:将有重复项 ...
分类:其他好文   时间:2017-11-05 18:33:55    阅读次数:164
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 ...
分类:Web程序   时间:2017-11-03 13:11:02    阅读次数:230
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 ...
分类:Web程序   时间:2017-11-03 13:06:48    阅读次数:261
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例(三)统计分 ...
分类:Web程序   时间:2017-11-03 12:57:48    阅读次数:225
Shell脚本 数据清洗
需要做的任务是将上图类似的格式的文件进行处理,将年月日小时分别提取出来放到每行的行尾(上图已清洗好) 自己的思路是先用cut命令将每行的年月日小时提取出来,分别给一个变量,然后再循环利用sed命令将年月日小时复制到行尾 实现起来感觉有问题,因为sed命令不熟,sed -i不知道能不能实现 简单了解一 ...
分类:系统相关   时间:2017-11-01 13:42:08    阅读次数:238
Strom简单介绍
1、离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度 1,hivesql 2、调度平台 3、Hadoop集群运维 4、数据清洗(脚本语言) ...
分类:其他好文   时间:2017-10-19 00:18:55    阅读次数:282
368条   上一页 1 ... 23 24 25 26 27 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!