关键词和导入 在这个速查卡中,我们会用到一下缩写: 您还需要执行以下导入才能开始: import pandas as pd import numpy as np 导入数据 输出数据 创建测试对象 用于测试的代码 查看/检查数据 选择 数据清洗 筛选,排序和分组 加入/合并 统计 以下这些都可以应用于 ...
分类:
其他好文 时间:
2018-08-15 13:29:39
阅读次数:
214
目录 一.预处理 二.缺失值的处理 三.格式的转换 四.异常值的处理 一.预处理 1.1.列名称的修改 像下面这样,我们就完成了两个列的重命名,而其余的列名保持不变 1.2.添加index 有的时候数据的index是0,1,2……这样的数字,我们需要修改为日期格式,date必须是数据里一个serie ...
分类:
其他好文 时间:
2018-08-14 00:54:08
阅读次数:
185
目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4 ...
分类:
其他好文 时间:
2018-08-06 19:17:41
阅读次数:
277
学习总结: 学习过程:今天老师具体讲解了一下一个项目从需求分析到完结的过程,其次讲解了一下用户日志分析的具体操作过程,先将用户日志进行数据清洗,其次选择出自己需要的数据存入hive数据库再通过sooop导入mysql数据库,通过echar插件以表格形式显示出来。 总结:了解了项目的概要设计流程。了解 ...
分类:
其他好文 时间:
2018-07-23 10:56:41
阅读次数:
226
飞到花上 采集花粉 经过处理 数据清洗 存储编程可用的数据 urlib BeautifulSoup lxml Scrapy PdfMiner Requests Selenium NLTK Pillow unittset PySocks 知名网站的API MySQL数据库 OpenRefine数据分析 ...
分类:
编程语言 时间:
2018-07-06 18:58:43
阅读次数:
306
一、 基本的离线数据处理架构: 数据采集 Flume:Web日志写入到HDFS 数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS 数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成 处理结果入库 存放到RDBMS、NoSQL中 数据可视化 通过图形 ...
分类:
数据库 时间:
2018-06-15 00:02:22
阅读次数:
386
数据清洗 数值缺失 1.略去该组数据 2.数值填充:1)随机数;2)统一的全局常量,如:UNKNOWN;3)均值、中值;4)按类别的中值、均值;5)回归、决策树等得到的预测值; 噪声数据的平滑:随机噪声或偏差引起噪声 1.装箱法:按邻值实现 2.拟合回归函数以平滑数据 3.异常数据分析:在聚合后簇外 ...
分类:
其他好文 时间:
2018-06-06 12:24:21
阅读次数:
154
处理丢失数据 有两种丢失数据: · None · np.nan(NaN) 1 None None是Python自带的,其类型为Python object。因此,None不能参与到任何计算中。 object类型的运算要比int类型的运算慢得多 计算不同数据类型求和时间 2 np.nan(NaN) np ...
分类:
其他好文 时间:
2018-05-23 17:08:15
阅读次数:
979
一文读懂 Spring Boot、微服务架构和大数据治理三者之间的故事 https://www.cnblogs.com/ityouknow/p/9034377.html 微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物 ...
分类:
编程语言 时间:
2018-05-19 21:25:14
阅读次数:
215
起因最近开发的项目中涉及到调用web_api并在前台解析的功能需求,web_api返回的数据只有极小部分有用,所以在解析后还需进行数据清洗,之后再调用其他组件再处理。web_api返回的数据如下: 后期需要调用组件需求的数据结构如下: 以上展示的数据仅有两层,但在实际应用中,数据层级可能达到4层,由 ...
分类:
Web程序 时间:
2018-05-16 13:16:18
阅读次数:
189