目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4 ...
分类:
其他好文 时间:
2018-08-06 19:17:41
阅读次数:
277
学习总结: 学习过程:今天老师具体讲解了一下一个项目从需求分析到完结的过程,其次讲解了一下用户日志分析的具体操作过程,先将用户日志进行数据清洗,其次选择出自己需要的数据存入hive数据库再通过sooop导入mysql数据库,通过echar插件以表格形式显示出来。 总结:了解了项目的概要设计流程。了解 ...
分类:
其他好文 时间:
2018-07-23 10:56:41
阅读次数:
226
飞到花上 采集花粉 经过处理 数据清洗 存储编程可用的数据 urlib BeautifulSoup lxml Scrapy PdfMiner Requests Selenium NLTK Pillow unittset PySocks 知名网站的API MySQL数据库 OpenRefine数据分析 ...
分类:
编程语言 时间:
2018-07-06 18:58:43
阅读次数:
306
一、 基本的离线数据处理架构: 数据采集 Flume:Web日志写入到HDFS 数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS 数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成 处理结果入库 存放到RDBMS、NoSQL中 数据可视化 通过图形 ...
分类:
数据库 时间:
2018-06-15 00:02:22
阅读次数:
386
数据清洗 数值缺失 1.略去该组数据 2.数值填充:1)随机数;2)统一的全局常量,如:UNKNOWN;3)均值、中值;4)按类别的中值、均值;5)回归、决策树等得到的预测值; 噪声数据的平滑:随机噪声或偏差引起噪声 1.装箱法:按邻值实现 2.拟合回归函数以平滑数据 3.异常数据分析:在聚合后簇外 ...
分类:
其他好文 时间:
2018-06-06 12:24:21
阅读次数:
154
处理丢失数据 有两种丢失数据: · None · np.nan(NaN) 1 None None是Python自带的,其类型为Python object。因此,None不能参与到任何计算中。 object类型的运算要比int类型的运算慢得多 计算不同数据类型求和时间 2 np.nan(NaN) np ...
分类:
其他好文 时间:
2018-05-23 17:08:15
阅读次数:
979
一文读懂 Spring Boot、微服务架构和大数据治理三者之间的故事 https://www.cnblogs.com/ityouknow/p/9034377.html 微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物 ...
分类:
编程语言 时间:
2018-05-19 21:25:14
阅读次数:
215
起因最近开发的项目中涉及到调用web_api并在前台解析的功能需求,web_api返回的数据只有极小部分有用,所以在解析后还需进行数据清洗,之后再调用其他组件再处理。web_api返回的数据如下: 后期需要调用组件需求的数据结构如下: 以上展示的数据仅有两层,但在实际应用中,数据层级可能达到4层,由 ...
分类:
Web程序 时间:
2018-05-16 13:16:18
阅读次数:
189
R语言︱情感分析—基于监督算法R语言实现笔记。 可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)对着看。 词典型情感分析大致有以下几个步骤: 训练数据集、neg/pos情感词典、分词+数据清洗清洗(一、二、三级清洗步骤)、计算情感得分、模型评价 ———————————— ...
分类:
编程语言 时间:
2018-04-29 23:18:47
阅读次数:
279
通常机器学习的开发流程包括:数据收集 数据清洗与转换 模型训练 模型测试 模型部署与整合 下面,通过一个例子进行完整的机器学习开发流程的学习。 工程中需要的库: (1)首先数据的收集,获取数据: 如上,可以看到,我们获得需要获取的是Global_active_power(有功功率)、Global_r ...
分类:
其他好文 时间:
2018-04-29 15:23:15
阅读次数:
239