一、Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何 ...
分类:
其他好文 时间:
2019-09-01 10:33:11
阅读次数:
86
一、安装 1、使用pip安装 注意:如果下载速度非常慢或者下载失败(因为python的部分生态库不支持云加速,所以安装超时),则手动下载指定的文件,并手动安装如下: 访问此链接下载.whl文件: 使用命令在此文件的目录安装此文件: 安装pandas需要的依赖库有: 官方文档:https://pand ...
分类:
其他好文 时间:
2019-08-30 19:23:30
阅读次数:
70
1、Tableau产品介绍 安装 Tableau Desktop 10.5.3、Tableau安装包2018.3 提出问题、理解数据、清洗数据、建立模型、数据可视化 2、Tableau和Execl对比 ...
分类:
其他好文 时间:
2019-08-27 23:01:51
阅读次数:
82
在《用pandas进行数据清洗(一)(Data Analysis Pandas Data Munging/Wrangling)》中,我们介绍了数据清洗经常用到的一些pandas命令。 接下来看看这份数据的具体清洗步骤: 1,查看数据的行列数: 数据一共有10行6列。 2,查看数据的数据类型: Tra ...
分类:
其他好文 时间:
2019-08-25 16:16:39
阅读次数:
62
可以用power BI的客户端 1、数据清洗-删除空行 在power BI中选中任一单元格,右键--编辑查询--点击数据源上方的删除行-删除空行,即使当前数据源没有空行,也要执行一下删除空行的操作,因为后面的数据有可能存在空行。 2、删除重复项 在power BI中选中任一单元格,右键--编辑查询- ...
分类:
其他好文 时间:
2019-08-18 19:51:46
阅读次数:
98
数据分析的一般步骤为:提出问题、理解数据(数据获取)、数据清洗、构建模型、数据可视化和结果展示。 一、提出问题 1、深圳市数据分析岗位的薪水如何?工作经验要求如何? 2、深圳市数据分析岗位的薪水和工作经验要求有何关系? 3、深圳市从事哪些数据分析岗位最好? 4、根据自己的实际情况,哪些公司的数据分析 ...
分类:
其他好文 时间:
2019-08-13 15:47:54
阅读次数:
147
大数据经过多年的发展,目前在概念上已经有了更多的含义,从不同的角度来看待大数据也会有不同的定义,但是总的来说,大数据可以用三个方面来进行概括,其一是“新的价值领域”;其二是“数据价值化”;其三是“产业互联网的基础”。大数据之所以受到了广泛的关注,一个重要的原因就是大数据开辟了新的价值领域,这一点是非常关键的。新的价值领域就会打造一系列生态体系,而生态体系又会孕育出大量不同的商业模式,而这个过程也会
分类:
其他好文 时间:
2019-08-09 11:48:34
阅读次数:
139
本文主要讲数据治理中的重要工作:数据质量管理。从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。
分类:
其他好文 时间:
2019-08-07 16:14:09
阅读次数:
112
一、需求: 对爬取的csv文件进行数据清洗 运用内容:pandas、正则表达式 二、简单分析: 共176条数据 其中,分析目标以全职为准,但职位名称包含实习信息,需要删除掉。 数据方面:csv保存格式为str,运用正则表达式提取数值工作经验去平均值,工资按市场情况,取工资范围前25%。 三、代码: ...
分类:
其他好文 时间:
2019-08-04 13:41:02
阅读次数:
84
机器学习是一门交叉学科 机器学习和很多名词相关 ,包括: 模式识别, 数据清洗,数据挖掘,统计学习,计算机视觉,语音识别 , 深度学习 模式识别,机器学习也是模式学习,只是换了个说法,机器学习把各种各样的场景当成各种模式,把模式识别出来,相当于总结模式的规律 数据挖掘, 很多时候是和数据库的知识,然 ...
分类:
其他好文 时间:
2019-08-04 01:24:12
阅读次数:
93