获取到数据之后,首先对用户location做可视化 第一步 做数据清洗,把里面的数据中文符号全部转为为空格 第二步 数据做词云,需要过滤停用词,然后分词 输入结果 这样输出的原因是后面需要用pyechart做数据的词云 第三步 词云可视化 二 用户地址可视化 用户所在地成都热点图 程序脚本:这里需要 ...
分类:
其他好文 时间:
2019-06-19 15:12:29
阅读次数:
122
这是简易数据分析系列的第 1 篇文章。 前文说到,我会做一个数据分析的系列教程,面向纯小白,不写代码不写公式,搞定数据分析的第一步。教程的内容主要会从三个方向上进行延伸:数据采集,数据清洗和数据可视化。 今天我们就开始我们的数据采集之路。 数据采集听着高大上,其实对于普通人来说,就是 自动化版的复制 ...
分类:
其他好文 时间:
2019-06-18 23:00:13
阅读次数:
287
1、知识点 2、中文数据清洗(使用停用词) 3、英文数据清洗(使用停用词) 4、stopwords_english.txt ...
分类:
编程语言 时间:
2019-06-13 22:01:53
阅读次数:
614
沙漠君在闭关4个月后,终于把开源数据神器Hawk(详细介绍在这里)的文档和教学视频基本录制完毕, 并同步更新在有爱无广告二次元的B站! 教程总时间超过3个小时,覆盖了网页采集器,数据清洗,文件读写等方方面面。内容蜜汁丰富,有原理,有如何填坑的tip,更有完整的操作步骤,让你一看就能明白。 教程更是增 ...
分类:
其他好文 时间:
2019-06-07 23:09:22
阅读次数:
117
1.清洗数据中的全空行 2.清洗user列中的空值的行 3.统计上行流量列以及下行流量列的当天每人每终端服务app的总量。 4.统计每人每天终端服务app的次数。 1.用正则表达以及loc清洗tm_type列的数据,做以下更改 系统移动终端=mobile() pc=pc() 多终端=多终端() 未知 ...
分类:
其他好文 时间:
2019-06-01 19:40:33
阅读次数:
97
一、Pandas概要介绍 pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。可以用于对CSV和文本文件、Microsoft Excel、SQL数据库数据的读写。 能够帮助数据清洗,数据分析和数据建模。 二、主要的两种数据结构 序列(Seri ...
分类:
其他好文 时间:
2019-05-25 19:51:16
阅读次数:
122
现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会 ...
分类:
其他好文 时间:
2019-05-19 11:49:23
阅读次数:
224
运维主要工作责任是管理服务器,一般有基础运维和应用运维,应用运维面向业务线 cmdb即配置管理系统三大功能 1,代码的自动上线 2,监控系统 3,自动装机系统 agent db 数据清洗分析API 通过requests向API发送 部署在 服务器 上脚本文件 wed界面缺点:每台部署agent 使用 ...
分类:
数据库 时间:
2019-05-14 19:06:31
阅读次数:
363
2:写spark程序统计iis网站请求日志中 每天每个小时段成功访问ip的数量 更灵活的运用spark算子,意味着写更少的代码 2019-05-07 19:06:57 ...
分类:
其他好文 时间:
2019-05-07 19:42:16
阅读次数:
177
Pandas是基于 Numpy 的一个开源的Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。它的名字来源是“Panel data”(面板数据, 一个计量经济学的名词) 两个单词拼成的。简单的说,可以把Pandas 看做是Python 版的 Excel。 1、安装 Pandas ...
分类:
其他好文 时间:
2019-05-03 14:45:52
阅读次数:
190