标签:nts 其他 浮点型 install code tor mic 没有 均值
1.分析目的:通过google play store的app数据分析进行业务方向指导
2.数据
导入框架

导入数据
这次只分析‘App‘ ,‘Category‘ ,‘Rating‘ ,‘Reviews‘ ,‘Size‘ ,‘Installs‘ ,‘Type‘

简单浏览下数据


查看行列数量

查看各个列的非空数据量
有很多缺失值,需要清洗
3.数据清洗
App处理
查看有没有重复值

有重复值,先不着急删除重复值,为了不把其他列的异常值留下,先处理数值异常的列
Category处理

有一条异常值

删除

Rating处理

用平均值填充


有一条值是19的异常记录,和Category的异常是同一条记录
Reviews清洗

用value_counts看数据分布挺广,看起来都是数据


Size清洗
转换成浮点型


将Size为0的填充为平均数
Installs清洗

分布比较少,直接替换

转换

Type处理
df.info() 查看到有na值,这里需要dropna参数


删除这条数据

数据清洗完毕,开始分析数据
4.数据处理和分析
分Category的数据
分类的个数

每个分类的App数量,排序,可以得出哪些分类的app最受开发者欢迎

分类的安装量排序:娱乐社交类最被用户需要
分类的评论数据:社交游戏评论多

分类的打分数据,和其他数据不太一致,需要进一步分析

分Type数据

免费占比大,付费占比小,免费仍然是主流
Category和Type一起分析

评论安装比
相关性:评论数和安装数强相关,其他的连0.1都不到,可以认为是不相关的(0.5以上可以认为是相关的,0.3以上可以认为是弱相关)

标签:nts 其他 浮点型 install code tor mic 没有 均值
原文地址:https://www.cnblogs.com/daisyxxx/p/12682827.html