码迷,mamicode.com
首页 > 其他好文 > 详细

bubble chart|Matrix Scatter|Overlay Scatter|Scatterplots|drop-line|box plot|Stem-and-leaf plot|Histogram|Bar chart|Pareto chart|Pie chart|doughnut chart|

时间:2019-09-16 10:18:03      阅读:104      评论:0      收藏:0      [点我收藏+]

标签:drop   根据   lead   图例   ogr   出现   UNC   分组   众数   

应用统计学

对类别数据要分类处理:

Bar chart复式条形图便于对比:

 技术图片

 

 技术图片

Pareto chart:对类别变量依据频数高低排列:

 技术图片

 

 

Pie chart:饼图用于一个样本,可以区分类别数据

doughnut chart:环形图用于多个样本,可以区别类别数据

 技术图片

 

 

顺序数据:通过计算cumulative percentages向上向下累计,这两者可有不同的解释

 技术图片

线图可以多类方便的放在一张图上,便于比较

 

对数值型数据要分组处理:

 技术图片

 

 

单变量分组:该变量必须是离散值且数量少

组距分组:

  1. 等距分组eg10-2020-3030-40
  2. 异距分组eg10-7070-8080-9090-140,异距分组容易引起理解偏差,可以用频数密度来表达,避免理解偏差。

 

得到样本数n,通过以下公式计算得到组数K,根据组数K{组距=( 最大值 - 最小值)÷ 组数}得到组距,最后绘制直方图,由直方图可看到点连成线之后的数据对称性。

 技术图片

 

 

由直方图得到的常见分布如下:

 技术图片

 

 

图例:

黄色:众数

红色:中位数

绿色:平均数

 

直方图Histogram:

1.样本量大用直方图可以反映出分布;

2.样本量小(小于75-100)会出现不稳定的情况

可以采用分不同组数目来看分布是不是一致来判断自己选择组数是否合适

 

当样本数为无穷大时,直方图上折线图变成PDFPMF):probability density function概率密度函数,由PDF可推导得到CDF:cumulative distribution function分布函数。

 

茎叶图Stem-and-leaf plot针对样本量小的未分组数据,它的组距不能人为控制,通常是10或者10的最小公约数。

箱图可用于多类样本比较,如下图:

 技术图片

 

 技术图片

 

 

但是离群点对箱图影响大,可能造成misleading,可以使用公式对所有值进行筛选,选出离群点并去除离群点。

 技术图片

 

 

基于其他统计量的箱图:其中可以将四分位点换成任何需要的百分位数,即可以利用箱图来判断置信区间。

 

垂线图(drop-line)

 技术图片

两个变量之间的问题:

二维散点图(2D Scatterplots)

 技术图片

 

 

重叠散点图Overlay Scatter:

 技术图片

 

 

散点图矩阵Matrix Scatter

 技术图片

 

 

三个变量之间:气泡图bubble chart

 技术图片

 

bubble chart|Matrix Scatter|Overlay Scatter|Scatterplots|drop-line|box plot|Stem-and-leaf plot|Histogram|Bar chart|Pareto chart|Pie chart|doughnut chart|

标签:drop   根据   lead   图例   ogr   出现   UNC   分组   众数   

原文地址:https://www.cnblogs.com/yuanjingnan/p/11525326.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!