码迷,mamicode.com
首页 > 其他好文 > 详细

《数据挖掘:概念与技术》学习笔记2

时间:2017-02-25 22:58:55      阅读:207      评论:0      收藏:0      [点我收藏+]

标签:大小   笔记   and   联系   variable   相等   平均值   var   iat   

  认识数据

1、数据属性(attribute,可以等同于维dimension、特征feature以及变量variable)

数值属性里面可以求均值(mean平均值)、中位数(median中间值)以及众数(mode最常见的值,一个叫单峰的unimodal,两个双峰bimodal,三个叫三峰trimodal,多个叫多峰的multimodal)。这三个数可以表示中心趋势度量。

涉及一个属性的数据分布叫单变量的univariate,两个的叫bivariate。

(1)标称属性nominal attribute

符号或名称,类别、编码或者状态,可看做分类的categorical或枚举的enumeration

(2)二元属性binary attribute,nominal attribute的一种,取值0或1,布尔属性

(3)序数属性ordinal attribute

值之间具有有意义的序或者秩评定ranking

以上三个都是定性属性。

(4)数值属性numeric attribute

a.区间标度interval-scaled没有真正的0点,例如时间

b.比例标度ratio-scaled有0点,计数的数

(5)离散属性和联系属性

 

度量数据散布:

极差range是最大值max与最小值min之差

分位数quantile是按固定间隔将数据划分成大小相等的连贯集合。

常用的五数概括five-number summary由最小值Minimum,四分位数Q1,Median,Q3,Maximum组成。

方差variance是与平均值的差的平方的和,标准差standard deviation是variance的平方根。

 

《数据挖掘:概念与技术》学习笔记2

标签:大小   笔记   and   联系   variable   相等   平均值   var   iat   

原文地址:http://www.cnblogs.com/recordstudy/p/6443040.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!