一,预备知识: 信息量: 单个类别的信息熵: 条件信息量: 单个类别的条件熵: 信息增益: 信息熵: 条件熵:(表示分类的类,表示属性V的取值,m为属性V的取值个数,n为分类的个数) 二.算法流程: 实质:递归的先根建树,结束条件(当前子集类别一致),建树量化方法(信息增益) 三.示例代码: pac...
分类:
编程语言 时间:
2015-11-19 14:29:58
阅读次数:
270
首先说下信息熵其中X可以取x1,x2,...xn,Pi为X取xi的概率,信息熵反应X携带的信息量引申到分类系统,类别C可以取值C1,C2...Cn,整个分类系统的熵为其中P(Ci)=Ci类文档数/文档集总文档数信息增益针对的是特征词t,整个系统有t和没t的信息量的差就是信息增益。(1)系统有t时候的...
分类:
其他好文 时间:
2015-11-07 20:34:49
阅读次数:
252
实验二 统计压缩方法的具体实现一、实验要求对给定的数据文件,完成以下操作:1、 编写一段程序,计算其中一些图像和语音文件的一阶熵。2、 选择一个图像文件,并计算其二阶熵。试解释一阶熵和二阶熵之间的差别。 (一阶熵、二阶熵的计算,使用到的VC工程分别为:entropy.dsw、sec_entropy....
分类:
其他好文 时间:
2015-10-16 13:14:35
阅读次数:
116
实验二 统计压缩方法的具体实现一、实验要求对给定的数据文件,完成以下操作:1、 编写一段程序,计算其中一些图像和语音文件的一阶熵。2、 选择一个图像文件,并计算其二阶熵。试解释一阶熵和二阶熵之间的差别。(一阶熵、二阶熵的计算,使用到的VC工程分别为:entropy.dsw、sec_entropy.d...
分类:
其他好文 时间:
2015-10-14 12:25:18
阅读次数:
133
实验二 统计压缩方法的具体实现一、实验要求对给定的数据文件,完成以下操作:1、 编写一段程序,计算其中一些图像和语音文件的一阶熵。2、 选择一个图像文件,并计算其二阶熵。试解释一阶熵和二阶熵之间的差别。(一阶熵、二阶熵的计算,使用到的VC工程分别为:entropy.dsw、sec_entropy.d...
分类:
其他好文 时间:
2015-10-14 12:11:18
阅读次数:
133
实验二 统计压缩方法的具体实现一、实验要求对给定的数据文件,完成以下操作:1、 编写一段程序,计算其中一些图像和语音文件的一阶熵。2、 选择一个图像文件,并计算其二阶熵。试解释一阶熵和二阶熵之间的差别。(一阶熵、二阶熵的计算,使用到的VC工程分别为:entropy.dsw、sec_entropy.d...
分类:
其他好文 时间:
2015-10-14 12:01:45
阅读次数:
109
用实体-联系的观点理解概率: 每个变量都要与一个事件关联,变量依赖于事件的存在而存在,两个实体是一对一的联系; 每个事件都要与一个试验关联,事件也依赖于试验的存在而存在,两个实体是多对一的联系; 设变量的取值集合为S,如果在S上定义了一张映射表,这张映射表满足概率分布的性质,那么就称这个变量是...
分类:
其他好文 时间:
2015-10-13 17:04:42
阅读次数:
293
本文简单介绍了熵、信息增益的概念,以及如何使用信息增益对监督学习的训练样本进行评估,评估每个字段的信息量。 1、熵的介绍 在信息论里面,熵是对不确定性的测量。通俗来讲,熵就是衡量随机变量随机性的指标。比如一个随机变量X的状态有{1,2,...,n},如果X取1的概率为1,其他状态为0,那么这个随机....
分类:
其他好文 时间:
2015-10-13 15:15:10
阅读次数:
268
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之中的一个。其训练常採用最大似然准则。且为防止过拟合,往往在目标函数中增加(能够产生稀疏性的) L1 正则。但对于这样的带 L1 正则的最大熵模型,直接採用标准的随机梯度下降法(SGD)会出现效率不高和...
分类:
其他好文 时间:
2015-09-30 19:35:31
阅读次数:
237
哈特来最开始提出信息这一概念,通讯领域。香农认为信息是消除不确定性的要素。布里渊认为信息是负熵。(熵是无序程度的象征),负熵就是消除不确定性。本体论层次:信息就是事物存在的方式或运动状态。“事物”泛指人类社会、思维活动和自然界中一切可能的对象。“存在方式”指事物的内部结构和外部联系。“运动”泛指一切...
分类:
其他好文 时间:
2015-09-23 20:59:28
阅读次数:
164