最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也 ...
分类:
其他好文 时间:
2017-09-15 16:49:48
阅读次数:
133
一、概率论基本概念样本空间、随机事件频率和概率概率的相关运算和性质等可能概型:古典概型条件概率全概率公式:你用条件概念算事件概率贝叶斯公式:条件概率用于反推计算条件概率事件的相互独立性二、随机变量极其分布随机变量:每个样本点映射一个数字来表征基本离散型随便基变量分布:0-1分布、伯努利实验二项分布、 ...
分类:
其他好文 时间:
2017-09-12 15:59:56
阅读次数:
408
数学期望又称均值(加权均值),例如 甲8环,9环,10环的概率分别为0.1,0.8,0.1,即权重,则加权均值为8*0.1+9*0.8+10*0.1=9;同理乙的加权均值为8.95 则甲的平均成绩优于乙 对于离散型随机变量 连续型随机变量 ...
分类:
其他好文 时间:
2017-09-10 23:43:06
阅读次数:
195
information gain 在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。 在概率论和信息论中,两个随机变量的互信息(Mutual ...
分类:
其他好文 时间:
2017-09-03 14:13:13
阅读次数:
159
注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质。对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等。 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: 0. Python ...
分类:
编程语言 时间:
2017-08-30 21:44:12
阅读次数:
833
在看《程序员的数学2——概率统计》关于离散型随机变量的大数定律解释时,有两个概念一定需要弄明白: 在《Probability and Statistics》这本国外的经典教材第四章第一小节中,强调了随机变量的期望只与随机变量的分布有关系: Note: The Expectation of X Dep ...
分类:
其他好文 时间:
2017-08-29 21:46:48
阅读次数:
148
4.1 引言现在要研究的是这样一种过程:表示在时刻的值(或者状态),想对一串连续时刻的值,比如:,, ... 建立一个概率模型。最简单的模型就是:假设都是独立的随机变量,但是通常这种假设都是没什么根据的,也缺乏研究的意义。举例来说的话,如果用来代替某个公司,比如Google,在个交易日之后的股票价格... ...
分类:
其他好文 时间:
2017-08-27 12:05:45
阅读次数:
163
参考: 如何通俗易懂地解释「协方差」与「相关系数」的概念?(非常通俗易懂) 浅谈协方差矩阵 方差(variance) 集合中各个数据与平均数之差的平方的平均数。在概率论与数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。 方差越大,数据的离散程度就越大。 协方... ...
分类:
其他好文 时间:
2017-08-25 21:37:29
阅读次数:
179
熵其实是信息量的期望值,它是一个随机变量的确定性的度量(不确定度)。熵越大,变量的取值越不确定,反之就越确定。 http://blog.csdn.net/rtygbwwwerr/article/details/50778098 相对熵(relative entropy)又称为KL散度(Kullbac ...
分类:
其他好文 时间:
2017-08-22 18:00:06
阅读次数:
121
1. 相对熵的认识 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。设和 是取值的两个概率概率分布,则对的相对熵为 在一定程度上,熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是 用来度量使用基于Q的 ...
分类:
其他好文 时间:
2017-08-20 19:51:17
阅读次数:
211