基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下
其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词,表示单词出现在文档的概率,表示文档中出现主题下的单词的概率,给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial
分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的:
(1) 以的概率选中文...
分类:
其他好文 时间:
2015-01-09 22:26:13
阅读次数:
347
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——...
分类:
其他好文 时间:
2014-12-16 18:40:12
阅读次数:
291
朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型;当各特征相关性较小时,朴素贝叶斯分类性能最为良好。另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算。本文详述了朴素贝叶斯分类的统计学原理,并在文本分类中...
分类:
编程语言 时间:
2014-12-12 20:56:48
阅读次数:
1004
1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。 统计学习的对象是数据,它从数据出发,提取数据的特征,...
分类:
其他好文 时间:
2014-11-15 20:13:40
阅读次数:
223
协方差的意义和计算公式学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述...
分类:
其他好文 时间:
2014-11-11 00:40:05
阅读次数:
260
机器学习原理、实现与实践——机器学习概论如果一个系统能够通过执行某个过程改进它的性能,这就是学习。 ——— Herbert A. Simon1. 机器学习是什么计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科。从上面的机器学习的定义中,我们可以了解到以下的信息:机器学习以计算...
分类:
其他好文 时间:
2014-10-31 09:52:52
阅读次数:
242
Likehood函数即似然函数,是概率统计中经常用到的一种函数,其原理网上很容易找到,这里就不讲了。这篇博文主要讲解Likelihood对回归模型的Probabilistic interpretation。在我们的回归模型中由于其他因素的影响我们的预测函数为: 其中 为影响预测的其他因素或者说噪.....
分类:
其他好文 时间:
2014-10-30 20:44:37
阅读次数:
199
整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识。一、概率论和统计学概念复习1)期望值(Expected Value)因为这里每个数都是等概率的,所以就当做是数组或向量中所有元素的平均数吧。可以使用R语言中函数mean()。2)方差(Variance)方差分为population variance总体方差和sample variance样本方...
分类:
编程语言 时间:
2014-10-12 16:35:38
阅读次数:
1714
apsart.cls 1 % !Mode:: "TeX:UTF-8" 2 %% 3 %% This is file `APSart.cls', 4 %% 5 %% Copyright 2006-2012 6 %% 7 %% --------------------------------------...
分类:
其他好文 时间:
2014-10-08 11:01:25
阅读次数:
1304
1.样本k阶(原点)矩
2.样本k阶中心矩
3.顺序统计量...
分类:
其他好文 时间:
2014-10-05 14:19:18
阅读次数:
382