0、基石——贝叶斯推断计算后验概率即为我们对参数的估计:其中: ——输入数据 ——待估计的参数 ——似然分布 ——参数的先验分布对新样本的预测:我们要估计的概率1、常用的概率分布Dirichlet Distribution2、文本建模2.1 基本模型——unigram model最基本的一种文本模型...
                            
                            
                                分类:
其他好文   时间:
2014-08-09 02:24:56   
                                阅读次数:
234
                             
                         
                    
                        
                            
                            
                                机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归(二值分类)参数估计(极大似然估计...
                            
                            
                                分类:
其他好文   时间:
2014-08-03 23:05:56   
                                阅读次数:
416
                             
                         
                    
                        
                            
                            
                                转自:http://blog.chinaunix.net/uid-446337-id-94440.html分类:机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则...
                            
                            
                                分类:
其他好文   时间:
2014-07-31 19:33:17   
                                阅读次数:
411
                             
                         
                    
                        
                            
                            
                                算法简介
NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
算法假设
给定目标值时属性之间互相条件独立。
算法输入
训练数据   T={(x1,y1),(x2,y2),……,(xn,yn)}
待分类数据x0=(x0(1),x0(2),……,x0(n)...
                            
                            
                                分类:
其他好文   时间:
2014-07-28 16:17:13   
                                阅读次数:
412
                             
                         
                    
                        
                            
                            
                                本章的假设前提是不同类之间存在相关性。连续的特征向量不是孤立的。
    1,贝叶斯分类器
    2,马尔科夫链模型
    3,the viterbi algorithm
    4, 信道均衡(channel equalization):任务是回复被传输通道或者噪音破坏的信息序列。
5,隐式马尔科夫模型
6,带状态持续模型(state duration model)的HMM
...
                            
                            
                                分类:
其他好文   时间:
2014-07-25 11:05:21   
                                阅读次数:
296
                             
                         
                    
                        
                            
                            
                                简介:在概率统计中有两种主要的方法:参数统计和非参数统计(或者说参数估计和非参数估计)。 其中,参数估计是概率统计的一种方法。主要在样本知道情况下,一般知道或假设样本服从某种概率分布,但不知到具体参数(或者知道具体模型,但不知道模型的参数)。
 参数估计就是通过多次试验,观察其结果,利用结果推出参数的大概值。...
                            
                            
                                分类:
其他好文   时间:
2014-07-23 22:39:07   
                                阅读次数:
894
                             
                         
                    
                        
                            
                            
                                Mahout0.9+Hadoop-2.2.0贝叶斯分类纯java实战代码,希望能给搞大数据数据挖掘的java粉们有所帮助,也希望大家提出建议。也希望Mahout社区大牛,帮忙看看我遇到的问题,先在这里谢过了。。...
                            
                            
                                分类:
其他好文   时间:
2014-07-21 22:47:27   
                                阅读次数:
365
                             
                         
                    
                        
                            
                            
                                代码测试环境:Hadoop2.4+Mahout1.0前面博客:mahout贝叶斯算法开发思路(拓展篇)1和mahout贝叶斯算法开发思路(拓展篇)2 分析了Mahout中贝叶斯算法针对数值型数据的处理。在前面这两篇博客中并没有关于如何分类不带标签的原始数据的处理。下面这篇博客就针对这样的数据进行处理。最新版(适合Hadoop2.4+mahout1.0环境)源码以及jar包可以在这里下载:下载后参考...
                            
                            
                                分类:
其他好文   时间:
2014-07-20 23:19:06   
                                阅读次数:
463
                             
                         
                    
                        
                            
                            
                                改善特征提取往往可以对分类的accuracy(和precision和召回率)有显著的正面影响。在本文中,我将评估word_feats的两项修改特征提取的方法:
过滤停用词 包含二元语法搭配
为了有效地做到这一点,我们将修改前面的代码,这样我们就可以使用任意的特征提取函数,它接收一个文件中的词,并返回特征字典。和以前一样,我们将使用这些特征来训练朴素贝叶斯分类器。
...
                            
                            
                                分类:
其他好文   时间:
2014-07-19 11:22:04   
                                阅读次数:
593
                             
                         
                    
                        
                            
                            
                                情感分析正成为研究和社交媒体分析的热点领域,尤其是在用户评论和微博上。它是文本挖掘的一种特殊情况,一般关注在识别正反观点上,虽然它常不很准确,它仍然是有用的。为简单起见(因为训练数据容易获取),我将重点放在2个可能的情感分类:积极的和消极的。
NLTK 朴素贝叶斯分类
NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论语料,以及一些可训练分类器。我...
                            
                            
                                分类:
其他好文   时间:
2014-07-19 02:14:25   
                                阅读次数:
338