概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——...
                            
                            
                                分类:
其他好文   时间:
2014-09-05 21:09:12   
                                阅读次数:
420
                             
                         
                    
                        
                            
                            
                                因为最近做万维品牌口碑的项目,需要对口碑进行一个对比,现在库中也有一部分的数据了,有很多的品牌评分居然是一样的,这是库中的真实的数据,如果我简单的按平均分进行评比,也行不太公平,因为有很多评论人数很多,但有的很少。所以我就引用了IMDB.COM排名算法,他主要是对top250进行排名,对评分的人数有...
                            
                            
                                分类:
数据库   时间:
2014-09-04 22:04:00   
                                阅读次数:
327
                             
                         
                    
                        
                            
                            
                                模板模型(Template Models)主要包括模板变量(TemplateVariables)和语言(Language)。
 
模板模型可以应用于无限大的贝叶斯网络;
模板变量是被多次复用的变量:
如:地点(时间)、基因型(人物)、标签(像素)、难度(课程),等等。
 
语言用来描述模板变量如何从模板中继承依赖关系。
语言有很多种,各种语言都有各种应用条件,从而构造出大...
                            
                            
                                分类:
其他好文   时间:
2014-09-03 21:20:57   
                                阅读次数:
609
                             
                         
                    
                        
                            
                            
                                常用的分类算法主要有决策树,贝叶斯,KNN,SVM,神经网络以及基于规则的分类算法。本文主要对各种分类算法的特性做一下总结。1. 决策树算法决策树算法是一种构建分类模型的非参数方法,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布。找到最佳决策树是NP完全问题,许多决策树算法都采取启发式的...
                            
                            
                                分类:
其他好文   时间:
2014-09-02 10:16:54   
                                阅读次数:
341
                             
                         
                    
                        
                            
                            
                                1.调用庖丁分词器,分词grid@server01:~/data$hadoopjarmrtokenize.jartokenize.TokenizeDriver/home/grid/data/lesson8/home/grid/output/sportwords14/08/3121:59:33INFOinput.FileInputFormat:Totalinputpathstoprocess:10205.....14/08/3122:05:25INFOmapred.JobClient:Map..
                            
                            
                                分类:
其他好文   时间:
2014-09-01 15:48:44   
                                阅读次数:
296
                             
                         
                    
                        
                            
                            
                                ID3算法是J. Ross Quinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量...
                            
                            
                                分类:
其他好文   时间:
2014-08-31 11:46:11   
                                阅读次数:
298
                             
                         
                    
                        
                            
                            
                                2.1 在仅仅考虑判断误差(注意和后面代价的区别)的情况下,每次都以出现误差的概率尽可能小为原则。如何来满足这个原则?这就要求我们每次都选取后验概率大的类别作为判断结果!因为此种情形下,当我们观察到某一特定的$x$时,它的判断误差是这样定义的:\begin{equation}P(error|x)=\...
                            
                            
                                分类:
其他好文   时间:
2014-08-30 09:54:59   
                                阅读次数:
187
                             
                         
                    
                        
                            
                            
                                贝叶斯方法逻辑回归推荐引擎初探推荐引擎——协同过滤推荐引擎——聚类微博推荐系统基于apache mahout构建社会化推荐系统
                            
                            
                                分类:
其他好文   时间:
2014-08-28 02:04:58   
                                阅读次数:
217
                             
                         
                    
                        
                            
                            
                                outlook
temperature
humidity
windy
play
 
yes
no
 
yes
no
 
yes
no
 
yes
no
yes
no
sunny
2
3
hot
2
2
high
3
4
...
                            
                            
                                分类:
其他好文   时间:
2014-08-26 09:53:05   
                                阅读次数:
200
                             
                         
                    
                        
                            
                            
                                印象笔记同步分享:Machine Learning—Naive Bayesian classification(朴素贝叶斯分类)...
                            
                            
                                分类:
其他好文   时间:
2014-08-22 16:19:39   
                                阅读次数:
158