贝叶斯过滤器过滤垃圾邮件什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想...
分类:
其他好文 时间:
2014-09-30 21:23:40
阅读次数:
180
朴素贝叶斯分类器一、贝叶斯定理所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。根据文氏图,可以发现同理可得,所以,即其中,P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对...
分类:
其他好文 时间:
2014-09-30 20:38:00
阅读次数:
330
今天介绍一种简单高效的分类器——朴素贝叶斯分类器(Naive Bayes Classifier)。
相信学过概率论的同学对贝叶斯这个名字应该不会感到陌生,因为在概率论中有一条重要的公式,就是以贝叶斯命名的,这就是“贝叶斯公式”...
分类:
其他好文 时间:
2014-09-30 10:02:52
阅读次数:
221
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
其他好文 时间:
2014-09-27 17:36:30
阅读次数:
185
(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。)使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"(spelling ...
分类:
其他好文 时间:
2014-09-25 15:38:09
阅读次数:
325
贝叶斯统计是基于贝叶斯定理的一种经典的统计学习方法。假定样本为X,参数为θ,则贝叶斯统计为:P(θ|X)=P(X|θ)*P(θ)/P(X)。其中,P(θ)为先验分布,P(X|θ)表示似然概率,P(θ|X)表示后验分布。在贝叶斯统计中,最重要的一个问题是关于先验分布的选择,它会在很大程度上影响最终结果...
分类:
其他好文 时间:
2014-09-23 21:44:35
阅读次数:
177
源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
1、概率密度函数
在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。这种估计方法,通常称之为...
分类:
其他好文 时间:
2014-09-10 14:13:20
阅读次数:
294
[链接]数学的美学世界上一次,我介绍了贝叶斯推断的原理,今天讲如何将它用于垃圾邮件过滤。========================================贝叶斯推断及其互联网应用作者:阮一峰七、什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的...
分类:
其他好文 时间:
2014-09-09 10:50:18
阅读次数:
222
引言
接前一篇文章《【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》
http://blog.csdn.net/u010967382/article/details/39088035,
为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。
步...
分类:
其他好文 时间:
2014-09-05 23:49:02
阅读次数:
285