一.简述 Spark是当下非常流行的数据分析框架,而其中的机器学习包Mllib也是其诸多亮点之一,相信很多人也像我那样想要快些上手spark。下面我将列出实现mllib分类的简明代码,代码中将简述训练集和样本集的结构,以及各分类算法的参数含义。分类模型包括朴素贝叶斯,SVM,决策树以及随机森林。 二 ...
分类:
编程语言 时间:
2016-09-30 01:46:02
阅读次数:
296
朴素贝叶斯分类 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。实现简单、学习和预测的效率都很高,是一种常用的分类方法。贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率。接下来将介绍贝叶斯定理和特征条件独立假设。 准备知识 条件概率:若Ω是全集,A、B是其中的事件(子集),P表示事件 ...
分类:
其他好文 时间:
2016-09-14 12:34:23
阅读次数:
169
首先,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错误率来衡量。但很多时候,我们只能假设测试集和训练集的是符合同一个数据分布的,但却拿不到真正的测试数据。这时候怎么在只看到训练错误率的情况下,去衡量测试错误率呢? 由于训练样本很 ...
分类:
其他好文 时间:
2016-09-14 01:55:10
阅读次数:
154
朴素贝叶斯
参考[1]
事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A
P(A∩B)=P(A)?P(B|A)=P(B)?P(A|B)
所以有:
P(A|B)=P(...
分类:
编程语言 时间:
2016-09-12 20:49:29
阅读次数:
165
http://blog.csdn.net/pipisorry/article/details/52469064独立性质的利用条件参数化和条件独立性假设被结合在一起,目的是对高维概率分布产生非常紧凑的表...
分类:
其他好文 时间:
2016-09-08 13:10:42
阅读次数:
306
贝叶斯与频率派思想
频率派思想
长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且事情发生或...
分类:
其他好文 时间:
2016-09-07 21:13:37
阅读次数:
249
1. 贝叶斯定理: (1) P(A^B) = P(A|B)P(B) = P(B|A)P(A) 由(1)得 P(A|B) = P(B|A)*P(A)/[p(B)] 贝叶斯在最基本题型: 假定一个场景,在一所高中男女比例为4:6, 留长头发的有男学生有女学生, 我们设定女生都留长发 , 而男生中有10% ...
分类:
编程语言 时间:
2016-09-01 18:28:54
阅读次数:
201
在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种。该算法是一种惰性学习法(lazy learner),与决策树、朴素贝叶斯这些急切学习法(eager learner)有所区别。惰性学习法仅仅只是简单地存储训练元组,做一些少量工作,在真正进行分类或预测的时候才开始做更多的工作。有点像是平时不 ...
分类:
编程语言 时间:
2016-08-29 12:48:15
阅读次数:
394
C#编程实现 这篇文章做了什么 朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等。而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Progressing)中的重要问题,用以对文本进行正负面的判断,以及情感度评分和意见挖掘 ...
分类:
编程语言 时间:
2016-08-08 00:56:04
阅读次数:
390
一、概述 前两章我们要求分类器做出艰难决策,给出“该数据实例属于哪一类”这类问题的明确答案。不过,分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。 概率论是许多机器学习算法的基础,所以深刻理解这一主题就显得十分重要。第3章在计算特征值取某个值的概 ...
分类:
编程语言 时间:
2016-08-02 09:59:56
阅读次数:
396