算法简介
NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
算法假设
给定目标值时属性之间互相条件独立。
算法输入
训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}
待分类数据x0=(x0(1),x0(2),……,x0(n)...
分类:
其他好文 时间:
2014-07-28 16:17:13
阅读次数:
412
I am using pybrain on my Linuxmint 13 x86_64 PC.As what it is described: PyBrain is a modular Machine Learning Library for Python. Its goal is to offe...
分类:
编程语言 时间:
2014-07-28 11:33:00
阅读次数:
292
拉普拉斯线性锐化滤波 LaplacianCalculates the Laplacian of an image.C++: void Laplacian(InputArray src, OutputArray dst, int ddepth, int ksize=1, double scale=1, double delta=0, int borderType=BORDER_DEFAULT )P...
分类:
编程语言 时间:
2014-07-28 00:05:59
阅读次数:
393
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343
约束玻尔兹曼机(RBM)是一类具有两层结构、对称连接无自反馈的随机神经网络模型,层与层之间是全连接,层内无连接,它是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆叠而成的深度信念网络(DBN)能提取出更好更抽象的特征,从而用来分类。...
分类:
其他好文 时间:
2014-07-27 11:48:43
阅读次数:
221
一个月前,自己模仿caffe实现了一个卷积神经网络的框架。
一个月前,自己模仿caffe实现了一个卷积神经网络的框架。
相同点
1无缝支持CPU和GPU模式,GPU模式使用cuda实现。
不同点
1我的CNN不依赖与任何第三方的函数库,caffe用到了第三方的数学函数库(cublas和mkl)来做矩阵操作。
其实区别就在于...
分类:
其他好文 时间:
2014-07-26 02:17:46
阅读次数:
334
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:...
分类:
其他好文 时间:
2014-07-26 01:15:56
阅读次数:
248
本来以为可以将《实战机器学习》的代码全部实现完,殊不知到了支持向量机这一章,仅是为了理清概念,我找出高数线代概统重识拉格朗日乘数、向量空间、最小二乘法,为了理解非线性情况时用到的核技术去查阅曼瑟定理...
分类:
其他好文 时间:
2014-07-25 00:00:26
阅读次数:
290
张长水:大数据时代的机器学习 VS 传统机器学习
从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:
数据量大导致计算困难
分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。
大数据时代给机器学习带来新的机遇:
在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
大数据使样本空间原本“空旷”的区域出现样本,...
分类:
其他好文 时间:
2014-07-24 23:37:33
阅读次数:
370
似然函数:似然函数在形式上就概率密度函数。 似然函数用来估计某个参数。最大似然函数:就是求似然函数的最大值。 最大似然函数用于估计最好的参数。最小二乘法:它通过最小化误差的平方和寻找数据的最佳函数匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方,然后求系数的偏导数,令导数为0,求...
分类:
其他好文 时间:
2014-07-24 22:50:53
阅读次数:
261