码迷,mamicode.com
首页 >  
搜索关键字:机器学习 决策树 id3 c4.5 cart    ( 10675个结果
监督式学习 -- 分类决策树(一)
信息熵和信息增益 一、信息熵 信息熵是信息论中的基本概念。信息论由Shannon于1948年提出并发展起来,用于解决信息传递过程中的问题,也称统计通信理论。它认为: 1、信息传递由信源、信道和信宿组成; 2、传递系统存在于一个随机干扰环境中,因此传递系统对信息的传递是随机误差的。如果把发送信息记为U而接收到信息记 V,由信道可记为通信模型,为P(U|V)。信道模型是一个条件...
分类:其他好文   时间:2014-07-28 00:03:29    阅读次数:451
3 分钟学会调用 Apache Spark MLlib KMeans
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:其他好文   时间:2014-07-28 00:01:39    阅读次数:343
一步一步入门机器学习之四:约束玻尔兹曼机(RBM)
约束玻尔兹曼机(RBM)是一类具有两层结构、对称连接无自反馈的随机神经网络模型,层与层之间是全连接,层内无连接,它是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆叠而成的深度信念网络(DBN)能提取出更好更抽象的特征,从而用来分类。...
分类:其他好文   时间:2014-07-27 11:48:43    阅读次数:221
openstack杂烩
qemu-imgconvert-Oqcow2####vmdk文件转换为相应的文件(.qcow2.raw) 1)novalist--all-tenants2)cinderlist--all-tenants|grep对应ID3)rbdsnapcreatepaas_dev_volumes/volume-对应VMID@bitnami-espocrm-ubuntu20144)rbdexportpaas_dev_volumes/volume-对应ID@bitnami-espocrm-u..
分类:其他好文   时间:2014-07-26 03:22:07    阅读次数:230
我所写的CNN框架 VS caffe
一个月前,自己模仿caffe实现了一个卷积神经网络的框架。 一个月前,自己模仿caffe实现了一个卷积神经网络的框架。 相同点 1无缝支持CPU和GPU模式,GPU模式使用cuda实现。 不同点 1我的CNN不依赖与任何第三方的函数库,caffe用到了第三方的数学函数库(cublas和mkl)来做矩阵操作。 其实区别就在于...
分类:其他好文   时间:2014-07-26 02:17:46    阅读次数:334
机器学习与数据挖掘中的十大经典算法
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:...
分类:其他好文   时间:2014-07-26 01:15:56    阅读次数:248
对数据方向的一些感慨
本来以为可以将《实战机器学习》的代码全部实现完,殊不知到了支持向量机这一章,仅是为了理清概念,我找出高数线代概统重识拉格朗日乘数、向量空间、最小二乘法,为了理解非线性情况时用到的核技术去查阅曼瑟定理...
分类:其他好文   时间:2014-07-25 00:00:26    阅读次数:290
大数据时代的机器学习
张长水:大数据时代的机器学习 VS 传统机器学习 从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战: 数据量大导致计算困难 分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。 大数据时代给机器学习带来新的机遇: 在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。 大数据使样本空间原本“空旷”的区域出现样本,...
分类:其他好文   时间:2014-07-24 23:37:33    阅读次数:370
概念介绍(机器学习)
似然函数:似然函数在形式上就概率密度函数。 似然函数用来估计某个参数。最大似然函数:就是求似然函数的最大值。 最大似然函数用于估计最好的参数。最小二乘法:它通过最小化误差的平方和寻找数据的最佳函数匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方,然后求系数的偏导数,令导数为0,求...
分类:其他好文   时间:2014-07-24 22:50:53    阅读次数:261
集成学习 概念介绍
集成学习(Esemble learning) 在机器学习领域,如何根据观察数据学习一个精确的估计数据是一个主要问题。 通常,我们通过训练数据应用某个算法得出一个训练模型,然后使用评估数据来评估这个模型的预测正确率,最后如果我们可以接受这个正确率就使用该模型进行预测数据。通常我们将训练数据进行交叉.....
分类:其他好文   时间:2014-07-24 17:32:05    阅读次数:234
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!