信息熵和信息增益
一、信息熵
信息熵是信息论中的基本概念。信息论由Shannon于1948年提出并发展起来,用于解决信息传递过程中的问题,也称统计通信理论。它认为:
1、信息传递由信源、信道和信宿组成;
2、传递系统存在于一个随机干扰环境中,因此传递系统对信息的传递是随机误差的。如果把发送信息记为U而接收到信息记 V,由信道可记为通信模型,为P(U|V)。信道模型是一个条件...
分类:
其他好文 时间:
2014-07-28 00:03:29
阅读次数:
451
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343
约束玻尔兹曼机(RBM)是一类具有两层结构、对称连接无自反馈的随机神经网络模型,层与层之间是全连接,层内无连接,它是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆叠而成的深度信念网络(DBN)能提取出更好更抽象的特征,从而用来分类。...
分类:
其他好文 时间:
2014-07-27 11:48:43
阅读次数:
221
qemu-imgconvert-Oqcow2####vmdk文件转换为相应的文件(.qcow2.raw) 1)novalist--all-tenants2)cinderlist--all-tenants|grep对应ID3)rbdsnapcreatepaas_dev_volumes/volume-对应VMID@bitnami-espocrm-ubuntu20144)rbdexportpaas_dev_volumes/volume-对应ID@bitnami-espocrm-u..
分类:
其他好文 时间:
2014-07-26 03:22:07
阅读次数:
230
一个月前,自己模仿caffe实现了一个卷积神经网络的框架。
一个月前,自己模仿caffe实现了一个卷积神经网络的框架。
相同点
1无缝支持CPU和GPU模式,GPU模式使用cuda实现。
不同点
1我的CNN不依赖与任何第三方的函数库,caffe用到了第三方的数学函数库(cublas和mkl)来做矩阵操作。
其实区别就在于...
分类:
其他好文 时间:
2014-07-26 02:17:46
阅读次数:
334
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:...
分类:
其他好文 时间:
2014-07-26 01:15:56
阅读次数:
248
本来以为可以将《实战机器学习》的代码全部实现完,殊不知到了支持向量机这一章,仅是为了理清概念,我找出高数线代概统重识拉格朗日乘数、向量空间、最小二乘法,为了理解非线性情况时用到的核技术去查阅曼瑟定理...
分类:
其他好文 时间:
2014-07-25 00:00:26
阅读次数:
290
张长水:大数据时代的机器学习 VS 传统机器学习
从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:
数据量大导致计算困难
分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。
大数据时代给机器学习带来新的机遇:
在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
大数据使样本空间原本“空旷”的区域出现样本,...
分类:
其他好文 时间:
2014-07-24 23:37:33
阅读次数:
370
似然函数:似然函数在形式上就概率密度函数。 似然函数用来估计某个参数。最大似然函数:就是求似然函数的最大值。 最大似然函数用于估计最好的参数。最小二乘法:它通过最小化误差的平方和寻找数据的最佳函数匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方,然后求系数的偏导数,令导数为0,求...
分类:
其他好文 时间:
2014-07-24 22:50:53
阅读次数:
261
集成学习(Esemble learning) 在机器学习领域,如何根据观察数据学习一个精确的估计数据是一个主要问题。 通常,我们通过训练数据应用某个算法得出一个训练模型,然后使用评估数据来评估这个模型的预测正确率,最后如果我们可以接受这个正确率就使用该模型进行预测数据。通常我们将训练数据进行交叉.....
分类:
其他好文 时间:
2014-07-24 17:32:05
阅读次数:
234