搜索关键字：机器学习决策树 id3 c4.5 cart，搜索到10675个结果！码迷,mamicode.com！

监督式学习 -- 分类决策树（一）

信息熵和信息增益一、信息熵信息熵是信息论中的基本概念。信息论由Shannon于1948年提出并发展起来，用于解决信息传递过程中的问题，也称统计通信理论。它认为： 1、信息传递由信源、信道和信宿组成； 2、传递系统存在于一个随机干扰环境中，因此传递系统对信息的传递是随机误差的。如果把发送信息记为U而接收到信息记 V，由信道可记为通信模型，为P(U|V)。信道模型是一个条件...

分类：其他好文时间：2014-07-28 00:03:29 阅读次数：451

3 分钟学会调用 Apache Spark MLlib KMeans

Apache Spark MLlib是Apache Spark体系中重要的一块拼图：提供了机器学习的模块。不过，目前对此网上介绍的文章不是很多。拿KMeans来说，网上有些文章提供了一些示例程序，而这些程序基本和Apache Spark 官网上的程序片断类似：在得到训练模型后，几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断，写了一个完整的调用MLlib KMeans库的测试程序，并成功在Spark 1.0 + Yarn 2.2 的...

分类：其他好文时间：2014-07-28 00:01:39 阅读次数：343

一步一步入门机器学习之四：约束玻尔兹曼机（RBM）

约束玻尔兹曼机（RBM）是一类具有两层结构、对称连接无自反馈的随机神经网络模型，层与层之间是全连接，层内无连接，它是一种有效的特征提取方法，常用于初始化前馈神经网络，可明显提高泛化能力。而由多个RBM结构堆叠而成的深度信念网络（DBN）能提取出更好更抽象的特征，从而用来分类。...

分类：其他好文时间：2014-07-27 11:48:43 阅读次数：221

openstack杂烩

qemu-imgconvert-Oqcow2####vmdk文件转换为相应的文件（.qcow2.raw） 1)novalist--all-tenants2)cinderlist--all-tenants|grep对应ID3)rbdsnapcreatepaas_dev_volumes/volume-对应VMID@bitnami-espocrm-ubuntu20144)rbdexportpaas_dev_volumes/volume-对应ID@bitnami-espocrm-u..

分类：其他好文时间：2014-07-26 03:22:07 阅读次数：230

我所写的CNN框架 VS caffe

一个月前，自己模仿caffe实现了一个卷积神经网络的框架。一个月前，自己模仿caffe实现了一个卷积神经网络的框架。相同点 1无缝支持CPU和GPU模式，GPU模式使用cuda实现。不同点 1我的CNN不依赖与任何第三方的函数库，caffe用到了第三方的数学函数库（cublas和mkl）来做矩阵操作。其实区别就在于...

分类：其他好文时间：2014-07-26 02:17:46 阅读次数：334

机器学习与数据挖掘中的十大经典算法

机器学习与数据挖掘中的十大经典算法背景：top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告，会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好，开始着手解决这个事情。找了一系列的大牛（都是数据挖掘的大牛），都觉得想法很好，但是都不愿自己干。原因估计有一下几种：...

分类：其他好文时间：2014-07-26 01:15:56 阅读次数：248

对数据方向的一些感慨

本来以为可以将《实战机器学习》的代码全部实现完，殊不知到了支持向量机这一章，仅是为了理清概念，我找出高数线代概统重识拉格朗日乘数、向量空间、最小二乘法，为了理解非线性情况时用到的核技术去查阅曼瑟定理...

分类：其他好文时间：2014-07-25 00:00:26 阅读次数：290

大数据时代的机器学习

张长水：大数据时代的机器学习 VS 传统机器学习从机器学习角度看，“大数据”指的是数据量大，数据本身不够精确，数据混杂，数据自然产生。机器学习对大数据的处理的两个挑战：数据量大导致计算困难分布在不同服务器上的数据存在一定联系，这些数据基本上不满足“独立同分布”假设，传统的模型和算法很难适应。大数据时代给机器学习带来新的机遇：在某些应用条件下，高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。大数据使样本空间原本“空旷”的区域出现样本，...

分类：其他好文时间：2014-07-24 23:37:33 阅读次数：370

概念介绍（机器学习）

似然函数：似然函数在形式上就概率密度函数。似然函数用来估计某个参数。最大似然函数：就是求似然函数的最大值。最大似然函数用于估计最好的参数。最小二乘法：它通过最小化误差的平方和寻找数据的最佳函数匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方，然后求系数的偏导数，令导数为0，求...

分类：其他好文时间：2014-07-24 22:50:53 阅读次数：261

集成学习概念介绍

集成学习（Esemble learning）在机器学习领域，如何根据观察数据学习一个精确的估计数据是一个主要问题。通常，我们通过训练数据应用某个算法得出一个训练模型，然后使用评估数据来评估这个模型的预测正确率，最后如果我们可以接受这个正确率就使用该模型进行预测数据。通常我们将训练数据进行交叉.....

分类：其他好文时间：2014-07-24 17:32:05 阅读次数：234

共10675条上一页 1 ... 1040 1041 1042 1043 1044 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)