决策树也是最经常使用的数据挖掘算法,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子)。判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支)。决策树的生成过程就是一个数据集不断被划分的过程,划分数据集的最大原则是:使无序的数据变的有序。如果一个训练数据中有20个特征,那么选取哪个做划分依据?这就必须采用量化的方法来判断,量化划分方法有多重,其中一项就是“信息论度量信息分类”。基于信息论的决策树算法有ID3、CART和C4.5等算法,其中C4.5和CART两...
分类:
编程语言 时间:
2014-12-14 20:03:24
阅读次数:
661
今天主要学习了神经网络中一个重要的算法--BP(back propagation)它是一个前馈网络,就是神经元的输出是向前传播的;其名字的意思是指最后输出的误差经由神经网络后向传播,影响每一级的权值简单的说其思想就是:信号的正向传播 ----> 误差的反向传播;将输出误差以某种形式通过隐层向输入层逐...
分类:
其他好文 时间:
2014-12-14 18:35:09
阅读次数:
146
对于上次说的LSA模型,它能解决多个单词一个意义,但是不能解决多个意义一个单词,就是多义词的问题,而PLSA模型能较好的解决这个问题,首先说下,这个模型的假设:
1 假设生成一个单词的过程是这样的:首先选择一篇文章di,然后再次基础上选择一个潜变量zk,最后在此基础上再在选择一个单词。如果p(di,wj)表示第i个文本中第j个单词的概率,根据假设有:
2 另外一个非常重要的假设是,单词wj...
分类:
其他好文 时间:
2014-12-13 21:55:00
阅读次数:
308
2014中国大数据技术大会 会议记录:1、落地、跨界、效率、领导见面就谈大数据;2、大数据成为主流产业需要5到10年;3、数据是表象,实质是问题;4、Doug Cutting:Fuel for change:data, EDH, Style catches on:ecosySystem, the Data Multi-Tool, Cloudera; 1、白皮书,发展趋势;2、融合,跨界,基础,突破...
分类:
其他好文 时间:
2014-12-13 20:36:12
阅读次数:
246
上一次刚写了LSA模型,本来这次想写PLSA模型,但是由于PLSA模型是需要用到EM算法的,所以这里我想先解释下EM算法,...
分类:
编程语言 时间:
2014-12-13 12:19:51
阅读次数:
195
智能:
智能这个词可以用很多方法去定义。这里我们把它定义为能够根据某些情况做出正确的决定。做出好的决策需要知识,并且这种知识必须是一种可操作的,例如解释传感器数据并且使用它去做决策。
人工智能:
感谢那些人类曾经写过的程序,允许这些程序去做一些我们认为有用的事情。在这种情况下,计算机已经获得了某种程度的智能。在21世纪的开始的时候了,仍然有很多任务,人和动物可以很简单做到,而计算机却...
分类:
其他好文 时间:
2014-12-13 10:55:28
阅读次数:
181
朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型;当各特征相关性较小时,朴素贝叶斯分类性能最为良好。另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算。本文详述了朴素贝叶斯分类的统计学原理,并在文本分类中...
分类:
编程语言 时间:
2014-12-12 20:56:48
阅读次数:
1004
关于dual的相关知识,这套理论不仅适用于SVM的优化问题,而是对于所有带约束的优化问题都适用,是优化理论中的一个重要部分。(也许你觉得一个IT人优化问题不重要,其实你仔细想想,现实中的很多问题,都是在有条件约束的情况下的求最优的问题)...
分类:
其他好文 时间:
2014-12-12 19:07:40
阅读次数:
297
关于人脸检测算法Adaboost+Haar-like的理解和相关介绍...
分类:
其他好文 时间:
2014-12-12 13:22:54
阅读次数:
407