#聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是:#事先不知道类别的个数与结构 据以进行分类的数据是对象之间的相似性
或差异性数据#将这些相似(相异)性数据看成是对象之间的距离远近的一种度量 将距离近的对象#归入一类
不同类之间的对象距离较远#聚类分析根据分类对象不同分为Q...
分类:
其他好文 时间:
2014-05-27 02:31:43
阅读次数:
304
第一部分:
学习Mahout必须要知道的资料查找技能:
学会查官方帮助文档:
解压用于安装文件(mahout-distribution-0.6.tar.gz),找到如下位置,我将该文件解压到win7的G盘mahout文件夹下,路径如下所示:
G:\mahout\mahout-distribution-0.6\docs
学会查源代码的注释文档:
方案一:用ma...
分类:
其他好文 时间:
2014-05-22 10:37:07
阅读次数:
388
这篇文章不提原理,讲讲hadoop及其周边项目的作用。
hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?
官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了...
分类:
其他好文 时间:
2014-05-22 10:34:39
阅读次数:
288
大数据的热门使得很多人都想往这个方向发展,做一些像数据挖掘,数据分析之类的工作。但是该从何开始呢?要怎样才能快速学到一些有用的知识,技能呢?我觉得有三个切入点,依照个人特点可以自行选择顺序切入。...
分类:
其他好文 时间:
2014-05-22 10:33:54
阅读次数:
232
机器学习入门教材有许多,入门方式多种多样,我是半路出家,简单总结一下我的机器学习之路。2011年考入北邮计算机研究生学院,主要是NLP方向。之前没有接触过机器学习,本科也不是计算机专业,而是工商管理。
2011年研究生阶段,两节课对我影响很大:
第一节课是计算语言学,最开始了解和接触机器学习,是在上这节课的时候,老师推荐的教材《统计自然语言处理基础》。在老师的课上,有讲到HMM(隐马尔...
分类:
其他好文 时间:
2014-05-22 08:24:51
阅读次数:
307
伪代码: 将所有点看成一个簇当簇数目小于k时对于每一个簇 计算总误差
在给定的簇上面进行k-均值聚类(k=2) 计算将该簇一分为二之后的总误差选择使得误差最小的那个簇进行划分操作 def biKmeans(dataSet,k):
m=np.shape(dataSet)[0] clusterAssme...
分类:
其他好文 时间:
2014-05-21 21:57:08
阅读次数:
461
语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科。语音技术的目的:
得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。
语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。脉冲编码调制(PC...
分类:
其他好文 时间:
2014-05-21 21:53:13
阅读次数:
320
实际上,您可以把索引理解为一种特殊的目录。微软的SQLSERVER提供了两种索引:聚集索引(clustered
index,也称聚类索引、簇集索引)和非聚集索引(nonclustered
index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别: 其实,我们的汉语...
分类:
数据库 时间:
2014-05-21 19:07:30
阅读次数:
286
//====================================================决策树的构造:构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用。为了找到决定性特征,我们必须使用某种度量来评估每个特征。完成评估之后,找到决定性特征,使用该特...
分类:
其他好文 时间:
2014-05-21 18:05:53
阅读次数:
343
k邻近算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、没有数据输入假定;缺点:计算复杂度高、空间复杂度高(占内存);使用数据范围:数值型和标称型。
k-邻近算法的工作原理是:存在一个训练样本集,并且每个数据都存在标签,即我们知道每个数据都对应的哪个分类。输入一个没有标签的新数据,将新数据的每个特征和样本集中的所有数据进行笔记哦啊,提取出样本集中特征最相似(邻近)的分类...
分类:
编程语言 时间:
2014-05-20 16:54:05
阅读次数:
534