K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase
二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL
2.3 HBase中的数据导出到mysql
目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。
三、使用Sqoop将Orac...
分类:
数据库 时间:
2014-05-26 05:48:46
阅读次数:
304
对于开源的东东,尤其是刚出来不久,我觉得最好的学习方式就是可以看源码和doc,测试它的例子
为了方便查看源码,关联导入源码的项目
block数据块,在配置文件hdfs-default.xml中可以查看到,记住要修改不是在这里
block文件存储块是最基本的单位
查看block存放位置,配置文件中查看
如果文件大于64M会占两个块,meta文件是校验...
分类:
其他好文 时间:
2014-05-26 05:30:58
阅读次数:
227
写在前面一:
本文总结“Hadoop生态系统”中的其中一员——Apache Flume
写在前面二:
所用软件说明:
一、什么是Apache Flume
官网:Flume is a distributed, reliable, and available
service for efficiently
collecting, aggregating, and m...
分类:
其他好文 时间:
2014-05-26 04:32:10
阅读次数:
359
FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数,该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数,然后计算该cluster是否收敛,输出cluster。...
分类:
其他好文 时间:
2014-05-26 04:12:39
阅读次数:
302
QQ群:136924235
论坛:http://bbs.shareku.com
对于移动或删除jobs,只需要简单地移动或删除%JENKINS_HOEM%\jobs目录。
对于修改jobs的名字,只需要简单地修改%JENKINS_HOEM%\jobs下对应job的文件夹的名字。
对于不经常使用的job,只需要对%JENKINS_HOEM%\jobs下对应的jobs的目录zip或tar后存储到其他的地方。...
分类:
Web程序 时间:
2014-05-25 01:09:27
阅读次数:
345
eclipse工程中.classpath文件含义: 下面是一个.classpath文件内容: 说明:
1、 含义:本工程的源码所在地路径--》在当前工程路径下的src文件下 2、 含义:本工程所要应用的外部jar包,具体路径是G:/java_ocr/...
分类:
编程语言 时间:
2014-05-24 13:04:07
阅读次数:
286
转自:http://www.blogjava.net/mydearvivian/articles/246028.html在RCP程序中,常碰到某个线程执行时间比较很长的情况,若处理不好,用户体验度是很糟糕的,如用户点了一个功能按钮后,进入功能执行,发现程序长时间没有任何响应,无疑这种情况下,用户是无...
分类:
编程语言 时间:
2014-05-24 11:29:44
阅读次数:
297
hadoop安装计大体上按这个做就好了http://blog.csdn.net/hitwengqi/article/details/8008203需要修改hadoop-env.shexport
JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64export PAT...
分类:
其他好文 时间:
2014-05-24 11:17:22
阅读次数:
210
最近在网上查看用MapReduce实现的Kmeans算法,例子是不错,http://blog.csdn.net/jshayzf/article/details/22739063但注释太少了,而且参数太多,如果新手学习的话不太好理解。所以自己按照个人的理解写了一个简单的例子并添加了详细的注释。大致的步...
分类:
其他好文 时间:
2014-05-24 10:41:01
阅读次数:
315