码迷,mamicode.com
首页 > 编程语言 > 详细

初学Mahout测试kmeans算法

时间:2016-11-05 17:28:43      阅读:253      评论:0      收藏:0      [点我收藏+]

标签:数据   apache   arch   art   手动   tab   arc   自动   自动生成   

预备工作:

启动hadoop集群

准备数据

Synthetic_control.data数据集下载地址
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

在集群中创建 /user/root/testdata 目录,必须是这个目录,不能改变,若是改变的话,得对应的去改变源码。

将准备好的数据上传到集群的/user/root/testdata下。

预备工作结束。

正式测试:

运行:[hadoop001@hadoop001 apache-mahout-distribution-0.12.2]$ hadoop jar mahout-examples-0.12.2-job.jar  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

查看测试结果:

将集群上面的测试结果下载到本地中进行预览。

运行:mahout seqdumper -i output/data/part-m-00000 -o /opt/data/testdata

testdata: 文件名,自动定义。不需要去目录中手动创建,自动生成。

 

初学Mahout测试kmeans算法

标签:数据   apache   arch   art   手动   tab   arc   自动   自动生成   

原文地址:http://www.cnblogs.com/goodcheap/p/6033410.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!