孙其功陪你学之——Spark MLlib之K-Means聚类算法

时间：2015-03-18 18:00:39 阅读：466 评论：0 收藏：0 [点我收藏+]

标签：mllib spark scala

看到程序员的自我修养 – SelfUp.cn 里面有Spark MLlib之K-Means聚类算法。

但是是java 语言的，于是我按照例程用Scala写了一个，分享在此。

由于在学习 spark mllib 但是如此详细的资料真的很难找，在此分享。

测试数据

0.0 0.0 0.0

0.1 0.1 0.1

0.2 0.2 0.2

9.0 9.0 9.0

9.1 9.1 9.1

9.2 9.2 9.2

15.1 15.1 15.1

18.0 17.0 19.0

20.0 21.0 22.0

package com.spark.firstApp

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
object HelloSpark {
def main(args:Array[String]): Unit = {
val conf = new SparkConf().setAppName("SimpleSVM Application")
val sc = new SparkContext(conf)
val data = sc.textFile("hdfs://192.168.0.10:9000/user/root/home/data1.txt")
val parsedData = data.map(s => Vectors.dense(s.split(‘ ‘).map(_.toDouble))).cache()
// Cluster the data into two classes using KMeans
val numClusters = 2
val numIterations = 20
val clusters = KMeans.train(parsedData, numClusters, numIterations)
// Evaluate clustering by computing Within Set Sum of Squared Errors
val WSSSE = clusters.computeCost(parsedData)
println("Within Set Sum of Squared Errors = " + WSSSE)
println("Prediction of (1.1, 2.1, 3.1): " + clusters.predict(Vectors.dense(1.1, 2.1, 3.1)))
}
}

孙其功陪你学之——Spark MLlib之K-Means聚类算法

标签：mllib spark scala

原文地址：http://blog.csdn.net/a350203223/article/details/44416663

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行