这篇文章直接给出上次关于Kmeans聚类的篮球远动员数据分析案例,同时介绍这次作业同学们完成的图例,最后介绍Matplotlib包绘图的优化知识。希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大...
分类:
编程语言 时间:
2016-10-12 11:44:21
阅读次数:
419
介绍KNN有监督分类以及Kmeans无监督聚类的原理以及简单实践例子。 ...
分类:
编程语言 时间:
2016-10-01 17:25:38
阅读次数:
297
K近邻应用-异常检测应用 原理: 根据数据样本进行KMeans机器学习模型的建立,获取簇心点,以簇为单位,离簇心最远的第五个点的距离为阈值,大于这个值的为异常点,即获得数据异常。 如图: 数据样本: 数据样本的数据格式为:标号,特征值1,特征值2(没有具体含义,自动生成的数据只为能够简单的说明异常检 ...
分类:
其他好文 时间:
2016-09-18 23:30:33
阅读次数:
252
kmeans一般在数据分析前期使用,选取适当的k,将数据聚类后,然后研究不同聚类下数据的特点。 算法原理: (1) 随机选取k个中心点; (2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类; (3) 更新中心点为每类的均值; (4) j<-j+1 ,重复(2)(3)迭代更新,直至误差 ...
分类:
编程语言 时间:
2016-09-04 19:11:31
阅读次数:
2057
一、环境搭建 1. 下载 mahout-0.9-cdh5.3.6.tar.gz 2. 解压 3. mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job hdfs dfs -ls /output 转换成普通文本 hdfs dfs ...
分类:
其他好文 时间:
2016-08-31 18:42:21
阅读次数:
133
# -*- coding: utf-8 -*- """ Created on Thu Aug 11 18:54:12 2016 @author: Administrator """ import numpy as np import matplotlib.pyplot as plt from skl ...
分类:
其他好文 时间:
2016-08-11 22:24:47
阅读次数:
434
1 # coding:utf-8 2 import numpy as np 3 import matplotlib.pyplot as plt 4 5 def dis(x, y): #计算距离 6 return np.sum(np.power(y - x, 2)) 7 8 def dataN(len ...
分类:
编程语言 时间:
2016-07-20 09:08:42
阅读次数:
409
Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。 首先举一个聚类方面的详细应用例子Kmeans: 下面代码是一些基 ...
分类:
其他好文 时间:
2016-07-08 21:31:18
阅读次数:
611
原题采用Kmeans方法对西瓜数据集进行聚类。我花了一些时间居然没找到西瓜数据集4.0在哪里,于是直接采用sklearn给的例子来分析一遍,更能说明Kmeans的效果。 运行文本结果: 图片结果: ...
分类:
其他好文 时间:
2016-07-06 23:21:56
阅读次数:
345
首先,简单介绍下k-means聚类:效果简单有效,易于map—reduce化 算法思路:1、选择k个点作为原始的质心(k如何定) 2、将每个点指派到最近的质心,形成k个簇 3、重新计算每个簇的质心(x,y坐标的均值)--[新的质心不一定为样本点哦] 4、迭代2、3步直到簇心收敛于某一个阈值 优缺点: ...
分类:
其他好文 时间:
2016-07-06 20:19:22
阅读次数:
263