1.什么是聚类 聚类:数据对象的集合/蔟 2.聚类的一般应用 模式识别 空间数据分析 图象处理 经济科学 3.聚类方法 数据挖掘对聚类的要求 4.聚类分析中的数据类型 数据结构 相异度矩阵 评估聚类的质量 区间标度变量 对象之间的相似性/相异性 二元变量,对称的,不对称的 标称变量-分类变量,名义变 ...
分类:
其他好文 时间:
2019-05-16 12:24:01
阅读次数:
126
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法。 ...
分类:
编程语言 时间:
2019-05-14 11:29:37
阅读次数:
215
介绍基于距离的K均值聚类以及基于密度的DBSCAN这两种聚类算法的原理,并且介绍了DBSCAN的一种改进算法HDBSCAN的原理 ...
分类:
数据库 时间:
2019-05-14 00:54:11
阅读次数:
307
这篇博客整理K均值聚类的内容,包括: 1、K均值聚类的原理; 2、初始类中心的选择和类别数K的确定; 3、K均值聚类和EM算法、高斯混合模型的关系。 一、K均值聚类的原理 K均值聚类(K-means)是一种基于中心的聚类算法,通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和 ...
分类:
编程语言 时间:
2019-05-13 14:14:06
阅读次数:
763
概要 原文参考链接:https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68 聚类是常用于机器学习中的将数据分组合并的方法。聚类是一种非监督学习方法,其目的旨 ...
分类:
其他好文 时间:
2019-05-12 10:21:55
阅读次数:
114
相比其他的聚类方法,基于密度的聚类方法可以在有噪音的数据中发现各种形状和各种大小的簇。DBSCAN(Ester, 1996)是该类方法中最典型的代表算法之一。 ...
分类:
编程语言 时间:
2019-05-11 18:20:34
阅读次数:
192
# coding = utf-8 from sklearn.feature_selection import VarianceThreshold from sklearn.decomposition import PCA ''' 数据降维:特征的数量减少(即columns减少) 1、特征选择原因: ... ...
分类:
其他好文 时间:
2019-05-10 23:21:21
阅读次数:
145
1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不 ...
分类:
其他好文 时间:
2019-05-09 15:29:52
阅读次数:
89
算法: 1、字符串匹配的三个算法(KMP+字典树+AC自动机) 2、KNN邻近分类算法 3、聚类算法 4、决策树算法 ...
分类:
其他好文 时间:
2019-05-04 12:10:28
阅读次数:
178
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_blobs def create_data(centers,num=100,std=0.7):... ...
分类:
编程语言 时间:
2019-04-30 23:36:18
阅读次数:
355