前言:机器学习所使用的数据大多具有很多的特征,想要直观的对数据的分布和特征之间的关系进行观测,需要将数据的主要特征提取出来,降低到三维及三维以下的空间来展示。 PCA(主成分分析)是常用的用于降维的方法,本文通过PCA对数据进行降维,再对降维后的数据用K-means算法聚类,以达到在低维空间可直观观 ...
分类:
其他好文 时间:
2019-07-19 21:20:35
阅读次数:
141
对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。 比如对于如 ...
分类:
编程语言 时间:
2019-07-19 19:16:30
阅读次数:
251
在BIRCH聚类算法原理中,我们对BIRCH聚类算法的原理做了总结,本文就对scikit-learn中BIRCH算法的使用做一个总结。# 一、scikit-learn之BIRCH类 在scikit-learn中,BIRCH类实现了原理篇里讲到的基于特征树CF Tree的聚类。因此要使用BIRCH来聚... ...
分类:
其他好文 时间:
2019-07-19 19:15:36
阅读次数:
114
在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。# 一、scikit-learn中的DBSCAN类 在scikit-learn中,DBSCAN算法类为sklearn.c... ...
分类:
数据库 时间:
2019-07-19 19:06:48
阅读次数:
126
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的... ...
分类:
编程语言 时间:
2019-07-19 19:06:36
阅读次数:
104
谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法... ...
分类:
其他好文 时间:
2019-07-19 18:55:16
阅读次数:
98
在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。# 一、K-Means类概述 在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KM... ...
分类:
其他好文 时间:
2019-07-19 18:40:13
阅读次数:
76
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用... ...
分类:
数据库 时间:
2019-07-19 18:35:45
阅读次数:
132
聚类凝聚度和K值得选择 在聚类分析中,有的时候数据数量过多,我们用拐点发选择K值,横轴为聚类簇数的变化,纵轴为数据的凝聚度(SSE方差),当凝聚度的大小随着K值得增多降低数量较小时,证明,K值得增加对凝聚度的影响变小,那么选择拐点的K值是可行的,因为继续增加K值,对分类的准确度增加不高,但是会增加分 ...
分类:
其他好文 时间:
2019-07-16 12:39:04
阅读次数:
134
聚类算法: K 均值聚类(K Means) K 中心点聚类(K Meaoids) 密度聚类(Densit based Spatial Clustering of Application with Noise,DBSCAN) 系谱聚类(Hierarchical Clustering) 期望最大化聚类( ...
分类:
编程语言 时间:
2019-07-12 12:54:03
阅读次数:
178