入门级聚类: 一个班级有30学生,每个学生10张不同照片,将这300张照片打乱,聚类就是在不告诉机器任何学生信息,仅凭对300张照片的学习,然后把它分成10类;分类 一个班级有30学生,每个学生10张不同照片,每张照片上面写了该同学的名字,分类就是机器对这300张照片和照片上的名字进行学习,形成.....
分类:
其他好文 时间:
2014-09-19 23:44:46
阅读次数:
379
源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与监督学习(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)聚类算法的一般过程分为:1. 读入需预测样本2. 初始化聚类算...
分类:
其他好文 时间:
2014-09-18 20:18:04
阅读次数:
381
之前一直想读这篇,今天读了一下,颇有收获:
1.对文档按相似term聚类之后,delta较小,可以提高压缩率(similarity graph)
1.GPU一般可以有几百个核,有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢
2.有序数组上的搜索算法除了binary search还有interplati...
分类:
其他好文 时间:
2014-09-18 00:52:07
阅读次数:
239
印象笔记同步分享:Machine Learning—分类和聚类,监督学习和非监督学习...
分类:
其他好文 时间:
2014-09-14 01:24:16
阅读次数:
193
最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。...
分类:
其他好文 时间:
2014-09-13 00:51:24
阅读次数:
420
企业应有一个硬性的“目标”这个说法,我们听得越来越多——但那又是什么意思?
难道还没有足够多的标签,来描述企业的方向么?我们还需要另一个标签么? 我认为我们需要,并且我已汇总聚类来帮助区分所有这些标签。 一个形象的说法就是,一个企业想在未来变成什么样子?
这通常由高级管理描绘,也通过用一种清晰可回顾的方式努力思考日常活动之外的事来完成。比如,一家瑞典的叫做爱立信的公司就这样定义其愿景:...
分类:
其他好文 时间:
2014-09-11 11:15:41
阅读次数:
361
Spark之所以万人瞩目,除了内存计算,还有其ALL-IN-ONE的特性,实现了One stack rule them all。下面简单模拟了几个综合应用场景,不仅使用了sparkSQL,还使用了其他Spark组件:
店铺分类,根据销售额对店铺分类货品调拨,根据货品的销售数量和店铺之间的距离进行货品调拨
前者将使用sparkSQL+MLlib的聚类算法,后者将使用s...
分类:
数据库 时间:
2014-09-11 09:39:41
阅读次数:
292
与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方...
分类:
其他好文 时间:
2014-09-10 00:13:09
阅读次数:
297
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。
1:kmeans算法
Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:
其他好文 时间:
2014-09-09 16:17:19
阅读次数:
234