从 2011 年起,友盟就组建专业的数据挖掘团队,着手于对友盟平台数据金矿的挖掘和分析。12 月 9 日,友盟正式开放“数据工场”体系,将挖掘出的数据成果反哺给开发者。问题来了,友盟数据工场是如何运作的?它能为开发者带来哪些价值?附友盟高级技术总监叶谦在发布会的演讲实录:成立四年,友盟围绕数据做了什...
分类:
其他好文 时间:
2014-12-12 18:35:27
阅读次数:
219
今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法。
首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点)
Step1:选择K个点作为初始质心;
Step2:将剩余每个点指派到最近的质心,形成K个簇(聚类);
Step3:重新计算簇的...
分类:
编程语言 时间:
2014-12-12 11:47:35
阅读次数:
277
问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用.
答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等算法(出自丁信宙,仇环,苏晓庆. 基于云理论的缺损数据推理和预测 山东理工大学学报 2006年11月)。除此以外还有老师课件上提到的聚类检测,决策树方法等。
以下对于一...
分类:
其他好文 时间:
2014-12-11 00:24:07
阅读次数:
265
前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道
聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离:
绝对值距离(又称棋盘距离或城市街区距离)
Euclide距离(欧几里德距离,通用距离)
Minkowski 距离(闵可夫斯基距离),欧...
分类:
编程语言 时间:
2014-12-10 18:12:05
阅读次数:
280
原文地址:http://blog.csdn.net/taigw/article/details/194072972006年的ICDM(the IEEE International Conference on Data Mining) 上,评选出了数据挖掘领域的十大算法,分别是1,C4.5 C4.5是...
分类:
编程语言 时间:
2014-12-10 10:33:12
阅读次数:
236
大四了,以后做作业的次数也越来越少了。最近很多课程都到尾声了,都要交作业了,忙碌了两个星期,今天算是把这些课程的作业做好了...
分类:
其他好文 时间:
2014-12-09 17:51:12
阅读次数:
488
http://www.sogou.com/labs/dl/q.html 搜狗提供的web日志http://blog.csdn.net/discxuwei/article/details/5769480 一些论文
分类:
其他好文 时间:
2014-12-09 17:32:22
阅读次数:
145
上期与大家分享的传统分类算法都是建立在判别函数的基础上,通过判别函数值来确定目标样本所属的分类,这类算法有个最基本的假设:线性假设。今天继续和大家分享下比较现代的分类算法:决策树和神经网络。这两个算法都来源于人工智能和机器学习学科。
首先和小伙伴介绍下数据挖掘领域比较经典的Knn(nearest neighbor)算法(最近邻算法)
算法基本思想:
Step1:计算出待测样本与学习集中所有点...
分类:
编程语言 时间:
2014-12-09 10:40:01
阅读次数:
322
content概述文字识别系统LeNet-5简化的LeNet-5系统卷积神经网络的实现问题深度神经网路已经在语音识别,图像识别等领域取得前所未有的成功。本人在多年之前也曾接触过神经网络。本系列文章主要记录自己对深度神经网络的一些学习心得。第二篇,讲讲经典的卷积神经网络。我不打算详细描述卷积神经网络的...
分类:
其他好文 时间:
2014-12-09 00:25:41
阅读次数:
442
相关链接http://blog.csdn.net/column/details/datamining.html通俗理解LDA主题模型http://blog.csdn.net/v_july_v/article/details/41209515从贝叶斯方法谈到贝叶斯网络http://blog.csdn....
分类:
编程语言 时间:
2014-12-08 12:10:58
阅读次数:
293