论文作者:Natthakan Iam-On, Tossapon Boongoen, Simon Garrett, and Chris Price 下次还是在汇报前先写了论文总结,不然有些点汇报时容易忘了说,以前看的论文看补不补上来吧,有时间再说。前言: 这篇论文是关于聚类集成的,成熟的聚类集成框.....
分类:
移动开发 时间:
2014-12-02 13:23:01
阅读次数:
527
今天,我要介绍我们早就知道的一种分布,它叫做高斯分布。高斯分布在概率论中算是比较核心的一种分布了,而在机器学习中,高斯分布也随处可见,比如单高斯模型,高斯混合模型,高斯过程等等,它们都是基于高斯分布的。作为理解连续性随机变量的基础和深入理解在机器学习中的广泛应用,高斯分布是十分有必要学习的。
高斯分布又叫做正态分布,高斯分布概率密度函数的函数形式是由德国著名的天才数学家、统计学家、物理学家...
分类:
其他好文 时间:
2014-12-02 11:50:57
阅读次数:
262
原文:《BI那点儿事》数据挖掘各类算法——准确性验证准确性验证示例1:——基于三国志11数据库
数据准备:
挖掘模型:依次为:Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:
依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归...
分类:
编程语言 时间:
2014-12-02 10:32:29
阅读次数:
222
原文:《BI那点儿事》Microsoft 顺序分析和聚类分析算法Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相...
分类:
编程语言 时间:
2014-12-02 10:13:58
阅读次数:
201
原文:《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在三国数据分析中,很多问题可以借助聚类...
分类:
编程语言 时间:
2014-12-02 10:12:47
阅读次数:
115
准确性验证示例1:——基于三国志11数据库数据准备:挖掘模型:依次为:Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归算法(92.39% 0.99)3. 决策树算法(91.19...
分类:
编程语言 时间:
2014-12-01 20:43:18
阅读次数:
196
推到了机器学习中常用的概率知识:期望、方差、伯努利分布、泊松分布和高斯分布...
分类:
其他好文 时间:
2014-11-30 11:24:48
阅读次数:
249
MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法。它同样可以用于推荐系统和大规模文档聚类中。我们先介绍Jaccard相似度量。对于两个集合A与B,Jaccard相似性系数可以定义为:容...
分类:
编程语言 时间:
2014-11-29 22:50:10
阅读次数:
513
由于最近做的项目需要从英文文本中提取出字符串进行话题的聚类,于是就花了一天的时间来学习Java正则表达式,一下几个小例子是我的一些小练笔,如有不合理之处,还望各位指教!! 1.此例是用来过滤掉英文文本中的网址,并将过滤后的字符串输出 首先需要先贴出来我需要过滤的英文文本,我将这些文本存在一...
分类:
编程语言 时间:
2014-11-29 17:13:00
阅读次数:
199
二分K-means聚类(bisecting K-means)算法优缺点:由于这个是K-means的改进算法,所以优缺点与之相同。算法思想:1.要了解这个首先应该了解K-means算法,可以看这里这个算法的思想是:首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大程度降低聚类代价函数(也就是误...
分类:
编程语言 时间:
2014-11-29 01:31:25
阅读次数:
618