贝叶斯分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive
Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
其他好文 时间:
2014-06-13 13:46:25
阅读次数:
197
python数据挖掘领域工具包 - wentingtu -
博客园python数据挖掘领域工具包原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy...
分类:
编程语言 时间:
2014-06-11 13:27:30
阅读次数:
481
算法描述
K-means算法是一种被广泛使用的基于划分的聚类算法,目的是将n个对象会分成k个簇。算法的具体描述如下:随机选取k个对象作为簇中心;Do
计算所有对象到这k个簇中心的距离,将距离最近的归入相应的簇; 重新计算每个簇的中心; 计算准则...
分类:
其他好文 时间:
2014-06-11 10:37:42
阅读次数:
192
这段时间在从事游戏社区化方向的策划,为某款游戏定制化社区。
针对该款游戏做了一次深入的数据挖掘,其中一项数据特别有意思。对游戏中的好友关系进行统计,其中玩家好友数在1-5个的占了70%,6-10个的11%,平均好有数6个。
这些数据公开之后,大家对社区化价值有了不同的看法。
技术GG很失落地说:好友数这么低,做社区做聊天做关系链没任何价值啊!
我:应该双面看待这项数据。好友数少...
分类:
其他好文 时间:
2014-06-11 06:18:59
阅读次数:
262
输入法,尤其是拼音输入法,解决的就是一些序列标注的问题,针对给定的状态(拼音),获取其概率最高的隐状态(中文)。
这个是一个标准的HMM,针对HMM的解码过程,是一个很成熟也很完备的东西。
local的计算和存储能力都有限,我们选择一般是二阶马尔科夫,也就是所谓的bigram model。 高阶对质量会有帮助,但是涉及到存储和计算,工程上不可行。
同理,利用ME 以及CRFmodel...
分类:
其他好文 时间:
2014-06-10 18:18:23
阅读次数:
208
最近的一些有趣链接的分享,包括科学,设计,机器学习等多个方面的。
例如:
1.在另一个星球上打印人类
2.偷听到外星人的星际通信
3.Yann LeCun在reddit上的问答
4.卖萌的水果
......
分类:
其他好文 时间:
2014-06-08 15:12:54
阅读次数:
262
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的...
分类:
其他好文 时间:
2014-06-08 14:55:35
阅读次数:
254
之前写过决策树的一篇blog。
这几天看数据挖掘导论发掘一些新的东西,记录下来。
增加了过拟合,剪枝,即其他纯度计算方法等内容。...
分类:
其他好文 时间:
2014-06-08 03:12:07
阅读次数:
269
本文介绍了朴素贝叶斯分类方法,还以文本分类为例,给出了一个具体应用的例子。
分类:
其他好文 时间:
2014-06-07 23:31:16
阅读次数:
469
最近一段时间做了不少文本挖掘的项目和研究,正好总结一下文本挖掘预处理的流程,希望是干货。...
分类:
其他好文 时间:
2014-06-07 12:11:52
阅读次数:
238