知道某个算法,和运用一个算法是两码事儿。当你训练出数据后,发觉模型有太大误差,怎么办?1)获取更多的数据。也许有用吧。2)减少特征维度。你可以自己手动选择,也可以利用诸如PCA等数学方法。3)获取更多的特征。当然这个方法很耗时,而且不一定有用。4)添加多项式特征。你在抓救命稻草么?5)构建属于你自己...
分类:
其他好文 时间:
2014-08-26 21:05:46
阅读次数:
889
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
Mahout 的创始人 Grant Ingersoll 介绍了机器学习的基本概...
分类:
其他好文 时间:
2014-08-26 19:44:17
阅读次数:
357
在对数据进行拟合,学习模型的过程中,会出现以下情况:1)high variance, overfitting.过拟合2)high bias, underfiiting.欠拟合过拟合出现的原因1)太多的特征。2)过少的训练数据。如何解决?1)减少特征数2)模型选择算法(model selection ...
分类:
其他好文 时间:
2014-08-26 19:13:56
阅读次数:
310
outlook
temperature
humidity
windy
play
yes
no
yes
no
yes
no
yes
no
yes
no
sunny
2
3
hot
2
2
high
3
4
...
分类:
其他好文 时间:
2014-08-26 09:53:05
阅读次数:
200
信息熵很亮的是在你知道一个事件的结果后,平均会带给你多大的信息量,当事件的不确定性越大,那么要搞清它所需要的信息量也就越大,也就是信息熵越大,是无序性,不确定性的度量指标。
信息熵的计算:
-p[i]logp[i],底数为2
public static double calcEntropy(int p[]) {
double entropy = 0;
// 用来计算总的样本数量,p[...
分类:
其他好文 时间:
2014-08-25 15:01:05
阅读次数:
293
1.背景 最大似然估计是概率论中常常涉及到的一种统计方法。大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性。当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改。 博主是参照wiki来学习的,地址请点击我 这里实现的是特别简单的例子如下(摘自wiki的最大似然)离散分布,离散...
分类:
编程语言 时间:
2014-08-25 11:53:54
阅读次数:
1655
在网上找到一篇好文,直接粘贴过来,加上一些补充和自己的理解,算作此文。My education in the fundamentals of machine learning has mainly come from Andrew Ng’s excellent Coursera course on ...
分类:
其他好文 时间:
2014-08-24 23:41:03
阅读次数:
518
数据挖掘经典算法国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.个人论文采用的是Apriori,所以针对于此...
分类:
其他好文 时间:
2014-08-23 22:52:21
阅读次数:
273
决策树(DecisionTree)又称为判定树,是运用于分类的一种树结构。当中的每一个内部结点(internalnode)代表对某个属性的一次測试,每条边代表一个測试结果,叶结点(leaf)代表某个类(class)或者类的分布(classdistribution),最上面的结点是根结点。决策树分为分...
分类:
其他好文 时间:
2014-08-23 16:31:11
阅读次数:
181