随机森林和GBTs都是集成学习算法,它们通过集成多棵决策树来实现强分类器。
集成学习方法就是基于其他的机器学习算法,并把它们有效的组合起来的一种机器学习算法。组合产生的算法相比其中任何一种算法模型更强大、准确。
随机森林和梯度提升树(GBTs)。两者之间主要差别在于每棵树训练的顺序。
随机森林通过对数据随机采样来单独训练每一棵树。这种随机性也使得模型相对于单决策树更健壮,...
分类:
其他好文 时间:
2015-04-13 22:59:00
阅读次数:
892
当我们使用mllib做分类,用到逻辑回归或线性支持向量机做分类时,可能会出现下面的错误:
15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0 or 1. Found 3000000 invalid labels
Exception in thread "main" org.apache.spark.S...
分类:
Web程序 时间:
2015-04-09 23:52:01
阅读次数:
262
报错信息 :
java.lang.IllegalArgumentException: GiniAggregator given label 2.0 but requires label
在用mllib做分类,当用到一些分类算法时,常常需要加入基尼系数。
程序代码:RandomForest.trainClassifier(validData,2,Map[In...
分类:
编程语言 时间:
2015-04-09 21:54:31
阅读次数:
203
看到 程序员的自我修养 – SelfUp.cn 里面有Spark MLlib之K-Means聚类算法。
但是是java 语言的,于是我按照例程用Scala写了一个,分享在此。
由于在学习 spark mllib 但是如此详细的资料真的很难找,在此分享。
测试数据
1
2
3
4
5
6
7...
分类:
编程语言 时间:
2015-03-18 18:00:39
阅读次数:
466
一天一段scala代码(七)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
class Angela
{
//包可见性 这里规定了这个方法只能再examples包内可见
//当时在spark的mllib做二次开发时遇到这...
分类:
其他好文 时间:
2015-02-12 20:11:09
阅读次数:
221
import?org.apache.spark.mllib.tree.DecisionTree
import?org.apache.spark.mllib.util.MLUtils
val?data?=?MLUtils.loadLibSVMFile(sc,?"data/mllib/sample_libsvm_data.txt").cache()
val?numClasses?...
分类:
其他好文 时间:
2015-02-03 19:50:29
阅读次数:
429
Large-scale Parallel Collaborative Filtering for the Netflix Prizehttp://www.hpl.hp.com/personal/Robert_Schreiber/papers/2008%20AAIM%20Netflix/netflix...
分类:
其他好文 时间:
2015-02-03 01:50:38
阅读次数:
1017
1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems....
分类:
其他好文 时间:
2015-02-01 19:09:37
阅读次数:
326
概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity ...
分类:
其他好文 时间:
2015-02-01 19:01:08
阅读次数:
917