码迷,mamicode.com
首页 >  
搜索关键字:mllib    ( 244个结果
mllib之随机森林与梯度提升树
随机森林和GBTs都是集成学习算法,它们通过集成多棵决策树来实现强分类器。 集成学习方法就是基于其他的机器学习算法,并把它们有效的组合起来的一种机器学习算法。组合产生的算法相比其中任何一种算法模型更强大、准确。 随机森林和梯度提升树(GBTs)。两者之间主要差别在于每棵树训练的顺序。 随机森林通过对数据随机采样来单独训练每一棵树。这种随机性也使得模型相对于单决策树更健壮,...
分类:其他好文   时间:2015-04-13 22:59:00    阅读次数:892
mllib:Exception in thread "main" org.apache.spark.SparkException: Input validation failed.
当我们使用mllib做分类,用到逻辑回归或线性支持向量机做分类时,可能会出现下面的错误: 15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0 or 1. Found 3000000 invalid labels Exception in thread "main" org.apache.spark.S...
分类:Web程序   时间:2015-04-09 23:52:01    阅读次数:262
mllib:java.lang.IllegalArgumentException: GiniAggregator given label 2.0 but requires label < numCla
报错信息 :  java.lang.IllegalArgumentException: GiniAggregator given label 2.0 but requires label  在用mllib做分类,当用到一些分类算法时,常常需要加入基尼系数。 程序代码:RandomForest.trainClassifier(validData,2,Map[In...
分类:编程语言   时间:2015-04-09 21:54:31    阅读次数:203
MLlib 卡方检验
spark MLlib卡方检验
分类:其他好文   时间:2015-03-20 21:54:23    阅读次数:410
孙其功陪你学之——Spark MLlib之K-Means聚类算法
看到 程序员的自我修养 – SelfUp.cn 里面有Spark MLlib之K-Means聚类算法。 但是是java 语言的,于是我按照例程用Scala写了一个,分享在此。 由于在学习 spark mllib 但是如此详细的资料真的很难找,在此分享。 测试数据 1 2 3 4 5 6 7...
分类:编程语言   时间:2015-03-18 18:00:39    阅读次数:466
一天一段scala代码(七)
一天一段scala代码(七)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples class Angela { //包可见性 这里规定了这个方法只能再examples包内可见 //当时在spark的mllib做二次开发时遇到这...
分类:其他好文   时间:2015-02-12 20:11:09    阅读次数:221
Spark MLLib示例
import?org.apache.spark.mllib.tree.DecisionTree import?org.apache.spark.mllib.util.MLUtils val?data?=?MLUtils.loadLibSVMFile(sc,?"data/mllib/sample_libsvm_data.txt").cache() val?numClasses?...
分类:其他好文   时间:2015-02-03 19:50:29    阅读次数:429
spark MLlib 概念 6:ALS(Alternating Least Squares) or (ALS-WR)
Large-scale Parallel Collaborative Filtering for the Netflix Prizehttp://www.hpl.hp.com/personal/Robert_Schreiber/papers/2008%20AAIM%20Netflix/netflix...
分类:其他好文   时间:2015-02-03 01:50:38    阅读次数:1017
spark MLlib 概念 4: 协同过滤(CF)
1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems....
分类:其他好文   时间:2015-02-01 19:09:37    阅读次数:326
spark MLlib 概念 5: 余弦相似度(Cosine similarity)
概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity ...
分类:其他好文   时间:2015-02-01 19:01:08    阅读次数:917
244条   上一页 1 ... 20 21 22 23 24 25 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!