将Mahout on Spark 中的机器学习算法和MLlib中支持的算法统计如下: 主要针对MLlib进行总结 分类与回归 分类和回归是监督式学习; 监督式学习是指使用有标签的数据(LabeledPoint)进行训练,得到模型后,使用测试数据预测结果。其中标签数据是指已知结果的特征数据。 分类和回 ...
分类:
其他好文 时间:
2016-09-24 01:57:49
阅读次数:
250
案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数。 代码如下: 预测结果为: 和原数据一样! *********************************这里是分割线************************************** 我们再拿这个方法来预测 ...
分类:
编程语言 时间:
2016-05-25 14:59:32
阅读次数:
434
接着案例一,我们再使用另一种方法实例一个案例 直接上代码: 预测结果为: 可见该苹果的口味为:bad *********************************************这里是分割线************************************************ ...
分类:
编程语言 时间:
2016-05-25 14:55:03
阅读次数:
205
测试用例ID 场景 测试步骤 预测结果 TC1 管理员登陆 打开登陆界面以管理员身份登陆 进入后台管理界面用户注册的URL地址为http://www.fengt.com/Admin/UserRegister.jsp TC2 注册用户 在后台管理界面进行用户注册,输入用户名,密码,密码确认,邮箱 进入 ...
分类:
其他好文 时间:
2016-05-22 21:22:20
阅读次数:
204
推荐系统评价指标1.评分预测
预测准确度:
均方根误差(RMSE):
平均绝对误差(MAE):
关于这两个指标的优缺点,Netflix认为RMSE加大了对预测不准的用户物品评分的惩罚(平方项的惩罚),因为对系统的评测更加苛刻。研究表明,如果评分系统是基于整数建立的(即用户给的评分都是整数),那么对预测结果取整会降低MAE的误差。2.Top N推荐:给用户一个个性化的推荐列表,预测准确...
分类:
其他好文 时间:
2016-05-12 11:54:17
阅读次数:
199
决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。...
分类:
编程语言 时间:
2016-05-06 15:31:06
阅读次数:
299
研究机器学习都会研究分类算法,当建立了一个分类算法的模型之后,模型的好坏是需要量化的,最重要的就是分类器的评价指标。那下面主要谈谈分类器的指标。(在这里,主要是介绍一下两类的分类器的评价指标) 下面我们可以看一下两类结果的分析: 1、accuracy(正确率) 它表示的预测结果正确比例。包括正例和负 ...
分类:
其他好文 时间:
2016-04-21 15:02:44
阅读次数:
303
4.3链接预测
表3:链接预测结果。不同方法的性能。
总体结果 表3显示了所有数据集所有方法的比较。与预期结果一致,经过过滤设置的结果具有较低的平均排名和较高的hits@10,相信在链接预测方面对各种方法有一个清晰地性能评估。然而,raw和filtered的趋势是一样的。
我们的方法TransE在所有度量上面通常很大程度上优于所有进行比较的方法,并且取得了一些绝对好的性能例如WN...
分类:
其他好文 时间:
2016-04-16 19:28:34
阅读次数:
696
LIME: 模型是否值得信任? 我们在建立模型的时候,经常会思考我们的模型是不是够稳定,会不会出现样本偏差效应, p>>N时候会不会过拟合? 我们检查模型稳定,我们进行一些cross-validation来看看各项评估指标方差大不大。 可是如果样本一开始因为采样偏差导致样本有偏,导致模型和实际情况有差异,这个就不太好评估了。同样,p>>N也会有类似的问题,尤其在文本挖掘领域。一般情况,如果特征不是很多的话,尤其像logistic regression这样的model,我们会把模型权重给打印出来看看,看看训...
分类:
其他好文 时间:
2016-04-11 12:27:20
阅读次数:
229
第12章 统计学习方法总结
1 适用问题
分类问题是从实例的特征向量到类标记的预测问题;标注问题是从观测序列到标记序列(或状态序列)的预测问题。可以认为分类问题是标注问题的特殊情况。
分类问题中可能的预测结果是二类或多类;而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的。
感知机、k近邻法、朴素贝叶斯法、决策树是简单的分类方法,具有模型直观、方法简单、实现容易等特...
分类:
其他好文 时间:
2016-03-30 13:14:29
阅读次数:
232