码迷,mamicode.com
首页 >  
搜索关键字:mahout lda hadoop cv    ( 16332个结果
mahout推荐4-评估GroupLens数据集
使用GroupLens数据集ua.base这是一个tab分割的文件,用户Id,物品Id,评分(偏好值),以及附加信息。可用吗?之前使用的是CSV格式,现在是tsv格式,可用,使用FileDataModel对mahout推荐2中的评估程序使用这个数据集测试:package mahout;import ...
分类:其他好文   时间:2014-08-04 10:55:16    阅读次数:764
mahout推荐3-评估查准率和查全率
通过估计偏好值来生成推荐结果并非绝对必要。给出一个从优到劣的推荐列表对于许多场景都够用了,而不必包含估计的偏好值。查准率:在top结果中相关结果的比例查全率:所有相关结果,包含在top结果中的比例对上个例子进行测试:package mahout;import java.io.File;import ...
分类:其他好文   时间:2014-08-04 10:47:37    阅读次数:241
mahout推荐2
设计好了一个推荐程序,如何来完成评估呢?一般是使用一个真实数据的样例作为测试数据来仿真,来看估计值和实际值的差别,0.0意味着完美的估计,就是没有差别。一是使用平均差值(直观,易于理解),一是使用均方根。针对mahout推荐1的推荐程序进行评估:package mahout;import java....
分类:其他好文   时间:2014-08-04 10:36:46    阅读次数:323
mahout推荐1
1、准备数据:intro.csv:1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4...
分类:其他好文   时间:2014-08-04 10:26:56    阅读次数:194
linux
package com.laiwang.algo.antispam.event.job;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.had...
分类:系统相关   时间:2014-08-04 01:52:26    阅读次数:413
在Hadoop集群实施成功后再次格式化名称节点,datanode无法加入集群的处理办法
格式化namenode后,通过jps可发现datanode没有启动成功,查看datanode上的日志/home/wukong/usr/hadoop-1.2.1/logs/hadoop-wukong-datanode-bd12.log,可以发现是namespaceid不对。 解决办法: 1、查看namenode上...
分类:其他好文   时间:2014-08-03 23:37:06    阅读次数:661
Hadoop源码分析(2)——Configuration类
这篇文章主要介绍Hadoop的系统配置类Configuration。接着上一篇文章介绍,上一篇文章中Hadoop Job的main方法为:public static void main(String[] args) throws Exception { int res = ToolRunne...
分类:其他好文   时间:2014-08-03 22:57:36    阅读次数:435
Mahout安装(Hadoop 1.2.1 版本)
1 安装环境 Hadoop1.2.1 分布式集群环境下安装(192.168.1.53-56) Mahout 0.9 2 安装介质 下载地址:http://archive.apache.org/dist/mahout/0.9/ 文件名(二进制):mahout-distribution-0.9...
分类:其他好文   时间:2014-08-03 20:33:45    阅读次数:190
Hadoop源码分析—— Job任务的程序入口
这篇文章大致介绍Hadoop Job的程序是如何启动的。通常用Java编写的Hadoop MapReduce程序是通过一个main方法作为程序的整个入口,如下:public static void main(String[] args) throws Exception { int res ...
分类:其他好文   时间:2014-08-03 20:30:45    阅读次数:307
【hadoop之翊】——hadoop大核心之HDFS初识
今天来说说hadoop的一大核心——HDFS,这个是很重要的,它呢,是分布式文件系统。为什么说hadoop能存储海量数据?其实主要还是依赖与hdfs的能力,主要依赖的是hdfs能存储海量数据。 1、 为什么hdfs能存储海量数据呢? 一开始抛出这样的问题来想想。至于HDFS的基本概念什么的都不用多说了的~我们重在使用,而不是去做“研究”。扯蛋的话就是,“专家的研究”已经成为名副其实的贬义词了,...
分类:其他好文   时间:2014-08-03 18:09:05    阅读次数:332
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!