转至元数据起始
Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。
项目地址:http://sqoop.apache.org/
目前为止,已经演化出了2个版本:sqoop1和sqoop2。
sqoop1的最新版本是1.4....
分类:
其他好文 时间:
2014-12-05 14:21:44
阅读次数:
335
说明:参考Mahout FP算法相关相关源码。算法工程可以在下载:(只是单机版的实现,并没有MapReduce的代码)使用FP关联规则算法计算置信度基于下面的思路:1. 首先使用原始的FP树关联规则挖掘出所有的频繁项集及其支持度;这里需要注意,这里是输出所有的频繁项集,并没有把频繁项集合并,所以需要修改FP树的相关代码,在某些步骤把所有的频繁项集输出;(ps:参考Mahout的FP树单机版的实现,...
分类:
编程语言 时间:
2014-11-19 15:58:12
阅读次数:
262
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.ap...
分类:
其他好文 时间:
2014-10-29 16:38:29
阅读次数:
287
输入格式: A 1 B,C,D B 1 C,Dmap: B A 1/3 C A 1/3 D A 1/3 A |B,C,D C B 1/2 D B 1/2 B |C,Dreduce: B (1-0.85)+0....
分类:
其他好文 时间:
2014-10-29 16:14:31
阅读次数:
237
通过hadoop中的MapReduce实现Apache日志中的IP个数统计,并将计算结果输出到mysql数据库中。...
分类:
数据库 时间:
2014-10-22 12:55:09
阅读次数:
419
业务逻辑其实很简单,输入两个文件,一个作为基础数据(学生信息文件),一个是分数信息文件。学生信息文件:存放学生数据:包括学号,学生名称分数信息数据:存放学生的分数信息:包括学号,学科,分数。我们将通过M/R实现根据学号,进行数据关联,最终结果为:学生名称,学科,..
分类:
其他好文 时间:
2014-10-20 02:16:39
阅读次数:
155
GridGain最近在2014年的Spark峰会上发布了Hadoop内存片内加速技术,可以为Hadoop应用带来内存片内计算的相关收益。
该技术包括两个单元:和Hadoop HDFS兼容的内存片内文件系统,以及为内存片内处理而优化的MapReduce实现。这两个单元对基于磁盘的HDFS和传统的MapReduce进行了扩展,为大数据处理情况提供了更好的性能。...
分类:
其他好文 时间:
2014-10-16 17:15:42
阅读次数:
235
因为业务需要,需要将一批mysql数据导入到HBASE,现在先将数据从Mysql导出到HDFS。版本:hadoop CDH4.5,Hbase-0.946 1、实体类 YqBean 是我的实体类,请根据自己需要修改,实体类需要 implements Writable, DBWritable。 ...
分类:
数据库 时间:
2014-07-29 11:50:56
阅读次数:
292
期间遇到了无法转value的值为int型,我採用try catch解决str2 2str1 1str3 3str1 4str4 7str2 5str3 9用的\t隔开,得到结果str1 1,4str2 2,5str3 3,9str4 7我这里map,reduce都是单独出来的类,用了自己定义的key...
分类:
其他好文 时间:
2014-06-18 18:35:21
阅读次数:
184
K-均值聚类算法的MapReduce实现理解...
分类:
其他好文 时间:
2014-06-16 22:04:50
阅读次数:
207