本篇是大数据系列的开局篇,主要介绍了Hadoop家族,HDFS和MapReduce的概念;通过以“专利数据集”为测试对象,编写MapReduce Demo,了解Hadoop MapReduce的内部运行机制以及Map和Reduce的输入输出键值对如何生成与相互关联等。
分类:
其他好文 时间:
2014-12-13 17:43:37
阅读次数:
355
这里先写下自己学习RPC的笔记总结,下面将详细介绍学习过程:
RPC(remote procedure call)
不同java进程间的对象方法的调用。
一方称作服务端(server),一方称作客户端(client)。
server端提供对象,供客户端调用的,被调用的对象的方法的执行发生在server端。
RPC是hadoop框架运行的基础。
通...
分类:
其他好文 时间:
2014-12-13 13:33:29
阅读次数:
223
前言 在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议。 接下来,数据被会被送往一个个Map节点中去,这也无异议。 下面问题来了:数据在被Map节点处理完后,再何去何从呢? 这就是本文探讨的话题。Shuffle 在Map进行完计算后,将会让数据经过一个名为Shu...
分类:
其他好文 时间:
2014-12-12 22:10:49
阅读次数:
284
通过命令:
Hadoop fs -put /opt/program/userall20140828 hdfs://localhost:9000/tmp/tvbox/
上传文件到hdfs是出现错误
14/12/11 17:57:49 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteE...
分类:
Web程序 时间:
2014-12-12 19:11:14
阅读次数:
441
本案例仅适用于HDFS与MySQL之间的数据同步实现。
1、 在编译安装之前注意将release下面的setSharePath方法中的路径改为你自己的安装路径,笔者的为/home/woody/datax/libs.
2、 rpm打包之前,要修改*.spec文件中的路径,dataxpath,此外可能还需要注解掉部分赋值文件的代码,如cp –r ${OLDPWD}****.propertie...
分类:
数据库 时间:
2014-12-12 16:43:30
阅读次数:
1838
1. cd /usr/local/hadoop/tmp/dfs/name/current可以看到关键的文件edits和fsimage2.cd /usr/local/hadoop/conf可以看到关键的配置文件:core-site.xml:hdfs-site.xml的dfs.name.dir属性hdf...
分类:
其他好文 时间:
2014-12-11 13:58:24
阅读次数:
138
在使用flume中发现由于网络、HDFS等其它原因,使得经过Flume收集到HDFS上得日志有一些异常,表现为:1、有未关闭的文件:以tmp(默认)结尾的文件。加入存到HDFS上得文件应该是gz压缩文件,以tmp为结尾的文件就无法使用;2、有大小为0的文件,比如gz压缩文件大小为0,我们单独拿下这个...
分类:
Web程序 时间:
2014-12-11 13:46:24
阅读次数:
299
在学习Hadoop FileSystem模块之前,最好的建议就是先去学习一下Linux本地文件系统的设计实现,这将会大大的帮助你了解Hadoop FileSystem,至少很多思想都是共通的。其实老实说,Hadoop FileSystem的确是集成了很多文件系统的诸多优点,在设计上还是有非常多值得学习的地方的。这里说的FileSystem可不是就仅仅的是HDFS,HDFS只是他的一个实现。也就是F...
分类:
其他好文 时间:
2014-12-11 12:31:42
阅读次数:
312
最详细的kettle连接hadoop&hdfs图文教程...
分类:
其他好文 时间:
2014-12-11 10:26:52
阅读次数:
426
调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。HDFS的scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参...
分类:
系统相关 时间:
2014-12-10 21:09:33
阅读次数:
219