准备知识:1.在InputFormat<k,v>这个接口中,有两个方法,InputSplit[]getSplits();RecordReader<k,v>getRecordReader();2.mapreduce作业提交与初始化过程。作业提交:(1)命令行提交。。。。(2)获取作业ID,创建HDFS目录(你指定的存放结果的目录)上传文件到HD..
分类:
其他好文 时间:
2014-09-16 19:08:21
阅读次数:
231
Sqoop2Intermediate representation
在Sqoop2的connector中提供了自己的map处理,map用于导入数据到HDFS。因为这段代码将完全被connector维护,所以,我们需要找到一个适用所有connector和所有情况的中间格式(map output)。本文的目标是比较不同的中间数据格式(intermediate representation),以使我们...
分类:
其他好文 时间:
2014-09-15 11:21:18
阅读次数:
246
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心。云计算学习者的心声:如何从企业级开发的角度,不断动手实际操作,循序...
分类:
移动开发 时间:
2014-09-13 18:34:35
阅读次数:
300
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心。云计算学习者的心声:如何从企业级开发的角度,不断动手实际操作,循序...
分类:
移动开发 时间:
2014-09-13 17:05:15
阅读次数:
333
Hadoop系列之hdfs(分布式文件系统)安装配置环境介绍:ip节点192.168.3.10hdfs-master192.168.3.11hdfs-slave1192.168.3.12hdfs-slave21.在所有机器添加hosts192.168.3.10hdfs-master192.168.3.11hdfs-slave1192.168.3.12hdfs-slave2#说明//主机名不能带有下划线及一些特殊符号,..
分类:
其他好文 时间:
2014-09-13 03:03:35
阅读次数:
335
来自:http://blog.csdn.net/dandingyy/article/details/7490046众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getm...
分类:
其他好文 时间:
2014-09-12 17:06:13
阅读次数:
279
一个分布式系统基础架构,由Apache基金会所开发。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
[1] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量(high throughput)来访问应用程...
分类:
其他好文 时间:
2014-09-12 13:33:03
阅读次数:
284
1、运行spark报出如下错误: org.apache.hadoop.security.AccessControlException: Permission denied: 解决方法,添加用户:如下 sudo -u hdfs hadoop fs -mkdir /user/stat sudo -u hdfs hadoop fs -chown roo...
分类:
其他好文 时间:
2014-09-12 12:08:13
阅读次数:
205
有多种接口可以访问HDFS,其中命令行接口是最简单,也是程序员最熟悉的方式。
在本例中,将采用pseusodistributed mode的HDFS,用一台机器来模拟分布式的文件系统。pseudodistributed mode的配置参见:http://blog.csdn.net/norriszhang/article/details/38659321
这里再重新说一下两处配置的含义:...
分类:
其他好文 时间:
2014-09-11 19:29:02
阅读次数:
190