第一步:通过Spark的shell测试Spark的工作Step1:启动Spark集群,这一点在第三讲讲的极为细致,启动后的WebUI如下:Step2:启动Spark Shell:此时可以通过如下Web控制台查看shell的情况:Step3:把Spark安装目录“README.md”拷贝到HDFS系统...
分类:
其他好文 时间:
2014-09-11 13:52:12
阅读次数:
228
今天在Pseudodistributed mode下启动HDFS
见配置http://blog.csdn.net/norriszhang/article/details/38659321
但是在试验向HDFS里拷贝文件时,发现出错,说没有找到namenode,用jps查看,有datanode和secondary namenode都启动起来了,但NameNode没有启动起来,用netst...
分类:
其他好文 时间:
2014-09-11 12:35:12
阅读次数:
174
MapReduce工作原理图文详解正文:1.MapReduce作业运行流程流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都...
分类:
其他好文 时间:
2014-09-10 19:23:20
阅读次数:
245
一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模.....
分类:
其他好文 时间:
2014-09-10 19:12:50
阅读次数:
311
前言对技术,我还是抱有敬畏之心的。Hadoop概述Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具。基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从Google三驾马车:GFS,mapreduce,Bigtable开始了...
分类:
其他好文 时间:
2014-09-10 13:52:40
阅读次数:
298
选项名称使用格式含义-ls-ls 查看指定路径的当前目录结构-lsr-lsr 递归查看指定路径的目录结构-du-du 统计目录下个文件大小-dus-dus 汇总统计目录下文件(夹)大小-count-count [-q] 统计文件(夹)数量-mv-mv 移动-cp-cp 复制-rm-rm [-sk.....
分类:
其他好文 时间:
2014-09-10 12:07:20
阅读次数:
133
在测试 HDFS2.0 的 NameNode HA 的时候,并发put 700M的文件,然后 Kill 主 NN ;发现备 NN 切换后进程退出。尝试了多种方法终于恢复,原因还在分析中。...
分类:
其他好文 时间:
2014-09-10 10:54:10
阅读次数:
490
1. Blocks(块)
硬盘上有块,代表能够读取和写入的最小的data单位,通常是512字节。
基于单硬盘的文件系统也有块的概念,通常是把硬盘上的一组块集合在一起成为一个块,一般有几KB大小。
这些对于文件系统的使用者都是透明的,使用者只知道往硬盘上写了一定大小的文件,或从硬盘上读了一定大小的文件。当然有些维护命令,比如df和fsck,就是在块级上的操作。
HDFS也有块(blo...
分类:
其他好文 时间:
2014-09-10 10:53:00
阅读次数:
312