Spark简述Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足
于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式。
特点:
1、轻
Spark 0.6核心代码有2万行,Hadoop1.0为9万行,2.0为22万行。2、快
Spark对小数据集能达到亚秒级的廷迟,这对于Hadoop MapReduce是无法想象的(由于”心跳”间隔机制,...
分类:
其他好文 时间:
2015-06-24 21:03:48
阅读次数:
412
HDFS数据管理1、设置元数据与数据的存储路径,通过
dfs.name.dir,dfs.data.dir,fs.checkpoint.dir(hadoop1.x)、
hadoop.tmp.dir,dfs.namenode.name.dir,dfs.namenode.edits.dir,dfs.datanode.data.dir(hadoop2.x)等属性来设置;2、经常执行HDFS文件系统检查工...
分类:
其他好文 时间:
2015-06-16 23:03:33
阅读次数:
329
本文所用软件版本:myeclipe2014 hadoop1.2.11、安装Hadoop开发插件 下载hadoop-eclipse-plugin-1.2.1.jar,拷贝到myeclipse根目录下/dropins目录下。2、 启动myeclipse,打开Perspective:【Window】-.....
分类:
系统相关 时间:
2015-06-16 14:18:06
阅读次数:
176
准备: 安装jdk和ssh。1. 官网下载hadoop1.2.1 hadoop-1.2.1.tar.gz http://hadoop.apache.org/releases.html2. 解压到/home/hadoop/目录下3. 伪分布式hadoop配置 可以把伪分布式的hadoop看做只...
分类:
其他好文 时间:
2015-06-15 18:19:55
阅读次数:
147
基础环境
1、当前版本
cat/etc/debian_version
7.8
2、安装包lvm2
apt-getinstalllvm2
一、将sdbsdcsdd三块分区加到卷组(hadoop),并创建5G的逻辑卷(hadoop1),PE默认
1、使用pvcreate命令将sdbsdcsdd分区创建成物理卷(pvcreate-initializeadiskorpartitionforusebyLVM)
pvcrea..
分类:
其他好文 时间:
2015-06-13 18:40:09
阅读次数:
202
在当前用户的家目录下有个.hivestory文件,里面存放了用户执行的hive操作记录,如下:[hadoop@hadoop1 hive-0.14]$ cat ~/.hivehistoryshow databases;quit;quit;create table pokes(foo int, bar ...
分类:
其他好文 时间:
2015-06-08 13:19:32
阅读次数:
290
hive默认使用derby数据库保存元数据,derby数据库比较小众,并且一次只能打开一个会话,一般修改为mysql数据库。1、修改conf/hive-site.xml配置项: javax.jdo.option.ConnectionURL jdbc:mysql://hadoop1:3306/hive...
分类:
数据库 时间:
2015-06-08 13:12:09
阅读次数:
212
启动Hadoop时报了一个警告信息,我安装的Hadoop版本是hadoop1.0.4,具体警告信息如下:
[root@localhost hadoop-1.0.4]# ./bin/start-all.sh
Warning: $HADOOP_HOME is deprecated.网上的说法是因为Hadoop本身对HADOOP_HOME做了判断,具体在bin/hadoop和bin/hadoop-co...
分类:
其他好文 时间:
2015-06-06 18:18:29
阅读次数:
143
常见数据压缩算法压缩文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:
LZO和LZ4算法已经不在Hadoop1.x中使用了。1、DEFLATE是同时使用了LZ77与哈夫曼编码的一个无损数据压缩算法,
源代码可以在zlib...
分类:
编程语言 时间:
2015-06-05 21:17:42
阅读次数:
354
1.hadoop的分布式安装过程
1.1 分布结构
主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode
从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker
1.2 各节点重新产生ssh加...
分类:
其他好文 时间:
2015-06-03 23:32:38
阅读次数:
151