Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句...
分类:
数据库 时间:
2015-01-07 13:22:27
阅读次数:
323
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ①保存多个副本,且提供容错机制,副本丢失或宕机...
分类:
其他好文 时间:
2015-01-07 00:29:30
阅读次数:
196
一,安装java环境添加java环境变量vi /etc/profile# add by tankexport JAVA_HOME=/data/soft/jdk/jdk1.7.0_71export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME...
分类:
其他好文 时间:
2014-12-24 16:06:00
阅读次数:
162
HDFS简介
Hadoop说白了就是一个提供了处理分析大数据的文件集群,其中最重要的无疑是HDFS(Hadoop Distributed File System)即Hadoop分布式文件系统。
1、
HDFS是一种以流式数据访问模式(一次写入多次读取的模式)存储超大文件的系统。其不需要的高端的硬件系统,普通市面上的硬件就能满足要求。
目前不适合应用...
分类:
其他好文 时间:
2014-12-23 17:25:18
阅读次数:
184
Hadoop 2.6.0分布式部署参考手册
关于本参考手册的word文档,可以到如下地址下载:http://download.csdn.net/detail/u012875880/8285323
1.环境说明
1.1安装环境说明
本列中,操作系统为Centos 7.0,JDK版本为Oracle HotSpot 1.7,Hadoop版本为Apache Hadoop 2.6.0...
分类:
其他好文 时间:
2014-12-22 13:02:27
阅读次数:
353
分布式文件系统即是网络中多台计算机组合在一起提供一个统一存储及管理的系统。 Hadoop提供了一个文件系统接口和多个分布式文件系统实现,其中比较重要的就是HDFS(Hadoop Distributed Filesystem)了。Hadoop是一个综合性的文件系统抽象,因此它也可以集成其他文件系统的实...
分类:
其他好文 时间:
2014-12-22 10:41:42
阅读次数:
278
hadoop的核心分为两块,一是分布式存储系统-hdfs,这个我已经在上一章节大致讲了一下,另一个就是hadoop的计算框架-mapreduce。 mapreduce其实就是一个移动式的基于key-value形式的分布式计算框架。 其计算分为两个阶段,map阶段和reduce阶段,都是对数据的处.....
分类:
其他好文 时间:
2014-12-22 10:40:34
阅读次数:
238
再理解HDFS的存储机制
1. HDFS开创性地设计出一套文件存储方式,即对文件分割后分别存放;
2. HDFS将要存储的大文件进行分割,分割后存放在既定的存储块(Block)中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求;
3. 一个HDFS集群包括两大部分,即NameNode与DataNode。一般来说,一个集群中会有一个NameNode和多个DataNode共同工作;
4. NameNode是集群的主服务器,主要是用于对HDFS中所有的文件及...
分类:
其他好文 时间:
2014-12-15 10:34:06
阅读次数:
149
这里先写下自己学习RPC的笔记总结,下面将详细介绍学习过程:
RPC(remote procedure call)
不同java进程间的对象方法的调用。
一方称作服务端(server),一方称作客户端(client)。
server端提供对象,供客户端调用的,被调用的对象的方法的执行发生在server端。
RPC是hadoop框架运行的基础。
通...
分类:
其他好文 时间:
2014-12-13 13:33:29
阅读次数:
223
前言 在计算机领域,排序的重要性不用多说。而排序的算法,效率分析等也一直是研究的热点。 本文将给出使用Hadoop分布式方案进行排序的例子,这能极大提高排序的速度,是需要重点掌握的一个案例。需求 对输入文件中的数据进行排序。 输入文件中的每行内容都是一个数字,要求在输出文件中每行有两个数字,...
分类:
编程语言 时间:
2014-12-12 13:17:56
阅读次数:
266