企业中的比较全面HADOOP的生态架构 HDFS :分布式文件系统 YARN:分布式资源管理 MapReduce:离线计算框架 Spark:内存计算框架 Hive:数据仓库 (HQL),提供一种类SQL的数据处理方法 Pig:一种数据流语言,用来快速轻松的处理巨大的数据 HBase:分布式数据库 O ...
分类:
其他好文 时间:
2017-05-22 01:22:50
阅读次数:
254
1.HADOOP背景介绍1.1什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.HADOOP的核心组件有A.HDFS(分布式文件系统)B.YARN(运算资源调度系统)C.MAPREDUCE(分布式运算编程框架..
分类:
其他好文 时间:
2017-03-27 12:05:23
阅读次数:
405
HBase HBase 是 Apache Hadoop 中的一个子项目,属于 bigtable 的开源版本,所实现的语言为Java(故依赖 Java SDK)。HBase 依托于 Hadoop 的 HDFS(分布式文件系统)作为最基本存储基础单元。 HBase在列上实现了 BigTable 论文提到 ...
分类:
数据库 时间:
2017-03-03 10:55:23
阅读次数:
223
使用3台机器搭建hdfs完全分布式集群 201(NameNode),202(DataNode),203(DataNode) 整体架构 NameNode(192.168.1.201) DataNode(192.168.1.202,192.168.1.203) SecondaryNameNode(192 ...
分类:
其他好文 时间:
2016-08-02 01:24:28
阅读次数:
289
HDFS:分布式文件系统 MapReduce:分布式计算框架 Sqoop:数据库ETL工具 Flume:日志收集工具 Mahout:数据挖掘库 Hive:数据仓库 Pig:数据流处理 HBase:实时分布式数据库 Zookeeper:分布式协作服务 ...
分类:
其他好文 时间:
2016-07-01 20:14:23
阅读次数:
166
1、Hadoop包含一个完整的生态圈 Hive 数据仓库 HDFS 分布式文件系统 MapReduce 并行调度框架 2、MapReduce过程 Mapper和Reduce的入参和出参都是key/value 三、HDFS 1、HDFS性质 2、HDFS数据块 1、磁盘的块一般是512字节,HDFS一 ...
分类:
其他好文 时间:
2016-05-24 01:40:20
阅读次数:
189
Hadoop组成 包括两个核心组成:HDFS:分布式文件系统,存储海量的数据MapReduce:并行处理框架,实现任务分解和调度 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务(搜索引擎、日志分析、商业智能、数据挖掘) 安装Java JDK 1,进入Sshell,检测是否安装java2, ...
分类:
其他好文 时间:
2016-05-11 01:19:03
阅读次数:
142
Hadoop HDFS分布式文件系统设计要点与架构 Hadoop简介:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File Sy ...
分类:
其他好文 时间:
2016-04-30 12:52:24
阅读次数:
146
1 Hadoop是当下大数据处理的事实标准之一,具有广泛的应用场景。作为Hadoop生态基础的HDFS分布式文件系统,它具有极高的容错性,适合部署在廉价的机器上,并能提供高吞吐量的数据访问能力,专为大规模数据存取而设计。 请用Java程序来模拟HDFS的三个应用场景:写文件、读文件、Node节点单点 ...
分类:
编程语言 时间:
2016-04-21 13:41:29
阅读次数:
185
下面是 StuQ 发布的大数据技能图谱,比较实用,供参考 大数据处理框架 Spark - RDD - Spark SQL - Spark Streaming - MLLibHadoop - HDFS (分布式文件系统) - Mapreduce(计算框架) - Yarn(资源管理平台) - Pig
分类:
其他好文 时间:
2016-03-14 09:28:47
阅读次数:
173