搜索关键字：hadoop中，搜索到495个结果！码迷,mamicode.com！

Hadoop介绍-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker

Hadoop是一个能够对大量数据进行分布式处理的软体框架，实现了Google的MapReduce编程模型和框架，能够把应用程式分割成许多的小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程式称为「作业（job）」，而从一个作业划分出得、运行于各个计 ...

分类：其他好文时间：2017-08-21 00:27:31 阅读次数：158

Pig和Hive的对比

Pig Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv ...

分类：其他好文时间：2017-08-20 00:47:57 阅读次数：215

Hadoop-2.4.1学习之edits和fsimage查看器

在hadoop中edits和fsimage是两个至关关键的文件。当中edits负责保存自最新检查点后命名空间的变化。起着日志的作用，而fsimage则保存了最新的检查点信息。这个两个文件里的内容使用普通文本编辑器是无法直接查看的，幸运的是hadoop为此准备了专门的工具用于查看文件的内容。这些工具分 ...

分类：其他好文时间：2017-08-16 20:28:52 阅读次数：185

Hadoop体系结构之 Yarn

1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整 ...

分类：其他好文时间：2017-08-12 19:44:18 阅读次数：278

hadoop入门笔记MapReduce Shuffle简介（五）

1. MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错式并行处理TB级别的数据集 2. MapReduce 特点 MapReduce 为什么如此受欢迎？尤其现在互联网+时代，互 ...

分类：其他好文时间：2017-08-05 18:50:59 阅读次数：136

深入理解MapReduce的架构及原理

1. MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架。基于它写出来的应用程序能够执行在由上千个商用机器组成的大型集群上，并以一种可靠容错式并行处理TB级别的数据集 2. MapReduce 特点 MapReduce 为什么如此受欢迎？尤其如今互联网+时代，互 ...

分类：其他好文时间：2017-08-03 22:09:55 阅读次数：207

Hive安装配置要点

官网下载安装包；在Profile下面定义HIVE_HOME以及HADOOP_HOME，然后在PATH下面添加HOME/bin目录，用于在命令行直接敲beeline，hive即可执行命令；需要在hadoop中创建： /user/hive/warehouse /tmp （记得当前目录以及子目录要赋权 ...

分类：其他好文时间：2017-07-30 21:10:46 阅读次数：202

Hadoop中自带的examples之wordcount应用案例

大家都知道hadoop中自带了非常多样例。那么怎么用呢，今天主要測试下hadoop中的wordcount程序jar包： 1、首先启动hadoop 2、准备数据：vim words，写入 hello tom hello jerry hello kitty hello tom hello bbb 3、 ...

分类：其他好文时间：2017-07-28 09:45:30 阅读次数：172

hadoop生态系统学习之路（六）hive的简单使用

一、hive的基本概念与原理 Hive是基于Hadoop之上的数据仓库，能够存储、查询和分析存储在 Hadoop 中的大规模数据。Hive 定义了简单的类 SQL 查询语言，称为 HQL。它同意熟悉 SQL 的用户查询数据，同意熟悉 MapReduce 开发人员的开发自己定义的 mapper 和 r ...

分类：其他好文时间：2017-07-27 13:29:20 阅读次数：164

Spark Kudu 结合

Kudu的背景 Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构， Hbase：实现快速插入和修改，对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive：对超大的数据集进行查询分析，对于这类场景， Parquet这种列式存储文件格式具有极大的优势。 HDF ...

分类：其他好文时间：2017-07-20 17:29:13 阅读次数：381

共495条上一页 1 ... 11 12 13 14 15 ... 50 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)