搜索关键字：hadoop中，搜索到495个结果！码迷,mamicode.com！

Hadoop MapReduce

一、概述 1.是Hadoop中的一套分布式的计算框架 2.将整个计算过程拆分为2个阶段：Map阶段、Reduce阶段 3.Map阶段一般负责数据的整理，Reduce阶段负责数据的汇总 4.如果输入路径是一个文件，则MapReduce只处理这个文件；如果输入的是一个目录，则处理这个目录下的所有文件 - ...

分类：其他好文时间：2020-06-23 15:36:59 阅读次数：38

配置文件说明

默认配置文件要获取的默认配置文件文件存放在Hadoop的jar包中的位置自定义配置文件[etc/hadoop]中 [core-default.xml] hadoop-common-2.10.0.jar/core-default.xml [core-site.xml] [hdfs-default ...

分类：其他好文时间：2020-06-22 12:33:23 阅读次数：48

Apache Avro 简介

一、引言 1、简介 Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统，可以 ...

分类：Web程序时间：2020-05-31 22:07:53 阅读次数：125

HDFS学习之客户端API操作

org.apache.hadoop.fs.FileSystem是Hadoop中一个相当通用的文件系统的抽象基类，它是一个面向最终用户的接口类。应该将所有可能使用Hadoop分布式文件系统的用户代码编写为使用一个FileSystem对象。Hadoop DFS是一种多机系统，显示为单个磁盘，由于其容错能 ...

分类：Windows程序时间：2020-05-23 18:35:18 阅读次数：74

Hive ORC File Format

背景早在2013年1月，ORC(Optimized Row Columnar)出现，作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。目前有很多公司已经大规模使用ORC了，比如Facebook ...

分类：其他好文时间：2020-05-21 16:21:16 阅读次数：76

Hadoop中的setOutputKeyClass和setOutputValueClass

https://blog.csdn.net/qq_16403141/article/details/77598532 setOutputKeyClass和setOutputValueClass默认是同时设置map和reduce的输出类型的。解决办法：当K2, V2 和K3 , V3类型不一致时， ...

分类：其他好文时间：2020-05-04 19:27:28 阅读次数：66

hadoop-MapReduce框架原理之Shuffle机制

1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle，shuffle机制是整个MapReduce框架中最核心的部分； 1.1.2 shuffle翻译成中文的意思为：洗牌，发牌（核心机制：数据分区，排序，缓 ...

分类：其他好文时间：2020-04-02 18:08:23 阅读次数：115

MapReduce深入

hadoop中map和reduce都是进程（spark中是线程），map和reduce可以部署在同一个机器上也可以部署在不同机器上。输入数据是hdfs的block，通过一个map函数把它转化为一个个键值对，并同时将这些键值对写入内存缓存区（100M），内存缓存区的数据每满80M就会将这80M数据写 ...

分类：其他好文时间：2020-04-01 00:56:20 阅读次数：58

5，Hadoop中的文件

1，文件结构 · bin：脚本和命令目录。 · etc：配置文件目录。 · sbin：命令目录，主要包含HDFS和YARN中各类服务的启动和关闭，依赖于bin中的脚本。 · share：各个模块编译后的jar包，和示例代码。 · libexec：各个服务的shell配置文件目录，比如配置日志输出目录 ...

分类：其他好文时间：2020-03-03 01:12:53 阅读次数：70

hadoop hdfs学习（一）

一、HDFS的简介及优缺点 HDFS（Hadoop Distributed File System）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分，因为它涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS ...

分类：其他好文时间：2020-02-23 11:48:58 阅读次数：77

共495条上一页 1 2 3 4 ... 50 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)