码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
大数据开发面试题详解:Hadoop的运行原理
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。Hadoop不仅仅是大数据技术的核心重点,还是我们面试官面试的时候经常会问道的问题,本文将详细介绍Hadoop的运行原理。 ...
分类:其他好文   时间:2019-01-03 19:25:12    阅读次数:145
大数据小白系列——MR(1)
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具。本期说说MR的基础概念,以及WordCount示例。 ...
分类:其他好文   时间:2019-01-03 12:58:44    阅读次数:201
大数据学习——数据流程图
1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle ...
分类:其他好文   时间:2019-01-02 23:28:02    阅读次数:243
初识Hadoop-MapReduce
原文地址 https://blog.csdn.net/zhruixuan/article/details/85549618 Hadoop的核心是HDFS,YARN,MapReduce。今天先来认识一下MapReduce。 MapReduce是什么 MapReduce是Hadoop中的一种处理大规模数 ...
分类:其他好文   时间:2019-01-02 23:23:01    阅读次数:186
hadoop学习之yarn资源管理
一、yarn简介 yarn是在hadoop2.x中才引入的一个新的机制,在hadoop1.x中MapReduce任务需要同时做任务管理和资源分配,那么引入yarn之后,hadoop的资源管理的任务就全部交给yarn来处理,从而实现存储、任务、资源的分离。 二、yarn的主要角色 1.Resource ...
分类:其他好文   时间:2019-01-01 21:44:24    阅读次数:240
MapReduce案例二:好友推荐
1.需求 推荐好友的好友 图1: 2.解决思路 3.代码 3.1MyFoF类代码 说明: 该类定义了所加载的配置,以及执行的map,reduce程序所需要加载运行的类 3.2FMapper类代码 说明: 该类的作用是编写map阶段的代码,对文本数据做一个预处理,按照规划比较每组的kv 做比较,这里面 ...
分类:其他好文   时间:2019-01-01 00:17:48    阅读次数:164
hive如何执行一条sql的例子
SQL如何在Mapreduce执行 左边是数据表,右边是结果表,这条 SQL 语句对 age 分组求和,得到右边的结果表,到底一条简单的 SQL 在 MapReduce 是如何被计算, MapReduce 编程模型只包含 map 和 reduce 两个过程,map 是对数据的划分,reduce 负责 ...
分类:数据库   时间:2018-12-30 22:22:08    阅读次数:366
ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目
ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目 思路同我之前的博客的思路 https://www.cnblogs.com/symkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤 观察数据的格式,我们主要分析第四个 ...
分类:其他好文   时间:2018-12-29 21:13:48    阅读次数:188
大数据初学者的福利——Hadoop快速入门教程
1、Hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下2、HDFS源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中
分类:其他好文   时间:2018-12-29 18:37:56    阅读次数:220
HDFS节点详解
设计思想 分而治之:将大文件、大批量文件,分布式放在大量服务器上,以便于采取分而治之的方式对海量数据进行预算分析; 在大数据系统中的作用:为各类分布式运算框架(如:MapReduce,Spark等)提供数据存储服务 重要概念:文件切块,副本存放,元数据 HDFS架构 HDFS各节点 NameNode ...
分类:其他好文   时间:2018-12-25 23:37:03    阅读次数:217
4054条   上一页 1 ... 67 68 69 70 71 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!