码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
hive大表和小表MapJoin关联查询优化
大表和小表关联查询可以采用mapjoin优化查询速度。那什么是mapjoin呢?理解MapJoin之前先介绍另一种Join方式,CommonJoin。我们知道Hive编写SQL语句,Hive会将SQL解析成MapReduce任务。对于一个简单的关联查询,CommonJoin任务设计Map阶段和Red ...
分类:其他好文   时间:2019-12-11 21:07:29    阅读次数:171
RDD的转换操作,分三种:单value,双value交互,(k,v)对
import org.apache.spark.rdd.RDDimport org.apache.spark.{Partitioner, SparkConf, SparkContext} object Transformation { def main(args: Array[String]): U ...
分类:其他好文   时间:2019-12-10 22:41:03    阅读次数:147
MapReduce On Yarn的执行流程
1、概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的架构如下图所示: 从Yarn的架构图来看,他主要由ResourceManager、NodeManager、Appli ...
分类:其他好文   时间:2019-12-10 20:58:51    阅读次数:97
数据倾斜的原因和解决方案
MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。 ...
分类:其他好文   时间:2019-12-07 01:25:25    阅读次数:158
MapReduce实现好友推荐
MapReduce可以实现一个简单的好友推荐,本文参考了文末博主的思路,个人感觉不错,自己修改部分代码也简单实现了,记录下。 数据准备 如下数据就是好友关系,同一行的两个人就是好友,需要在这数据里寻找两个人是否是潜在好友,即两人不是直接好友,但是却有共同的好友,需要将这样关系的两个人作为结果推荐出去 ...
分类:其他好文   时间:2019-12-07 01:05:23    阅读次数:112
基于Hadoop3.1.2集群的Hive3.1.2安装(有不少坑)
1. 前置条件: 已经安装好了带有HDFS, MapReduce, Yarn 功能的 Hadoop集群 链接: "ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建" 2. 上传tar包并解压到指定目录: 3. 修改hive配置文件: 新建文件夹 ...
分类:其他好文   时间:2019-12-02 13:51:54    阅读次数:127
【转】HBase的MapReduce调用
参考: https://blog.csdn.net/u012848709/article/details/83744699 自己照着搭建了下,顺便把坑也踩了下,项目见云盘: 链接:https://pan.baidu.com/s/1A_ZutmadXRIKJhPYxvg_bw 提取码:49l3 ...
分类:其他好文   时间:2019-11-30 09:49:27    阅读次数:59
MIT6.824食用过程
MIT6.824食用过程 Lab1 MapReduce 一、介绍 本实验使用Go语言构建一个mapreduce库,以及一个容错的分布式系统。第一部分完成一个简单的mapreduce程序,第二部分写一个提交到mapreduce workers 的master 并且要能够处理workers 的错误。 库 ...
分类:其他好文   时间:2019-11-27 19:07:21    阅读次数:119
初识Spark
Spark(一): 基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下 ...
分类:其他好文   时间:2019-11-25 11:52:12    阅读次数:62
troubshooting-sqoop 导出 TiDB表数据报com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure
2019-11-22 17:15:27,705 FATAL [IPC Server handler 13 on 44844] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1574410493054_0011_m_00 ...
分类:数据库   时间:2019-11-23 17:52:36    阅读次数:71
4100条   上一页 1 ... 29 30 31 32 33 ... 410 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!