搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

Apache Spark

Apache Spark Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...

分类：Web程序时间：2020-05-31 00:41:36 阅读次数：95

优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录使用 dfs.name.d ...

分类：系统相关时间：2020-05-30 21:52:59 阅读次数：105

azkaban从入门到实战

一概述 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行 ...

分类：其他好文时间：2020-05-30 20:00:49 阅读次数：59

hive从入门到实战一

第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计（分析数据的框架）。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序。 1）Hive ...

分类：其他好文时间：2020-05-30 19:36:05 阅读次数：56

spark源码解析总结

Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架，spark 2.X 版本以后完全抛弃 akka，而使用 netty 作为新的网络通信框架。最主要原因：spark 对 akka 没有维护，需要 akka 更新，spark 的发展受到了 akka 的牵制，akka 版本之间 ...

分类：其他好文时间：2020-05-29 19:20:02 阅读次数：70

Hadoop简介

Hadoop 简介：两大核心：HDFS+MapReduce Hadoop1.0，Hadoop2.0 Linux：基础 shell，sudo Hadoop集群的部署与使用先访问nameNode 存储DataNode JobTracker TaskTracker 分布式文件系统伪分布式：就是吧名称 ...

分类：其他好文时间：2020-05-29 17:44:12 阅读次数：71

解决 hive maPredue转换hivesql出错Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码 <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value ...

分类：移动开发时间：2020-05-28 16:35:18 阅读次数：115

大数据之Spark单词统计

题目三：使用Spark Core 统计文件中以spark开头的单词中，每个单词出现的次数（共计30分） spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...

分类：其他好文时间：2020-05-26 22:06:21 阅读次数：102

MapReduce数据清

说明：数据清洗的过程往往只需要运行Mapper程序，不需要运行Reduce程序。已采集到日志数据存入web.log文件中，其中一条日志格式如下： 101.206.68.147 - - [18/Sep/2018:20:05:16 +0000] "HEAD / HTTP/1.2" 200 20 "-" ...

分类：其他好文时间：2020-05-25 12:28:31 阅读次数：61

MapReduce没有输出 & Rducer中将数据放入集合总会放入同一个引用问题

MapReduce没有输出，得到一个空的文件夹 1. Map输出类型和Reducer的输入类型对不上 2. myMapper和myReducer类不是static的，这样在主方法中使用myReducer.class就有问题将数据放入集合总会放入同一个引用问题在reduce()方法中直接将key和 ...

分类：其他好文时间：2020-05-24 12:05:23 阅读次数：68

共4100条上一页 1 ... 12 13 14 15 16 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)