码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Apache Spark
Apache Spark Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...
分类:Web程序   时间:2020-05-31 00:41:36    阅读次数:95
优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化
一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据 建议每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录 使用 dfs.name.d ...
分类:系统相关   时间:2020-05-30 21:52:59    阅读次数:105
azkaban从入门到实战
一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 ...
分类:其他好文   时间:2020-05-30 20:00:49    阅读次数:59
hive从入门到实战一
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive ...
分类:其他好文   时间:2020-05-30 19:36:05    阅读次数:56
spark源码解析总结
Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间 ...
分类:其他好文   时间:2020-05-29 19:20:02    阅读次数:70
Hadoop简介
Hadoop 简介: 两大核心:HDFS+MapReduce Hadoop1.0,Hadoop2.0 Linux:基础 shell,sudo Hadoop集群的部署与使用 先访问nameNode 存储DataNode JobTracker TaskTracker 分布式文件系统 伪分布式:就是吧名称 ...
分类:其他好文   时间:2020-05-29 17:44:12    阅读次数:71
解决 hive maPredue转换hivesql出错Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码 <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value ...
分类:移动开发   时间:2020-05-28 16:35:18    阅读次数:115
大数据之Spark单词统计
题目三:使用Spark Core 统计文件中以spark开头的单词中,每个单词出现的次数(共计30分) spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...
分类:其他好文   时间:2020-05-26 22:06:21    阅读次数:102
MapReduce数据清
说明:数据清洗的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 已采集到日志数据存入web.log文件中,其中一条日志格式如下: 101.206.68.147 - - [18/Sep/2018:20:05:16 +0000] "HEAD / HTTP/1.2" 200 20 "-" ...
分类:其他好文   时间:2020-05-25 12:28:31    阅读次数:61
MapReduce没有输出 & Rducer中将数据放入集合总会放入同一个引用问题
MapReduce没有输出,得到一个空的文件夹 1. Map输出类型和Reducer的输入类型对不上 2. myMapper和myReducer类不是static的,这样在主方法中使用myReducer.class就有问题 将数据放入集合总会放入同一个引用问题 在reduce()方法中直接将key和 ...
分类:其他好文   时间:2020-05-24 12:05:23    阅读次数:68
4100条   上一页 1 ... 12 13 14 15 16 ... 410 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!