一.Fetch抓取 Fetch抓取是指,Hive 中对某些情况的查询可以不必使用MapReduce计算。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 mo ...
分类:
其他好文 时间:
2020-01-28 23:21:26
阅读次数:
87
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68
原理流程分析 Map端: 文件存储在HDFS中,每个文件切分成多个一定大小(默认128M)的Block(默认3个备份)存储在多个数据节点上,数据格定义以"\n"分割每条记录,以空格区分一个目标单词。 每读取一条记录,调用一次map函数,然后继续读取下一条记录直到split尾部。 map 输出的结果暂 ...
分类:
其他好文 时间:
2020-01-28 16:02:42
阅读次数:
109
1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则 ...
分类:
其他好文 时间:
2020-01-28 12:23:08
阅读次数:
98
JDK的安装 JDK使用root用户安装 上传安装包并解压 配置环境变量 验证Java版本 配置配置ssh localhost 检测 正常情况下,本机通过ssh连接自己也是需要输入密码的 生成私钥和公钥秘钥对 将公钥添加到authorized_keys 赋予authorized_keys文件600的 ...
分类:
其他好文 时间:
2020-01-26 19:25:35
阅读次数:
94
一. Hive基础概念 1.什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序。 1)Hiv ...
分类:
其他好文 时间:
2020-01-26 11:46:27
阅读次数:
96
1.1.1 配置调优 通过调节配置参数,达到较优的性能。Map配置参数 属性 类型 默认值 作用 mapreduce.Task.io.sort.mb Int 100 Map输出结果的缓冲区大小兆为单位 mapreduce.map.sort.spill.percent Float 80 缓冲区占用比例 ...
分类:
其他好文 时间:
2020-01-24 16:06:03
阅读次数:
91
1.1 Shuffle和排序 Shuffle:系统执行排序,将map输出作为输入传给reduce的过程称为shuffle。 1.1.1 Map端缓存排序输出 (1) 写入缓冲区:map输出结果先输出到内存缓冲区(默认100M,通过属性mapreduce.Task.io.sort.mb设置) (2) ...
分类:
编程语言 时间:
2020-01-24 15:56:59
阅读次数:
78
flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume基于流式架构,灵活简单。 大数据框架大致分为3类: 数据的采集和传输:flume 数据的存储:HDFS 数据的计算:MapReduce 1.2 应用场景 ...
分类:
Web程序 时间:
2020-01-23 12:37:38
阅读次数:
103
大部分人没有交换分区的问题。 因为在做Linux的时候交换分区是按照内存的2倍来做的。但是我的是用VM快速装机做的。所以交换分区被设置成了等于内存。 扩展交换分区:https://blog.csdn.net/Ares_song/article/details/81203251 永久添加该文件:htt ...
分类:
Web程序 时间:
2020-01-22 14:50:26
阅读次数:
210