Hadoop之数据仓库Hive运行机制,常用操作,数据倾斜原因及优化详解2017-12-17 一、Hive是什么 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制 ...
分类:
其他好文 时间:
2017-12-17 16:52:35
阅读次数:
245
sqoop是一个用于在Hadoop和关系型数据库(Oracle,Mysql...)间数据传递的开源工具。下面以mysql、sqlserver为例,介绍使用sqoop将数据从mysql、sqlserver导入到Hadoop中(HDFS、Hive) #导入命令及参数介绍 通用参数 参数名 参数说明 -- ...
分类:
数据库 时间:
2017-12-11 18:54:12
阅读次数:
212
多台主机执行相同的命令 [xcall] [/usr/local/bin] sudo nano xcall #!/bin/bash #获取参数个数 pcount=$# if(pcount<1);then echo no agrs exit; fi for((host=100;host<103;host ...
分类:
其他好文 时间:
2017-11-13 16:52:56
阅读次数:
131
一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容: 它被WordCount程序执行后显示如下日志: 在上图所示 ...
分类:
其他好文 时间:
2017-11-03 13:08:32
阅读次数:
140
一、Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称 ...
分类:
其他好文 时间:
2017-11-03 12:59:30
阅读次数:
215
参考 http://blog.csdn.net/caodaoxi/article/details/12970993 Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上) Hadoop中Yarnrunner里面submit Job以及AM生成 至Jo ...
分类:
其他好文 时间:
2017-10-31 11:15:15
阅读次数:
133
下面是Hadoop中CapacitySchedule配置,包含了新建队列和子队列 ...
分类:
其他好文 时间:
2017-10-25 21:37:56
阅读次数:
239
接上回,hadoop的配置文件都在下载的压缩包目录中的etc/hadoop/中 hadoop-env.sh有个地方配置java_home 其他常用的设置文件有: core-site.xml yarn-site.xml mapred-site.xml hdfs-site.xml 主机的hdfs-sit ...
分类:
其他好文 时间:
2017-10-24 00:11:24
阅读次数:
110
前言 前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。 在Hadoop中为什么要去使用压缩(Compression)呢?接下来我们就知道了。 一、压缩(Compression)概述 1.1、压缩的好处 减少 ...
分类:
其他好文 时间:
2017-10-20 14:09:47
阅读次数:
245
Hadoop 在hadoop中,zk主要用来实现HA(High Availability)。这部分逻辑主要集中在hadoop common的HA模块中,HDFS的NameNode和Yarn的ResourceManager都是基于此HA模块来实现自己的HA功能的。同时,在YARN中又特别提供了zk来存 ...
分类:
其他好文 时间:
2017-10-11 21:46:16
阅读次数:
166