第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flum ...
分类:
Web程序 时间:
2020-05-30 19:56:36
阅读次数:
89
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha ...
分类:
其他好文 时间:
2020-05-30 19:42:06
阅读次数:
53
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive ...
分类:
其他好文 时间:
2020-05-30 19:36:05
阅读次数:
56
1、HBase安装说明 JDK1.7以上 Hadoop-2.5.0以上 Zookeeper-3.4.5 2、Hadoop2.6安装 1) 解压 tar -zxvf hadoop-2.6.0.tar.gz 2) 配置hardoop的jdk cd /root/tools/hadoop-2.6.0/etc ...
分类:
其他好文 时间:
2020-05-30 15:46:42
阅读次数:
67
String的基本特性 String是字符串,使用一对引号("")包装。 String声明是final的,不可被继承。 String实现了Serializable接口,表示字符串是支持序列化的;实现了Comparable接口,表示String可以比较大小。 String在jdk8及以前内部定义了fi ...
分类:
其他好文 时间:
2020-05-30 12:25:11
阅读次数:
64
CDH6.3.2开启Kerberos认证标签(空格分隔):大数据平台构建一:如何安装及配置KDC服务二:如何通过CDH启用Kerberos三:如何登录Kerberos并访问Hadoop相关服务一:如何安装及配置KDC服务1.1系统环境1.操作系统:CentOS7.5x642.CDH6.3.23.采用root用户进行操作1.2KDC服务安装及配置1.在ClouderaManager服务器上安装KDC
分类:
其他好文 时间:
2020-05-30 11:10:46
阅读次数:
263
( 温馨提示:图片中有id有姓名,不要盗用哦,可参考流程,有问题评论区留言哦 ) 一、任务目标 1、了解Hadoop的3种运行模式 2、熟练掌握Hadoop伪分布模式安装流程 3、培养独立完成Hadoop伪分布安装的能力 二、系统环境 Linux Ubuntu 16.04 三、任务内容 在只安装Li ...
分类:
其他好文 时间:
2020-05-30 01:06:25
阅读次数:
168
###概述 Structured Streaming 是 Spark 2.0 引入的功能,有以下特点 基于 Spark SQL engine 可以直接使用 DataSet/DataFrame API,就像处理离线的批数据一样 Spark SQL engine 持续地、增量地处理流数据 支持 stre ...
分类:
其他好文 时间:
2020-05-29 21:22:01
阅读次数:
77
一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组, ...
分类:
其他好文 时间:
2020-05-29 20:55:31
阅读次数:
55
Spark SQL 1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点: (1)和 Spark Core 的无缝集成,可以在写整个 RDD 应用的时候 ...
分类:
其他好文 时间:
2020-05-29 19:38:34
阅读次数:
75