Hadoop+Hive+Zookeeper+hbase+kylin环境搭建说明
分类:
其他好文 时间:
2020-06-18 16:08:02
阅读次数:
58
1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息 ...
分类:
其他好文 时间:
2020-06-18 14:33:17
阅读次数:
67
原始RDD或数据集中的每一个分区都映射一个或多个数据文件, 该映射是在文件的一部分或者整个文件上完成的。 Spark Job RDD/datasets在执行管道中,通过根据分区到数据文件的映射读取数据输入到RDD/dataset。 如何根据某些参数确定spark的分区数? 影响数据分区数的参数: ( ...
分类:
其他好文 时间:
2020-06-18 13:16:01
阅读次数:
66
最近学习大数据相关的知识,便于对学习知识进行整理记忆,特将学习过程中的一些内容记录于此。 本地环境: Linux系统:Centos 7(最小安装) 内存:4G CPU: 2 网卡:2(IP:10.0.2.5、192.168.56.200) JDK版本:1.8 Hadoop版本:3.2.1 一、虚拟机 ...
分类:
其他好文 时间:
2020-06-18 12:38:35
阅读次数:
45
ubuntu18 默认gcc7 安装低版本gcc4.9报错: 正在读取软件包列表... 完成 正在分析软件包的依赖关系树 正在读取状态信息... 完成 现在没有可用的软件包 gcc,但是它被其它的软件包引用了。 这可能意味着这个缺失的软件包可能已被废弃, 或者只能在其他发布源中找到 E: 软件包gc ...
分类:
系统相关 时间:
2020-06-17 10:42:33
阅读次数:
140
一、基本查询 创建部门表: hive (default)> create table if not exists dept( deptno int, dname string, loc int ) row format delimited fields terminated by '\t'; 创建员 ...
分类:
其他好文 时间:
2020-06-17 10:40:21
阅读次数:
45
zookeeper简介: ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目 ...
分类:
其他好文 时间:
2020-06-17 09:16:36
阅读次数:
76
hbase建表create高级属性 //hbase 表预分区也就是手动分区 这个很重要 下面几个shell 命令在后续的hbase 操作中可以起到很到的作用,且主要体现在建表的过程中,看下面几个create 属性1、BLOOMFILTER 默认是NONE 是否使用布隆过虑使用何种方式布隆过滤可以每列 ...
分类:
其他好文 时间:
2020-06-16 15:09:09
阅读次数:
150
1,在hdfs-site.xml 中配置多目录,提前配置好,以免以后要配置时,需要重启集群。 2,namenode 有一个工作线程池,用来处理不同的datanode的并发心跳和客户端访问并发请求。配置dfs.namenode.handler.count=20 * log2(Cluster Size) ...
分类:
其他好文 时间:
2020-06-16 13:33:15
阅读次数:
64
1,如果预聚合不影响最终结果,可以使用conbine,提前对数据聚合,减少数据量。 2,使用2次mr的方式。第一次mr,在map输出是给key加上一个前缀,则可以把相同的key分配到不同的reduce聚合,可以实现同一个key数据量大的问题;第二次mr对把第一次mr输出的数据的key去掉前缀,在聚合 ...
分类:
其他好文 时间:
2020-06-16 13:24:44
阅读次数:
54