一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:
数据库 时间:
2020-08-07 21:45:52
阅读次数:
79
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...
分类:
数据库 时间:
2020-08-03 19:56:21
阅读次数:
103
首先准备三台虚拟机,三台机器所有配置是一样的,这里以node1节点为例 ip地址 主机名 192.168.1.201 node1 192.168.1.202 node2 192.168.1.203 node3 关闭防火墙 systemctl stop firewalld.service 修改/etc ...
分类:
其他好文 时间:
2020-08-02 16:15:02
阅读次数:
89
一、安装Anaconda3 下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 注意:Anaconda自带Python,根据要安装的python版本选择对应的anaconda包,我安装的是Anaconda3-2018.12-Linu ...
分类:
系统相关 时间:
2020-08-01 21:23:55
阅读次数:
92
1,简介 Hive : 数据仓库。Hive:解释器,编译器,优化器等。Hive 运行时,元数据存储在关系型数据库里面 2,架构 (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至H ...
分类:
其他好文 时间:
2020-07-30 01:33:30
阅读次数:
77
Impyla是用于分布式查询引擎的HiveServer2实现(如Impala、Hive)的python客户端 1)安装impyla pip install impyla 安装报错 解决办法: 根据提示下载对应的工具 https://visualstudio.microsoft.com/zh-hans ...
分类:
编程语言 时间:
2020-07-29 21:58:39
阅读次数:
103
1.redis是单线程,高性能的key/value内存数据,基于内存运行并支持持久化的NoSQL数据库 2.redis主要用来做缓存,但不仅仅是做缓存,例如:redis的计数器生成分布式唯一主键,redis实现分布式锁,队列,会话缓存 安装单节点redis 1、安装gcc套装: yum instal ...
分类:
其他好文 时间:
2020-07-29 21:49:59
阅读次数:
75
NN-1 NN-2 DN ZK ZKFC JNN RS NM(和DN在一起) node0001 * * * node0002 * * * * * * node0003 * * * * * node0004 * * * * 1,修改配置文件 cd /opt/sxt/hadoop-2.6.5/etc/h ...
分类:
其他好文 时间:
2020-07-29 00:45:28
阅读次数:
156
第1章 Superset安装及使用 Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。 由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自 ...
分类:
其他好文 时间:
2020-07-29 00:42:59
阅读次数:
103
1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 ...
分类:
其他好文 时间:
2020-07-29 00:41:18
阅读次数:
111