HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hiv ...
分类:
其他好文 时间:
2021-01-21 10:54:30
阅读次数:
0
# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...
分类:
其他好文 时间:
2021-01-18 11:29:36
阅读次数:
0
1.数据格式 1 2 x2 2 x3 2 x4 2 x 2.创建表 创建TEXTFILE格式的表 CREATE TABLE test_txt(id int,num int,txt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES ...
分类:
其他好文 时间:
2021-01-18 10:51:25
阅读次数:
0
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:
其他好文 时间:
2021-01-15 12:15:21
阅读次数:
0
工作中有一张类型信息表,有时候需要不同的类型信息需要多次扫描这张表,表很大的时候影响效率。 优化前: select t1.fa_id,t2.srch_char_val,t3.srch_char_val from (select fa_id from cisadm_ods.ods_cis_ci_fa_ ...
分类:
其他好文 时间:
2021-01-13 10:40:03
阅读次数:
0
* 如果是非Ubuntu系统,下面的apt-get命令要换成yum命令。apt-cache search all | grep -> yum list installed | grepapt-get purge -y -> yum remove -y其中的参数-y是过程中所有提示都自动选yes的作用 ...
分类:
其他好文 时间:
2021-01-07 12:30:42
阅读次数:
0
原文地址 1、安装环境要求 3台可以网络通信的Linux主机,并且安装了docker 安装1.12.0以上的docker 管理节点的IP地址 主机之间开放端口 2、准备3台主机 3台主机可以是物理机,虚拟机,云主机,甚至是docker machine创建的主机。并安装docker。三台主机分别是ma ...
分类:
其他好文 时间:
2021-01-07 12:28:40
阅读次数:
0
Atlas 作用: 记录并展示Hive表字段含义,以及表和字段之间的数据血缘关系。 局限: 依赖HBase和solr。 Azkaban 作用: 实现任务流执行,满足任务间依赖关系。 局限: 任务能添加依赖的任务,但是不能传参数,任务流中任意一条路线断了,不能这条路线重启执行。 ...
分类:
其他好文 时间:
2021-01-07 12:23:38
阅读次数:
0
注意: 每个redis节点使用相同硬件的配置,相同的版本,相同的密码。 redis节点必须没有任何数据,否则分配槽位会失败。 集群规划: 原生命令手动部署集群 部署过程 安装redis并配置开启cluster功能 各个节点执行meet,实现所有节点互相通信 为每个master节点分配槽位 为每个ma ...
分类:
其他好文 时间:
2021-01-06 12:27:22
阅读次数:
0
之前搭建的是eureka单机版,现在搞个集群版。单机和集群之间要改的部分其实只是配置文件而已,步骤如下: 1.创建新的一个eurekaServer的模块,关于依赖和配置可参考已有的eurekaServer 2.先到本地的host文件配置如下的信息: 127.0.0.1 eureka7001.com ...
分类:
编程语言 时间:
2021-01-06 12:03:41
阅读次数:
0