续接(三) 3 habse(1.2)集成hive(1.2.1) 》不兼容集成,需要自己编译!!! hive1.x与hbase0.98版本兼容 hive2.x与hbase1.x版本以上兼容 hive0.x与hbase0.98以下兼容 Hive提供了与HBase的集成,使得能够在HBase表上使用hiv ...
分类:
其他好文 时间:
2020-06-27 17:32:18
阅读次数:
54
nosql是泛指对关系型数据库的补充,主要代表是redis,memcache,Hbase,MongoDB 一个电商平台主要包括 1.基本信息 用MySQL储存 2.附加信息 用MongoDB储存 3.图片信息 用分布式文件系统储存 4.关键词 Es,Lucene,solr 5.热点信息(特点 高频, ...
分类:
数据库 时间:
2020-06-27 15:52:03
阅读次数:
68
(1)map package cn.itcast.mapreduce; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; imp ...
分类:
其他好文 时间:
2020-06-27 13:13:03
阅读次数:
59
Hadoop是一个能够对海量数据进行分布式处理的系统架构,主要包含3大块:分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层、分布式计算框架MapReduce分布式计算层、资源管理系统YARN(Yet Another Resource Negotiat... ...
分类:
其他好文 时间:
2020-06-27 11:40:19
阅读次数:
93
三、课堂目标 1. 掌握hbase的数据存储原理 2. 掌握hbase的读流程和写流程 3. 掌握hbase表的region拆分和合并 4. 掌握hbase表的预分区 四、知识要点 1. hbase的数据存储原理 HRegionServer=》多个Region Region=》多个store,一个列 ...
分类:
其他好文 时间:
2020-06-27 00:24:37
阅读次数:
65
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based ...
分类:
Web程序 时间:
2020-06-27 00:19:37
阅读次数:
77
在生产环境中遇到了这种情况:spark程序需要处理输入是多个目录,输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改,最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理,在此记录一下。 程序中所有异常处理,建议都在函数里面处理好,不要直接写一些处理代码。这样 ...
分类:
数据库 时间:
2020-06-27 00:17:57
阅读次数:
80
一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI ...
分类:
其他好文 时间:
2020-06-27 00:14:44
阅读次数:
62
一.集群规划 Master Slave1 Slave2 Slave3 IP 192.168.2.131 192.168.2.132 192.168.2.133 192.168.2.134 namenode 有 有 无 无 datanode 有 有 有 有 resourcemanager 无 无 有 ...
分类:
其他好文 时间:
2020-06-26 23:52:47
阅读次数:
80
三、课堂目标 理解hbase的核心概念 掌握hbase的特点 掌握hbase的架构 掌握hbase存储数据结构 掌握hbase的安装部署 掌握hbase shell命令基本操作 四、知识要点 1. habse是什么 漫画学习hbase 最易懂的Hbase架构原理解析http://developer. ...
分类:
其他好文 时间:
2020-06-26 22:16:02
阅读次数:
61