hive中可能会出现一个非常常见的异常:Specified key was too long;max key length is 767 bytes?是mysql/hive字符集问题。需要改变hive元数据库的字符集:mysql>alert database ruozedata character ...
分类:
其他好文 时间:
2019-12-26 19:14:17
阅读次数:
69
一、Hbase基本原理 1、hbase基本介绍 HBASE是一个分布式的,面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统(HDFS),基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量,hbase采用的是key、value的存储方式。意 ...
分类:
数据库 时间:
2019-12-26 17:38:01
阅读次数:
82
Hadoop Distributed File System:分布式文件系统。 HDFS基于流数据模式访问和处理超大文件需求开发,具有高容错性,高可靠性,高可扩展性,多部署在低成本的硬件上。HDFS提供对应用程序数据的高吞吐量访问,便利了海量数据的处理介绍假设和目标硬件故障:检测故障并从中快速恢复流... ...
分类:
其他好文 时间:
2019-12-25 23:59:16
阅读次数:
161
1. 摘要 对于大数据而言,数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle,MySql上。到大数据时代,基于hadoop生态的大数据架构,数仓基本上都是基于hive的数仓。对于很多大数据开发者而言,特别是早期,很多开发者认为hive数仓就是和业务相关,隐射Hdfs数据文件的 ...
分类:
其他好文 时间:
2019-12-24 19:02:30
阅读次数:
109
这里将介绍Flink对有状态计算的支持,其中包括状态计算和无状态计算的区别,以及在Flink中支持的不同状态类型,分别有 Keyed State 和 Operator State 。另外针对状态数据的持久化,以及整个 Flink 任务的数据一致性保证,Flink 提供了 Checkpoint 机制处 ...
分类:
其他好文 时间:
2019-12-24 18:32:48
阅读次数:
94
随着互联网、云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控、电子商务、地理信息等,这些应用都需要对海量图片的存储和检索。由于图片大多是小文件(80%大小在数MB以内),以GFS、HDFS为代表的适用于流式访问大文件的分布式存储系统,若直接用来存储图片,由于元数据膨胀,在扩展性和性能方面均存在严重问题。为了解决HDFS在小文件存储方面的问题,通常的做法是先将很
分类:
其他好文 时间:
2019-12-24 09:51:12
阅读次数:
72
一、准备工作 1.准备几台机器,我这里使用VMware准备了四台机器,一个name node,三个data node。 VMware安装虚拟机:https://www.cnblogs.com/nijunyang/p/12001312.html 2.Hadoop生态几乎都是用的java开发的,因此四台 ...
分类:
其他好文 时间:
2019-12-24 09:29:42
阅读次数:
66
1.通过代码验证集群的配置文件的优先级 HDFS文件上传 1.编写源代码 @Test public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文 ...
分类:
其他好文 时间:
2019-12-23 20:44:08
阅读次数:
90
在向Hbase中写入数据时,常见的写入方法有使用HBaseAPI,Mapreduce批量导入数据,使用这些方式带入数据时,一条数据写入到HBase数据库中的大致流程如图。数据发出后首先写入到雨鞋日志WAl中,写入到预写日志中之后,随后写入到内存MemStore中,最后在Flush到Hfile中。这样写数据的方式不会导致数据的丢失,并且道正数据的有序性,但是当遇到大量的数据写入时,写入的速度就难以保
分类:
其他好文 时间:
2019-12-23 11:44:43
阅读次数:
247