HDFS数据清理一些办法: datanode数据做reblance清理临时目录、日志目录文件全量分区表历史分区清理使用lzo,orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件 #!/bin/bashsource ~/.bash_profile # ...
分类:
其他好文 时间:
2019-09-30 09:32:15
阅读次数:
231
Hadoop 是一个开源框架,可编写和运行分布式应用处理大规模数据 Hadoop框架的核心是HDFS 和 MapReduce HDFS是分布式文件系统(存储) MapReduce是分布式数据处理模型和执行环境(计算) 作者:Doug Cutting Hadoop特点 扩容能力 能可靠地存储和处理千兆 ...
分类:
其他好文 时间:
2019-09-29 11:17:45
阅读次数:
119
1.先下载maven并配置好maven环境变量。之后在idea中配置好maven和tomcat2.创建maven项目 在项目中的pom.xml中导入相应的依赖 1 2 3 junit 4 junit 5 RELEASE 6 7 8 org.apache.logging.log4j 9 log4j-c... ...
分类:
其他好文 时间:
2019-09-28 14:19:00
阅读次数:
307
使用Java Api 操作HDFS 如题 我就是一个标题党 就是使用JavaApi操作HDFS,使用的是MAVEN,操作的环境是Linux 首先要配置好Maven环境,我使用的是已经有的仓库,如果你下载的jar包 速度慢,可以改变Maven 下载jar包的镜像站改为 阿里云。 贴一下 pom.xml ...
分类:
编程语言 时间:
2019-09-27 12:30:48
阅读次数:
95
基于Docker搭建大数据集群(六)Hive搭建 前言 之前搭建的都是1.x版本,这次搭建的是 hive3.1.2 版本的。。还是有一点细节不一样的 Hive现在解析引擎可以选择spark,我是用 spark 做解析引擎的,存储还是用的HDFS 我是在 docker 里面搭建的集群,所以都是基于do ...
分类:
其他好文 时间:
2019-09-27 12:19:45
阅读次数:
107
1:在Windows下配置Hadoop的运行环境 第一步:将hadoop2.7.5文件夹拷贝到一个没有中文没有空格的路径下面 第二步:在windows上面配置hadoop的环境变量: HADOOP_HOME,并将%HADOOP_HOME%\bin添加到path中 第三步:把hadoop2.7.5文件 ...
Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapR ...
分类:
其他好文 时间:
2019-09-25 12:47:34
阅读次数:
126
海量数据处理 分而治之 核心思想: 把数据分发到多个节点 移动计算到数据附近 计算节点进行本地数据处理 优选顺序,次之随机读 一、HDFS概述 修改,先删除,再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据,以及每个文件块的列表,以及块所在datanode的信息。nameno ...
分类:
其他好文 时间:
2019-09-22 16:41:19
阅读次数:
92
1、什么是分库分表? 在同一个系统(项目)中,把一张数据比较多的表放到不同的集群节点上, 这种模式称之为分库分表。 2、需求 使用mycat实现分库分表(HDFS:namenode datanode secondarynamdenode) 在整个mycat中也会使用到namenode和datanod ...
分类:
其他好文 时间:
2019-09-22 01:42:23
阅读次数:
81