1.1、概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2、sqoop1与 ...
分类:
其他好文 时间:
2020-05-31 19:30:40
阅读次数:
69
Spark提供的主要抽象是resilient distributed dataset(RDD) 弹性分布式数据集,它是跨集群节点划分的元素的集合,可以并行操作。通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或驱动程序中现有的Scala集合开始并进行转换来创建RDD。用户还 ...
分类:
编程语言 时间:
2020-05-31 16:03:22
阅读次数:
92
Apache Spark Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...
分类:
Web程序 时间:
2020-05-31 00:41:36
阅读次数:
95
一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据 建议每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录 使用 dfs.name.d ...
分类:
系统相关 时间:
2020-05-30 21:52:59
阅读次数:
105
最近工作中用了了Hadoop,比如用Hadoop来处理广告的一些pv量数据、点击数据等,最后统计后给运营展示每个广告的数据报表 首先自己了解了一些关于Hadoop的概念知识 hadoop平台提供了分布式存储(hdfs),分布式计算(mapredduce),任务调度(YARN)、对象存储(Ozone) ...
分类:
其他好文 时间:
2020-05-30 20:22:33
阅读次数:
94
第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中 ...
分类:
其他好文 时间:
2020-05-30 20:21:57
阅读次数:
82
第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flum ...
分类:
Web程序 时间:
2020-05-30 19:56:36
阅读次数:
89
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha ...
分类:
其他好文 时间:
2020-05-30 19:42:06
阅读次数:
53
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive ...
分类:
其他好文 时间:
2020-05-30 19:36:05
阅读次数:
56
1、HBase安装说明 JDK1.7以上 Hadoop-2.5.0以上 Zookeeper-3.4.5 2、Hadoop2.6安装 1) 解压 tar -zxvf hadoop-2.6.0.tar.gz 2) 配置hardoop的jdk cd /root/tools/hadoop-2.6.0/etc ...
分类:
其他好文 时间:
2020-05-30 15:46:42
阅读次数:
67