一、心跳机制 1、心跳报告概念 datanode会定时的向namenode发送心跳报告,目的是告诉namenode自己的存活状况以及可用空间。这个时间默认为3秒。 2、心跳报告具体作用 (1)向namenode汇报自己的存活状况以及可用空间 (2)向namenode发送块报告,每一个datanode ...
分类:
其他好文 时间:
2019-06-30 20:53:26
阅读次数:
337
第一节:hdfs简介 用于海量数据存储的,就是一个文件系统,分布式文件系统。 hadoop distributed filesystem 第二节:设计思想 一、分而治之 将超级大的文件切分成每一个小文件(数据块)进行存储在不同的节点上。同时切分的数据块太大了,容易造成集群中节点的存储的负载不均衡。太 ...
分类:
其他好文 时间:
2019-06-30 20:44:39
阅读次数:
147
Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDFS/HIVE sqoop数据到MySQL ...
分类:
其他好文 时间:
2019-06-30 19:20:31
阅读次数:
142
一、简介 hive运行的本质就是将hql语句,转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作,是hive执行hql语句的最小单位。 二、几个典型语句的分析 1、join 2、group by 3、order by shuffle 的排序,二 ...
分类:
其他好文 时间:
2019-06-30 18:45:07
阅读次数:
122
一、参数说明 启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理过程如下。 二、spark.yarn.archive使用 1.在本 ...
分类:
编程语言 时间:
2019-06-30 17:29:19
阅读次数:
380
Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等. ...
分类:
其他好文 时间:
2019-06-30 16:00:41
阅读次数:
116
hadoop HA搭建参考:https://www.cnblogs.com/NGames/p/11083640.html (本节:用不到YARN 所以可以不用考虑部署YARN部分) Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格 ...
分类:
其他好文 时间:
2019-06-30 09:17:07
阅读次数:
122
启动HIV 启动hiv的前提条件是HDFS和YARN都可以正常在启动中 /apps/apache-hive-1.2.1-bin/bin/hive 查询HIV的sql语句 select sex,count(1) from t_bigdata group by male ; hive的脚本化运行使用方式 ...
分类:
其他好文 时间:
2019-06-28 15:09:43
阅读次数:
109
什么是HBase数据库 HBase是分布式、面向列族的开源数据库; HDFS为HBase提供可靠的底层数据存储服务; Zookeeper为HBase提供稳定服务和Failover机制; HBase是一个通过大量廉价机器解决海量数据的高速存储和读取的分布式数据库解决方案案。 HBase数据库有什么特点 ...
分类:
其他好文 时间:
2019-06-26 19:19:46
阅读次数:
123
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上 一些空格和 “ \ ”,换行继续写余下的命令: bin/sqoop import --connect jdbc:mysql://192.168.25.2 ...
分类:
其他好文 时间:
2019-06-26 13:22:18
阅读次数:
91