1. 查看日志,找到出错位置。 源码位置:hbase-0.94.11\src\main\java\org\apache\hadoop\hbase\master\AssignmentManager.java 1879 可以看到,问题是由于把某个region进行transit过程中出现了错。 造成的原因 ...
分类:
其他好文 时间:
2020-04-29 23:53:35
阅读次数:
149
分布式中最重要的一个概念:为了解决单个物理服务器容量和性能瓶颈问题而采用的优化手段。 在不同的技术层面,分布式有不同的体现:分布式文件系统、分布式缓存、分布式数据库、分布式计算。一些名词hadoop、zookeeper、MQ等都给分布式有关。 从理念上讲,分布式的实现有两种形式: (1) 水平扩展: ...
分类:
其他好文 时间:
2020-04-29 18:48:00
阅读次数:
70
相关函数: 操作DataFrame 1.data.printSchema:打印出每一列的名称和类型 2.data.show(numRows:Int):输出data 3.Data.head(n:int).foreach(println): 这个函数也需要输入一个参数标明需要采样的行数,而且这个函数返回 ...
分类:
其他好文 时间:
2020-04-29 15:01:03
阅读次数:
60
? 1.主机名和IP配置 我们按照【三节点大数据环境安装教程1】已经完成虚拟机的克隆,但是我们克隆出来的三台虚拟机的配置是一样的需要做简单的修改. 1.1 启动三台虚拟机 1.启动第一台虚拟机 2.启动第二台虚拟机 3.启动第三台虚拟机 1.2 配置三台虚拟机主机名 1. 首先使用root用户名和r ...
分类:
其他好文 时间:
2020-04-29 14:55:31
阅读次数:
72
spark批处理模式: receiver模式:接收数据流,负责数据的存储维护,缺点:数据维护复杂(可靠性,数据积压等),占用计算资源(core,memory被挤占) direct模式:数据源由三方组件完成,spark只负责数据拉取计算,充分利用资源计算 window计算: def windowApi ...
分类:
其他好文 时间:
2020-04-29 14:30:19
阅读次数:
68
问题 执行 spark-submit --master local模式时产生warn并达重试数限制失败,导致spark local不能启动: ... WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port ...
分类:
其他好文 时间:
2020-04-29 12:46:42
阅读次数:
126
一、安装Hive 1.1下载并解压Hive 1.2 将hive添加到环境变量 1.3 激活配置 二、配置Hive 2.1配置hive配置文件,hive元数据默认存储到derby数据库中,我们这里使用mysql来存储,hive site.xml配置信息较多建议下载到windows下修改,然后再传上去 ...
分类:
其他好文 时间:
2020-04-29 10:59:03
阅读次数:
65
Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。本节介绍使用Spark Data Sources加载和保存数据的一般方法,然后介绍可用于内置数据 ...
分类:
其他好文 时间:
2020-04-29 10:49:26
阅读次数:
64
Hadoop 2.x 集群安装,包括 HDFS 集群、Yarn 集群以及 MapReduce 的安装
分类:
其他好文 时间:
2020-04-29 10:44:59
阅读次数:
76