承接上一篇文档《Spark案例练习-打包提交》 将spark应用运行在yarn集群上 官网地址:http://spark.apache.org/docs/2.0.2/running-on-yarn.html 1. 在spark-env.sh中配置HADOOP_CONF_DIR 或者 YARN_CON ...
分类:
其他好文 时间:
2020-05-19 01:07:50
阅读次数:
53
多线程 35. 并行和并发有什么区别? 并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时间间隔发生。 并行是在不同实体上的多个事件,并发是在同一实体上的多个事件。 在一台处理器上“同时”处理多个任务,在多台处理器上同时处理多个任务。如hadoop分布式集群。 所以并发编程的目 ...
分类:
编程语言 时间:
2020-05-19 00:57:50
阅读次数:
61
大数据实践(一) Hadoop单机搭建(Ubuntu) 前置环境及工具: Ubuntu 16 VirtualBox Hadoop 2.7.3 xftp6 jdk1.8 [TOC] 1、VirtualBox环境准备 001、设置网卡 双网卡:选择桥接模式与仅主机模式。 保证主机与虚拟机之间相互ping ...
分类:
系统相关 时间:
2020-05-19 00:41:06
阅读次数:
78
通用监控指标 对于每个RPC服务应该监控 RpcProcessingTimeAvgTime(PRC处理的平均时间) 通常hdfs在异常任务突发大量访问时,这个参数会突然变得很大,导致其他用户访问hdfs时,会感觉到卡顿,从而影响任务的执行时间 CallQueueLength(RPC Call队列的长 ...
分类:
其他好文 时间:
2020-05-18 20:44:08
阅读次数:
170
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
https://www.cnblogs.com/kisf/p/7494203.html kerberos相关: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 ...
分类:
其他好文 时间:
2020-05-18 15:53:51
阅读次数:
54
一. 安装JDK以及环境变量 1.进入Xshell6,连接虚拟机,把普通用户改成root用户 ? 2.cd到根目录,然后再cd到usr/local文件夹中 3.创建app文件夹 ? 4.进入app文件夹,安装一个rz上传文件组件 yum -y install lrzsz 和 安装vim编辑器 yum ...
分类:
系统相关 时间:
2020-05-18 14:06:28
阅读次数:
114
安装虚拟机,我的是VMwareWorkstationPro12,在VM中创建虚拟机同时安装一个Linux环境。这里就不在细说,如果有需要的朋友可以联系微信号:18008428026,后期可以增加内容。1.准备Linux环境(我的是CentOS6.4版本)1.0在安装好一台linux后,需要配置好网络。网络配置注意:1.后期的虚拟机我们要使用NAT模式进行网络连接,先在本地机选择网络-->右键
分类:
系统相关 时间:
2020-05-18 09:20:49
阅读次数:
117
第一步:配置网络(静态IP) (网卡名称可能不同) 1. 修改: 将该配置文件中的ONBOOT=no修改为yes(网络开机自启) 将BOOTPROTO=dhcp修改为static(将ip设置为静态ip) 2. 为了能够通过外部访问到虚拟机,增加: IPADDR=192.168.154.110(110 ...
分类:
其他好文 时间:
2020-05-17 20:35:34
阅读次数:
76
公司测试环境的namenode出现损坏启动不了。 一开始是因为把机器的dfs目录改成了权限777,后来百度了下发现755才可以。 修改完发现namenode启动过程一直报edits文件里面存在文件丢失。 通过下面两个命令进行对edits转换成xml 修改内部不存在文件为OP_SET_PERMISSI ...
分类:
其他好文 时间:
2020-05-17 19:10:24
阅读次数:
82