1.mapReduce 的shuffle 过程 : https://www.iteye.com/blog/langyu-992916 2.spark streaming : https://www.jianshu.com/p/0691204282ab CAS的理解? https://www.jian ...
分类:
其他好文 时间:
2020-08-13 12:10:50
阅读次数:
53
一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
分类:
其他好文 时间:
2020-08-13 12:07:11
阅读次数:
88
设置datax java 堆栈内存大小python datax.py --jvm="-Xms5G -Xmx5G" 编译插件mvn -U clean package assembly:assembly -Dmaven.test.skip=true ...
分类:
其他好文 时间:
2020-08-13 11:49:41
阅读次数:
46
新建一个空的文件夹作为项目的目录,并在目录下执行 yarn create umi 或者 npm create umi 如果不创建空目录,可以执行 yarn create umi appname 或者 npm create umi appname 选择ant design pro Select the ...
分类:
其他好文 时间:
2020-08-12 15:54:48
阅读次数:
78
全球性革命数据存储,HDFS即将上线在这个互联网时代,随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式管理系统的最大的变化就是管理对象不再是单机本地分布的,而是分布于网络中。分布式系统同样要为用户提供对文件和目录的相关操作。那么分布式存储类型有哪些呢?HD
分类:
其他好文 时间:
2020-08-12 15:37:17
阅读次数:
61
一、Hadoop集群安装 1. 环境准备 (1) 准备三台机器:hadoop0(192.168.11.10)、hadoop1(192.168.11.11)、hadoop2(192.168.11.12) (2)每台机器安装好JAVA环境以及SSH打通(SSH免密登录;关闭防火墙) 2. 下载Hadoo ...
分类:
其他好文 时间:
2020-08-11 10:44:56
阅读次数:
79
视频学习: https://www.bilibili.com/video/BV1z441127qT?p=1 一、应用现状 一、项目结构 二、安装和使用 安装教程:https://www.bilibili.com/video/BV1z441127qT?p=5 ...
分类:
其他好文 时间:
2020-08-10 23:16:57
阅读次数:
82
数据预处理 在正式处理数据之前对收集的数据进行预先处理的操作。 原因:不管通过何种手段收集的数据 往往是不利于直接分析的 数据中存在的格式规整的差异。 目的:把不干净的数据 格式不规则的数据 通过预处理清洗变成格式统一规整的结构化数据 技术:MapReduce 预处理的编程思路问题 在使用mr编程的 ...
分类:
Web程序 时间:
2020-08-10 17:26:02
阅读次数:
80
JDK下载与配置 Hadoop下载,安装与部署 由于Hadoop是由java编程而写,所有运行环境需要java支持,Hadoop需java1.6及以上支持。 1.JDK 下载与配置 查看当前系统jdk,chuxianOpen JDK 需要卸载 rpm -qa | grep jdk rpm -e -- ...
分类:
其他好文 时间:
2020-08-08 17:41:47
阅读次数:
71