1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的List;将数据加载为RDD时,一般一个hdfs里的block会加载为一个partition。 对于RDD来说,每 ...
分类:
其他好文 时间:
2021-01-25 11:30:09
阅读次数:
0
我们学习hadoop,最常见的编程是编写mapreduce程序,但是,有时候我们也会利用java程序做一些常见的hdfs操作。比如删除一个目录,新建一个文件,从本地上传一个文件到hdfs等,甚至是追加内容到hdfs文件中。 这里介绍一些常见的hdfs操作的java示例,帮助我们加深对hdfs的理解。 ...
分类:
编程语言 时间:
2021-01-19 11:58:35
阅读次数:
0
热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机,恢复流程是什么样的? 5.通常你是如何解决Haddop的NameNode宕机的,流程是什么? 6.描述一下NameNode对元数据的管理 7.NameNo ...
分类:
其他好文 时间:
2021-01-14 10:47:06
阅读次数:
0
1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:
其他好文 时间:
2021-01-04 11:31:11
阅读次数:
0
##每周总结 |学习时间|代码量|博客量|学习的知识点|下周任务| | | | | | | |20小时|1800左右|1篇|做了mapreduce实例|继续完成xxxx系统| ...
分类:
其他好文 时间:
2021-01-01 12:12:26
阅读次数:
0
用maven打成jar包后,Main.class.getClassLoader().getResource("")为null。 示例: public static void main(String[] args) { System.out.println(Main.class.getResource ...
分类:
编程语言 时间:
2020-12-24 11:31:58
阅读次数:
0
MapReduce详细工作流程之Map阶段 如上图所示 首先有一个200M的待处理文件 切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片 提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要提交jar包;本地 ...
分类:
其他好文 时间:
2020-12-22 12:23:51
阅读次数:
0
1、提交任务 //提交任务直到返回结果job.waitForCompletion(true); 2、点击waitForCompletion方法到Job.java类 3、跟进到submit方法,调用方法: return submitter.submitJobInternal(Job.this, clu ...
分类:
其他好文 时间:
2020-12-21 11:24:14
阅读次数:
0
Ambari2.7.4+HDP3.1.4安装Centos7离线安装标签(空格分隔):大数据平台构建一:关于HDP的介绍二:系统环境介绍三:系统环境初始化四:安装HDP3.1.4平台一:关于HDP的介绍1.1ambari的介绍Ambari是一种基于Web的工具,支持ApacheHadoop集群的创建、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、P
分类:
其他好文 时间:
2020-12-16 11:45:59
阅读次数:
4
把spring boot项目生成的jar打成docker镜像并生成docker容器完成部署是比较简单方便的部署方式,而且部署过程很少会出错。 部署步骤 1.利用maven或者gradle完成打包工作,打成jar包的形式。 2.在项目中的任意位置创建Dockerfile文件,本人的文件如下: FROM ...
分类:
编程语言 时间:
2020-12-14 13:30:55
阅读次数:
4