任务的默认排序 MapTask和ReduceTask都会默认对数据按照key进行排序,不管逻辑上是否需要。默认是按照字典顺序排序,且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序,不能保证所有输出全局有序。 MapTask,当环形缓冲区使用率到达一定阈值后进行一 ...
分类:
编程语言 时间:
2020-02-16 01:06:19
阅读次数:
74
(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HD ...
分类:
其他好文 时间:
2020-02-15 18:47:15
阅读次数:
65
距离上次博客时间已经9天,简单记录下这几天的学习过程 2020-02-15 10:38:47 一、Linux学习 关于Linux命令,我在之前就已经学过一部分了,所以这段时间的linux学习更多的是去学习Linux系统的安装以及相关配置多一些,命令会一些比较常用的就够了,下面记录下安装配置Linux ...
分类:
系统相关 时间:
2020-02-15 13:41:12
阅读次数:
94
Hadoop生态架构技术 1、语言基础 Java:掌握javase知识,多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。 Linux:系统安装(命令行界面和图形界面)、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等 ...
分类:
其他好文 时间:
2020-02-15 00:16:06
阅读次数:
86
官方讲解: Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。 个人理解: Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块??以及他们是干嘛 ...
分类:
其他好文 时间:
2020-02-15 00:12:46
阅读次数:
135
因为重新装了系统,导致之前虚拟机及ubuntu系统环境都没有了。因为马上要开学了,学习大数据环境一定是必备的,今天无论如何都要安装好环境。 最开始学习hadoop的时候,我就自己装过虚拟机还有阿里云esc服务器环境,但是只有云服务器安装成功了。但在具体使用过程中,发现纯命令行的界面以及云服务器的 网 ...
分类:
其他好文 时间:
2020-02-14 22:54:00
阅读次数:
75
问题 一个wordcount运行总是报错 java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.hadoop.mapreducedemo1.mapreducedemo.mapper.MyMapperTask 网 ...
分类:
编程语言 时间:
2020-02-14 22:53:25
阅读次数:
96
爬取北京市信件内容: 下载webmagic-0.7-libs.tar.gz压缩包,解压缩。没有压缩包可以加QQ:893225523 通过Filezilla上传到/home/hadoop/下载 sudo tar -zxf ~/下载/webmagic-0.7.3-all.tar.gz -C /data/ ...
分类:
其他好文 时间:
2020-02-14 19:03:24
阅读次数:
108
1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke ...
分类:
其他好文 时间:
2020-02-14 18:33:43
阅读次数:
110
错误: hadoop Requested data length 86483783 is longer than maximum configured RPC length 解决: 修改NameNode的hdfs-site.xml配置文件,添加以下配置: <property> <name>ipc.m ...
分类:
其他好文 时间:
2020-02-14 18:14:56
阅读次数:
74