一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系 ...
分类:
编程语言 时间:
2020-06-21 11:32:34
阅读次数:
65
1.Hadoop平台: 1.理论概念:结构组成: 1. HDFS分布式文统.2.MapReduce计算大数据. 3Yarn任务调度与资源管理. 2. 伪分布式环境搭建: 网络配置: 配置网卡信息: vi /etc/sysconfig/network 配置主机的虚拟域名: vi /etc/hosts ...
分类:
其他好文 时间:
2020-06-21 11:26:51
阅读次数:
96
元数据更新过程? MapReduce的Shuffle过程? HDFS的读的流程? HDFS写的流程? 如何将hadoop配置文件从一台机器同步到另一台机器上? scp -r hadoop-2.7.3 hpsk@192.168.134.222:/opt/modules/ 如何终止yarn上正在运行的程 ...
分类:
其他好文 时间:
2020-06-15 23:20:15
阅读次数:
144
大型网络技术架构3 2020.3.14 分层 最常见的架构模式,将系统在横向维度上切分成几个部分,每个部分单一职责。网站一般分为三个层次:应用层、服务层和数据层,过分层,一个庞大系统切分成不同部分,便于分工合作和维护。 分割: 分割是在纵向方面对软件进行切分->将不同的功能和服务分割开来,包装成高内 ...
分类:
其他好文 时间:
2020-06-13 21:06:18
阅读次数:
57
ApacheSpark是行业中流行和广泛使用的大数据工具之一。ApacheSpark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apacheflink。ApacheSpark简介ApacheSpark是为快速计算而设计的开源,闪电般快速的集群计算框架。ApacheSpark扩展了MapReduce模型,以有效地将其用于多种计算,包括流处理和交互式查询。ApacheSpark的主要功能
分类:
Web程序 时间:
2020-06-12 09:14:25
阅读次数:
61
python是一门非常高级的编程语言,同时python作为人工智能的重要编程语言,无论发展前景还是就业方向,都可以说是无可限量。
分类:
编程语言 时间:
2020-06-11 00:42:34
阅读次数:
104
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
一、收集 执行NewOutputCollector对象的write方法就开启了对map输出数据的收集过程: ? collector是一个MapOutputCollector类型的变量,它是实际执行收集数据功能的对象载体: private final MapOutputCollector<K,V> c ...
分类:
其他好文 时间:
2020-06-08 18:53:43
阅读次数:
64
做为一个业务马拉松爱好者和一个不太专业的IT从业者(十多年开发不会,业务略懂,没形成自己的价值体系,啥啥没心得,得过且过十几年),在马拉松的时候想到了这个对照关系。 那就随便写写,看到了博君一笑。 hadoop的map阶段,是通过transform操作,将数据进行转换,这个阶段数据都是在各个机器上, ...
分类:
其他好文 时间:
2020-06-08 00:39:55
阅读次数:
61
一、Hive的压缩和存储 1,MapReduce支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEF ...
分类:
其他好文 时间:
2020-06-07 19:08:04
阅读次数:
65