hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml ...
分类:
其他好文 时间:
2019-05-01 13:33:25
阅读次数:
133
hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml ...
分类:
其他好文 时间:
2019-05-01 13:27:16
阅读次数:
149
简介:这里先手写一个MR程序,大致实现一个单词计数程序。帮助后面学习MapReduce组件。 1:先自定义一个Mapper接口 2:定义一个Context类: 该类主要实现数据的传输,和数据的封装(这里用的一个HashMap进行封装的) 3:实现Mapper类(其实这里就是简化的Map和Reduce ...
分类:
其他好文 时间:
2019-05-01 01:46:46
阅读次数:
255
本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。 Hadoop的默认配置文件(以cdh5.0.1为例): core-default.xml hdfs-default.xml mapred-default.xml 说明: 在hadoop2中有些参数名称过时了,例 ...
分类:
其他好文 时间:
2019-04-30 23:44:35
阅读次数:
195
Java学习这一部分是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈每个阶段要学习的内容甚至是一些书籍。这一部分的内容,同样适用于一些希望转行到Java的同学。 在大家看之前,我 ...
分类:
编程语言 时间:
2019-04-29 20:40:48
阅读次数:
135
MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程 Shuffle 过程: 首先,map 输出的<key,value > 会放在内存中,内存有一定的大小,超过之后,会将内存里的东西溢写(spill) 到磁盘(disk)中 。在从内存溢 ...
分类:
其他好文 时间:
2019-04-26 13:17:05
阅读次数:
109
1 简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的[SQL]查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用, ...
分类:
系统相关 时间:
2019-04-23 15:47:11
阅读次数:
174
set mapreduce.job.queuename=root.kg;set hive.exec.dynamic.partition.mode=nonstrict; drop table if exists kg_fk_city; set mapreduce.job.queuename=root. ...
分类:
其他好文 时间:
2019-04-19 17:43:10
阅读次数:
146
hadoop的基本概念伪分布式hadoop集群安装hdfs、MapReduce演示互联网正在从IT走向DT时代。大数据应用分析1、统计类的分析2、推荐类的分析3、机器学习(分类,聚类)4、人工智能、预测(算法)一、什么是hadoop官网:http://hadoop.apache.orghadoop是apache旗下的一套开源软件平台。是一个可靠的、可扩展的、可分布式计算的开源软件。apacheha
分类:
其他好文 时间:
2019-04-19 12:11:49
阅读次数:
176
本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要分为两部分:1. map 任务输出的数据分组、排序,写入本地磁盘 2. reduce 任务拉取排序。 ...
分类:
其他好文 时间:
2019-04-16 14:39:28
阅读次数:
156