cdh版本控制CDH安装包下载地址http://archive.cloudera.com/cdh5/parcels/5.13.0/ClouderaManager下载地址http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.13.0/RPMS/x86_64/我们生产环境线上用的cdh5.13.0centos7.1环境cdh5.13.0版本中各个组件
分类:
其他好文 时间:
2019-03-18 23:48:11
阅读次数:
257
一.Mapreduce 中的Combiner 在job类中声明如下: 二.MapTask工作机制 主要的核心类: 读:FileInputFormat TextInputFormat createRecordReader LineRecordReader nextKeyValue 写:context. ...
分类:
其他好文 时间:
2019-03-11 01:02:11
阅读次数:
205
第1章 大数据概述本章将从故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的技术以及大数据典型应用。第2章 初识Hadoop本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史 ...
分类:
其他好文 时间:
2019-03-10 09:33:09
阅读次数:
729
Azkaban安装部署 https://azkaban.github.io/azkaban/docs/2.5/ 生成密钥对和证书Keytool是java数据证书的管理工具,使用户能够管理自己的公/私钥对及相关证书。-keystore 指定密钥库的名称及位置(产生的各类信息将存在.keystore文件 ...
分类:
其他好文 时间:
2019-03-05 09:44:09
阅读次数:
434
一、Python1、NumpyNumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 2、Pandaspandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy ...
分类:
其他好文 时间:
2019-02-28 13:16:01
阅读次数:
162
一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDD。 (1) 使用Java进行编写 (2) 使用sca ...
分类:
其他好文 时间:
2019-02-25 01:00:40
阅读次数:
197
参考From <https://dirtysalt.github.io/snappy.html> Snappy API From <https://www.npmjs.com/package/snappy> Snappy 是一个 C++ 的用来压缩和解压缩的开发包,其目标不是较大限度压缩,而且不兼容 ...
分类:
移动开发 时间:
2019-02-21 18:53:21
阅读次数:
223
HIVE-如何查看执行日志 HIVE既然是运行在hadoop上,最后又被翻译为MapReduce程序,通过yarn来执行。所以我们如果想解决HIVE中出现的错误,需要分成几个过程 2,3过程中的错误,请参考hadoop相关的教程,这里只是提醒大家思考的时候需要考虑到这两个方面的原因。搞清楚哪一个过程 ...
分类:
其他好文 时间:
2019-02-17 23:57:37
阅读次数:
394
在hadoop生态中,wordcount是hadoop世界的第一个hello world程序。 wordcount程序是用于对文本中出现的词计数,从而得到词频,本例中的词以空格分隔。 关于mapper、combiner、shuffler、reducer等含义请参照Hadoop权威指南里的说明。 1、 ...
分类:
其他好文 时间:
2019-01-30 14:28:45
阅读次数:
209
时间复杂度、空间复杂度、稳定性比较 | 排序方法 | 平均情况 | 最好情况 | 最坏情况 | 辅助空间 | 稳定性 | | | | | | | | | 插入排序 | O(n^2) | O(n) | O(n^2) | O(1) | 稳定 | | 希尔排序 | O(n log(n))~O(n^2) | ...
分类:
编程语言 时间:
2019-01-25 13:02:40
阅读次数:
224