采用Apache版本spark1.2.1时没有出现乱码,但spark-1.1.0-cdh5.2.1版本中,在分布处理的map函数里对数据进行打印输出进行debug时valrs=rdd.filter(e=>{val(lable,text)=(e._2(2),e._2(3));m.filterItem(lable,text)})
.reduceByKey((x,y)=>m.merge(x,y))
.map{case(x,y)=..
分类:
其他好文 时间:
2015-06-05 17:58:49
阅读次数:
181
前言HDFS为管理员提供了针对文件夹的配额控制特性,能够控制名称配额(指定文件夹下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限)。本文探究了HDFS的配额控制特性,记录了各类配额控制场景的实验具体过程。实验环境基于Apache Hadoop 2.5.0-cdh5.2.0。欢迎转载,请注明出...
分类:
Web程序 时间:
2015-06-04 19:08:58
阅读次数:
175
要配置生产环境前,最好严格按照官方文档/说明配置环境。比如,官方说这个安装包用于RETHAT6, CENTOS6,那就要装到6的版本下,不然很容易出现各种各样的错。配置这个CDH5我入了很多坑,最重要的有2点1. HP GEN9 DL60服务器装CentOS系统, 开始想装7的版本, 官方只说支持到...
分类:
其他好文 时间:
2015-05-30 22:42:17
阅读次数:
776
CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。
Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive...
分类:
其他好文 时间:
2015-05-22 21:16:48
阅读次数:
238
前言:无论是CM或者CDH使用的过程中,学习研究CDH使用、CDH升级、CM升级等等原因而考虑卸载CM、CDH,本教程使用于基于CM安装的CDH的卸载。当然,如果CDH采用独立安装方式安装,在删除对应目录时,更改相应目录即可,主要分为CM卸载和CDH卸载两部分,理论上使用于CDH4和CDH5的卸..
分类:
其他好文 时间:
2015-05-22 19:30:23
阅读次数:
215
前言:无论是CM或者CDH使用的过程中,学习研究CDH使用、CDH升级、CM升级等等原因而考虑卸载CM、CDH,本教程使用于基于CM安装的CDH的卸载。当然,如果CDH采用独立安装方式安装,在删除对应目录时,更改相应目录即可,主要分为CM卸载和CDH卸载两部分,理论上使用于CDH4和CDH5的卸载(新版本如有更改则不适用)。
一、卸载CM:(CM主机执行)1、移除所有服务?
...
分类:
其他好文 时间:
2015-05-22 17:11:09
阅读次数:
920
前言:无论是CM或者CDH使用的过程中,学习研究CDH使用、CDH升级、CM升级等等原因而考虑卸载CM、CDH,本教程使用于基于CM安装的CDH的卸载。当然,如果CDH采用独立安装方式安装,在删除对应目录时,更改相应目录即可,主要分为CM卸载和CDH卸载两部分,理论上使用于CDH4和CDH5的卸载(...
分类:
其他好文 时间:
2015-05-22 16:40:50
阅读次数:
125
CDH基于稳定版Apache Hadoop,并应用了最新Bug修复或者Feature的Patch。Cloudera常年坚持季度发行Update版本,年度发行Release版本,更新速度比Apache官方快,而且在实际使用过程中CDH表现无比稳定,并没有引入新的问题。 Ø Cloudera官方网站上安装、升级文档详细,省去Google时间。 Ø CDH支持Yum/Apt包,Tar包,RPM包,Cloudera Mana...
分类:
Web程序 时间:
2015-05-17 18:46:48
阅读次数:
667
前言:CDH是由Cloudera公司发行的Hadoop版本,全称(Cloudera's Distribution Including Apache Hadoop)。该版本基于原生Apache Hadoop版本进行改进,添加了补丁和自行开发的组件,更加稳定易用。并且Cloudera公司已将CDH开源,可以不依靠CM也可以进行独立安装,目前来看在国内市场占有比重较大。本文采用CM方式进行安装,安装环境...
分类:
其他好文 时间:
2015-05-15 13:45:24
阅读次数:
231
HDFSdfs.block.sizeHDFS中的数据block大小,默认是64M,对于较大集群,可以设置为128或264Mdfs.datanode.socket.write.timeout/dfs.socket.timeout增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的设置(默认300),比如30000,避免可能出现的IO超时异常d..
分类:
其他好文 时间:
2015-05-14 20:46:44
阅读次数:
221