1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 Hadoop 中的分布式文件系统 HDF ...
分类:
其他好文 时间:
2017-10-09 19:42:54
阅读次数:
154
1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toString(),hashCode(),equals()方法 2:流量分区处理操作的步骤: 2. 1:对流量原 ...
分类:
其他好文 时间:
2017-09-25 19:09:11
阅读次数:
234
原创,转发请注明出处。 MapReduce是hadoop这只大象的核心,Hadoop 中,数据处理核心就是 MapReduce 程序设计模型。一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出 ...
分类:
编程语言 时间:
2017-09-17 11:33:03
阅读次数:
257
cd 到hadoop中 然后格式化 进入到 bin下 找到 hdfs 然后看看里面有哈参数: ./hdfs namenode -format 格式化 然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本: 创建个目录 h ...
分类:
其他好文 时间:
2017-09-16 13:41:18
阅读次数:
150
Hive On Spark 一、概述 Hive 是一种数据仓库,即是一种sql翻译器,hive可以将sql翻译成mapreduce程序在hadoop中去执行,默认支持原生的Mapreduce引擎。从hive1.1版本以后开始支持Spark。可以将sql翻译成RDD在spark里面执行。Hive支持的 ...
分类:
其他好文 时间:
2017-09-08 21:53:17
阅读次数:
255
一、概述1.实验使用的Hadoop集群为伪分布式模式,eclipse相关配置已完成;2.软件版本为hadoop-2.7.3.tar.gz、apache-maven-3.5.0.rar。二、使用eclipse连接hadoop集群进行开发1.在开发主机上配置hadoop①将hadoop-2.7.3.tar.gz解压到本地主机上②使用windows版本的hadoop中的bi..
分类:
系统相关 时间:
2017-09-07 14:48:47
阅读次数:
209
在yarn-site.xml中加入如下配置 <property> <name>yarn.nodemanager.disk-health-checker.min-healthy-disks</name> <value>0.0</value> </property> <property><name>ya ...
分类:
其他好文 时间:
2017-09-06 16:43:55
阅读次数:
134
关于hadoop中yarn的运行原理整理 一:对yarn的理解 1.关于yarn的组成 大约分成主要的四个。 Resourcemanager,Nodemanager,Applicationmaster,container 2.Resourcemanager(RM)的理解 RM是全局资源管理器,负责整 ...
分类:
其他好文 时间:
2017-08-22 23:05:41
阅读次数:
148
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip在使用这两种压缩方式的时候,Had ...
分类:
其他好文 时间:
2017-08-21 11:55:52
阅读次数:
154
HBase配置(只需要做一处修改) HBase配置(只需要做一处修改) 修改HBase的 hbase-site.xml 配置文件种的一项 解释:以前value值的设置的是Hadoop中主节点的名字加上端口号,如 hdfs://RDFMaster:8020/hbase ,需要改写成在Hadoop的配置 ...
分类:
其他好文 时间:
2017-08-21 11:30:45
阅读次数:
134