默认当前位置是hadoop安装包位置 jar包:share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar 一 前置准备 因为这个需要hdfs中的文件,需要掌握基本的hdfs命令 hdfs当前默认位置是在user/当前用户 文件夹 ,有些版本 ...
分类:
其他好文 时间:
2018-08-21 16:04:41
阅读次数:
277
启动hdfs后执行share目录中自带的mapreduce程序时报如下错误 找到$HADOOP_HOME/etc/mapred-site.xml,增加以下配置 ...
分类:
移动开发 时间:
2018-08-18 17:54:11
阅读次数:
514
和 hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 本文选自《SparkGraphX实战》。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求 ...
分类:
其他好文 时间:
2018-08-06 15:22:43
阅读次数:
137
先说一些代码中使用到的东西: StringTokenizer:字符串分隔解析类型 *之前没有发现竟然有这么好用的工具类 java.util.StringTokenizer StringTokenizer(String str) : 构造一个用来解析str的StringTokenizer对象。 jav ...
分类:
其他好文 时间:
2018-07-29 20:01:53
阅读次数:
221
为什么要超越Hadoop MapReduce Hadoop的适用范围 Hadoop缺乏对象数据库连接(ODBC) Hadoop不适合所有类型的应用程序 hadoop不适合分片数据 Hadoop不适合迭代式计算 hadoop不适合分片数据 Hadoop不适合迭代式计算 海量数据分析所需的计算范式分类( ...
分类:
其他好文 时间:
2018-07-22 17:12:01
阅读次数:
232
Hadoop的mapreduce是一个快速、高效、简单用于编写的并运行处理大数据程序并应用在大数据集群上的编程框架。它将复杂的、运行于大规模集群上的并行计算过程高度的抽象到两个函数:map、reduce。适用于MP来处理的数据集(或者任务),需要满足一个基本的要求:待处理的数据集可以分解成许多小的数 ...
分类:
其他好文 时间:
2018-07-17 23:14:20
阅读次数:
133
目录: 目录见文章1 这个案列完成对单词的计数,重写map,与reduce方法,完成对mapreduce的理解。 Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模 ...
分类:
其他好文 时间:
2018-07-17 16:25:06
阅读次数:
179
1、./start-yarn.sh 后从服务器没有nodemanager 进程,并且这里没有报错 在从服务器上的日志上见: 从服务器查看日志: 查看2.8.4官方文档: https://hadoop.apache.org/docs/r2.8.4/hadoop-mapreduce-client/had ...
分类:
其他好文 时间:
2018-07-15 19:36:43
阅读次数:
591
1. 自定义inputFormat 1.1.需求: 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件,此时就需要有相应解决方案; 1.2.分析: 小文件的优化无非以下几种方式: 1、在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS; 2、在业务 ...
分类:
其他好文 时间:
2018-07-03 18:22:12
阅读次数:
164
参考http://hadoop.apache.org/docs/r2.7.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html eclipse?新建maven项目pom 文件内容<project xmlns="http://maven.apache.org/POM/4.0
分类:
其他好文 时间:
2018-07-03 14:38:50
阅读次数:
147