2、spark wordCount程序深度剖析
标签: spark
一、Eclipse(scala IDE)开发local和cluster
(一). 配置开发环境
要在本地安装好java和scala。
由于spark1.6需要scala 2.10.X版本的。推荐 2.10.4,java版本最好是1.8。所以提前我们要需要安装好java和scala并在环境变量中配...
分类:
其他好文 时间:
2016-07-22 19:24:12
阅读次数:
300
前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对二次排序的理解也就更深入了,同时建议大家对wordcount的流程好好分析一下,要真正的知道每一步都是干什么的。 1.Partitioner分区类的作用是什么 ...
分类:
其他好文 时间:
2016-07-21 23:42:01
阅读次数:
233
Hadoop研发在java环境的拓展 一 背景 由于一直使用hadoop streaming形式编写mapreduce程序,所以目前的hadoop程序局限于python语言。下面为了拓展java语言研发,本次实验使用window系统,maven打包,centos系统mapr环境运行。 二 步骤 1 ...
分类:
编程语言 时间:
2016-07-21 15:00:04
阅读次数:
209
hadoop启动后执行wordcount解析第一个hadoopfs-mkdirinput结果出现了错误Nosuchfileordirectory查资料,应该是执行命令为:hadoopfs-mkdir/input1.x是可以执行的,而2.x的执行命令为:hadoopfs-mkdir/
分类:
其他好文 时间:
2016-07-19 14:08:59
阅读次数:
889
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行。 一 下载eclipse安装包及hadoop插件 1去官网下载linux版本的eclipse安装包(或者在本人为了大家方便下载,上传到了csdn下载 ...
分类:
编程语言 时间:
2016-07-10 16:57:01
阅读次数:
335
sort文本排序-n:按数值排序-r:降序-t:字段分隔符-k:以哪个字段为关键字进行排序-u:排序后相同的行只显示一次-f:排序时忽略字符大小写uniq:报告或者忽略重复的行-d只显示重复的行-D-c:显示文件中行重复的次数文本统计:wc(wordcount):统计文件中有多少行,多少字符(空..
分类:
其他好文 时间:
2016-07-07 20:00:54
阅读次数:
199
简单实现hadoop程序,包括:hadoop2.x的实现写法 import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable;imp ...
分类:
其他好文 时间:
2016-07-03 23:09:54
阅读次数:
189
两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的。上代码: wordcount.java: 期间,遇到几个错误: 1.HDFS版本问题--Call to node1/172.*.*.*:8020 failed on local exception: java.i ...
分类:
编程语言 时间:
2016-06-29 19:05:23
阅读次数:
287
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop ...
分类:
其他好文 时间:
2016-06-27 10:37:56
阅读次数:
192
转自:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节 ...
分类:
其他好文 时间:
2016-06-27 10:16:04
阅读次数:
193