下图是大概步骤: 下面是详细步骤,但我的代码跟上面有点不一样,但都是一个道理: 第一个程序测试 wordcount 先创建目录 hadoop fs -mkdir /wc hadoop fs -mkdir /wc/input 把要统计的文件放入目录 hadoop fs -put /opt/module ...
分类:
其他好文 时间:
2016-08-23 18:43:14
阅读次数:
139
scala代码如下:
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
/**
* 统计字符出现次数
*/
object WordCount {
def main(args: Array[String]) {
...
分类:
编程语言 时间:
2016-08-22 16:16:50
阅读次数:
367
(1)《DT大数据梦工厂大数据spark蘑菇云Scala语言全集(持续更新中)》 http://www.tudou.com/plcover/rd3LTMjBpZA (2)《Spark零基础视频:从零起步到调通第一个Wordcount》 http://www.tudou.com/plcover/IB9 ...
分类:
其他好文 时间:
2016-08-22 12:27:22
阅读次数:
181
1.简介 现在很少用到使用MR计算框架来实现功能,通常的做法是使用hive等工具辅助完成。但是对于其底层MR的原理还是有必要做一些了解。 2.MR客户端程序实现套路 这一小节总结归纳编写mr客户端程序的一般流程和套路。将以wordcount为例子进行理解。 运行一个mr程序有三种模式,分别为:本地模 ...
分类:
其他好文 时间:
2016-08-18 17:13:32
阅读次数:
174
编写WordCount程序数据如下:hellobeijinghelloshanghaihellochongqinghellotianjinhelloguangzhouhelloshenzhen...1、WCMapper:packagecom.hadoop.testHadoop;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg..
分类:
编程语言 时间:
2016-08-16 22:17:56
阅读次数:
219
1[hadoop@hadoop02 ~]$ start-all.sh 1[hadoop@hadoop02 ~]$ start-all.sh 2 [hadoop@hadoop02 ~]$ jps 2465 NameNode 2594 DataNode 3333 Jps 2759 SecondaryNa ...
分类:
其他好文 时间:
2016-08-15 10:09:59
阅读次数:
345
需求:统计一个文件中所有单词出现的个数。 样板:word.log文件中有hadoop hive hbase hadoop hive 输出:hadoop 2 hive 2 hbase 1 MapReduce设计方式: 一、Map过程<k,v>键值队的设计: 1、按行将文本文件切割成 <k1,v1>,k ...
分类:
其他好文 时间:
2016-08-06 01:47:14
阅读次数:
188
原文地址:http://blog.jobbole.com/81676/ 2、WordCount处理过程 上面给出了WordCount的设计思路和源码,但是没有深入细节,下面对WordCount进行更加详细的分析: (1)将文件拆分成splits,由于测试用的文件较小,所以每一个文件为一个split, ...
分类:
其他好文 时间:
2016-08-05 17:32:15
阅读次数:
151
一、准备工作 (1)Hadoop2.7.2 在linux部署完毕,成功启动dfs和yarn,通过jps查看,进程都存在 (2)安装maven 二、最终效果 在windows系统中,直接通过Run as Java Application运行wordcount,而不需要先打包成jar包,然后在linux ...
分类:
移动开发 时间:
2016-08-05 06:34:40
阅读次数:
2207
学hadoop,第一个程序当然就是WordCount,这个程序不用自己照着书上抄写,hadoop的安装包里已经带了很多学习示例,其中就包括WordCount,如下图中的最后一个文件就是了先附上两个测试文件如下:echo"HelloWorldByeWorld">file01echo"HelloHadoopGoodbyeHadoop">file02had..
分类:
其他好文 时间:
2016-07-24 21:05:19
阅读次数:
337