wordCount POM文件需要导入的依赖: 离线代码: java版本: scala版本: 流式: java版本: scala版本 运行,传参: 终端使用nc命令进行模拟发送数据到9999端口 运行结果: 注意事项: 千万不要把包导错了,java就导java,scala就导scala,如果导错,程 ...
分类:
其他好文 时间:
2019-01-19 12:16:14
阅读次数:
139
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分布式搭建,事先启动HDFS和YARN 第一步:开发WordCount示例 第二步:程序打jar包:M ...
分类:
其他好文 时间:
2019-01-16 01:09:45
阅读次数:
481
val conf = new SparkConf().setAppName("WordCount_groupBy").setMaster("local") // .set("spark.default.parallelism", "100") // 1. 调节并行度 .set("spark.exec... ...
分类:
其他好文 时间:
2019-01-08 19:20:41
阅读次数:
157
(1)骨灰级案例--UDTF求wordcount数据格式:每一行都是字符串并且以空格分开。代码实现:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s
分类:
数据库 时间:
2019-01-06 00:03:22
阅读次数:
216
spark任务运行的源码分析在整个spark任务的编写、提交、执行分三个部分:①编写程序和提交任务到集群中②sparkContext的初始化③触发action算子中的runJob方法,执行任务(1)编程程序并提交到集群:①编程spark程序的代码②打成jar包到集群中运行③使用spark-submit命令提交任务在提交任务时,需要指定--class程序的入口(有main方法的类),1)spark-
分类:
其他好文 时间:
2019-01-03 22:36:48
阅读次数:
181
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具。本期说说MR的基础概念,以及WordCount示例。 ...
分类:
其他好文 时间:
2019-01-03 12:58:44
阅读次数:
201
% wordcount%实现词频的统计%% 清空变量clearclc%% 初始版本的开始测试str1 = 'my name is cuifengrui what is your name';%% 具体实现过程sort_str1 = sort(str1) %将字符串中的字符按照ascii码排序j = ...
分类:
其他好文 时间:
2019-01-03 11:01:19
阅读次数:
220
上次虽然把环境搭好了,但是实际运行起来一堆错误,下面简述一下踩的坑。 1、hadoop fs -put上传文件失败 报错信息:(test文件夹是已经成功建好的) Linux报的错误是datanode节点不存在,但是去slave机器上jps发现datanode运行的好好的。然后去网上查找资料,有博客说 ...
分类:
其他好文 时间:
2018-12-27 15:28:15
阅读次数:
341
[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:
其他好文 时间:
2018-12-25 20:20:15
阅读次数:
218
1. Combiner概述 2. 自定义Combiner实现步骤 1). 定义一个Combiner继承Reducer,重写reduce方法 2). 在Driver类中添加设置 效果 ...
分类:
其他好文 时间:
2018-12-12 19:39:44
阅读次数:
172