[Toc] 接下来以一个简单的WordCount为例子,介绍Java版本的MapReduce的程序编写。 mapreduce程序主要分三部分:1.map部分,2.reduce部分,3.提交部分。 1. 准备部分 hadoop中,针对数据类型自成一体,与java的数据类型对应。封装在hadoop.io ...
分类:
其他好文 时间:
2019-10-15 20:43:33
阅读次数:
91
1.发送get和post请求才能获取response信息,并且把两个response信息分开,只返回post请求的response信息。 2.分开之后处理response信息。 ...
分类:
其他好文 时间:
2019-10-12 10:44:47
阅读次数:
83
windows下用idea编写wordcount单词计数项目并打jar包上传到hadoop执行 参考 https://blog.csdn.net/weixin_42370346/article/details/88688693 1、最后一步运行jar包时报错 原因:未指出主类名 解决方法:hadoo ...
分类:
编程语言 时间:
2019-10-07 00:49:18
阅读次数:
137
首先打开dfs与yarn。 主要就是三步走: 一、编写WordcountMapper 二、编写WordcountReducer 三、编写WordcountDriver 多数都是固定写法,会用即可! 顺便一提:如果在集群上运行: 1.maven install 打包之前的java程序为jar文件并改名 ...
分类:
编程语言 时间:
2019-10-06 18:25:43
阅读次数:
90
下面列出我搭建hadoop应用环境的文章整理在一起,不定期更新,供大家参考,互相学习!!! 第一篇 HADOOP部分 1.1 hadoop3.2.0的安装并测试 1.2 编译Hadoop连接eclipse的插件遇见的一系列错误,崩溃的操作 1.3 在eclipse上运行WordCount的操作过程 ...
分类:
其他好文 时间:
2019-10-02 12:49:57
阅读次数:
114
1.windows10使用idea创建wordcount时,hadoop 二进制 加 空指针异常。是因为没有hadoop,hadoop环境变量 解决:配置下载hadoop,配置环境变量 2.写的wordcount在spark集群上跑是 19/09/11 20:19:54 INFO spark.Spa ...
分类:
其他好文 时间:
2019-09-20 21:18:21
阅读次数:
100
首先查看hadoop进程。 jps 说明只有一个进程,hadoop没启动 启动hadoop进程 start-dfs.sh start-yarn.sh 出现如下进程说明hadoop启动成功 在如下目录创建一个data.txt文件 里面随便输入一些英文字符。就像我刚才输入的一样 进入hadoop目录 . ...
分类:
其他好文 时间:
2019-09-18 23:20:35
阅读次数:
89
本文主要内容如下: 有状态的流数据处理; Flink中的状态接口; 状态管理和容错机制实现; 阿里相关工作介绍; 一.有状态的流数据处理# 1.1.什么是有状态的计算# 计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态,其实大多数的计算都是有状态的计算。 比如wordcount,给一些word, ...
分类:
其他好文 时间:
2019-09-16 00:44:38
阅读次数:
90
项目简介 这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin ...
分类:
其他好文 时间:
2019-09-14 22:34:06
阅读次数:
131
本文主要讨论的是通过爬取天猫的销售数据和评论数据后,对数据进行清洗,并进行分析。流程大致为:1.通过selenium爬取销售数据; 2.通过selenium和re正则表达式爬取评论数据;3.通过pandas对数据进行清洗和分析;4.运用matplotlib和wordcount来进行可视化 1、故事的 ...
分类:
编程语言 时间:
2019-09-10 23:55:18
阅读次数:
212