本文主要参考《Hadoop应用开发技术详解(作者:刘刚)》 一、工作环境 Windows7: Eclipse + JDK1.8.0 Ubuntu14.04:Hadoop2.9.0 二、准备工作——导入JAR包 1. 建一个Hadoop专用的工作空间 2. 在工作空间的目录下建一个专门用来存放开发Ma ...
1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。 2:配置Maven的pom.xml: 注意:配置好pom.xml以后,点击Enable A ...
分类:
其他好文 时间:
2018-02-23 20:45:55
阅读次数:
473
用Spark写的wordcount scala版: object WordCountDemo { def main(args: Array[String]): Unit = { //设置log级别 Logger.getLogger("org").setLevel(Level.WARN) val co ...
分类:
其他好文 时间:
2018-02-23 13:31:29
阅读次数:
187
古人云,纸上得来终觉浅,绝知此事要躬行。翻译过来,就是学东西哪有不踩坑的。 因为工作原因要折腾Storm,环境和第一个例子折腾了好久,搞完了回头看,吐血的简单。 Storm有两种模式,单机和集群。入门当然选单机。 1、安装JDK,配置Eclipse环境 2、建立一个Maven工程,在pom.xml加 ...
分类:
其他好文 时间:
2018-02-21 23:59:38
阅读次数:
581
一.Hadoop安装部署的预备条件 准备:1、安装Linux和JDK 2、关闭防火墙 3、配置主机名 解压:tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/ 设置环境变量:vi ~/.bash_profile source ~/.bash_profile 二. ...
分类:
其他好文 时间:
2018-02-21 23:33:59
阅读次数:
227
Storm的单词统计设计 一:Storm的wordCount和Hadoop的wordCount实例对比 二:Storm的wordCount的方案实例设计 三:建立maven项目,添加maven相关依赖包(1)输入:search.maven.org网址,在其中找到storm的核心依赖(2)将核心依赖添 ...
分类:
其他好文 时间:
2018-02-11 12:35:02
阅读次数:
112
Hadoop 使用 YARN 运行 MapReduce 的过程如下图所示: 总共分为11步. 这里以 WordCount 为例, 我们在客户端终端提交作业: 第一步: run job ( 运行作业 ) 这一步是在 Client 内部进行, hadoop jar .... 是通过 RunJar 运行的 ...
分类:
其他好文 时间:
2018-02-08 13:36:00
阅读次数:
174
统计插件 配置 NexT 主题默认已经集成了文章【字数统计】、【阅读时长】统计功能,如果我们需要使用,只需要在主题配置文件 _config.yml 中打开 wordcount 统计功能即可。如下所示: # Post wordcount display settings # Dependencies: ...
分类:
其他好文 时间:
2018-02-05 18:38:11
阅读次数:
273
特别注意,在本地运行的时候应该去掉<scope>provided</scope>,否则会报java.lang.ClassNotFoundException: org.apache.storm.topology.IRichSpout 集群环境中运行的时候应该加上 在这个例子中,有一个spout,两个b ...
分类:
其他好文 时间:
2018-01-31 18:39:44
阅读次数:
172
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.IllegalArgumentException: requirement failed: The checkp ...
分类:
其他好文 时间:
2018-01-29 19:15:15
阅读次数:
206