1.hive的基础sql 建立测试数据表: 文章表:里面存入一段话,一个字段 (1)hive进行wordcount的统计 (2)经典的行转列 统计分析 要求转换为以下形式: (3)经典函数 时间计算 的使用 udata.user_id udata.item_id udata.rating udata ...
分类:
其他好文 时间:
2019-07-04 00:32:39
阅读次数:
151
其实小编写这篇文章的目的就是,前两天突然对spark心血来潮,想重温一下scala编写spark,知识嘛要温故知新,虽然现在写的比较少,但是平时花一小时复习复习,看看官网,对知识的巩固和深入有莫大的好处,于是乎小编就从网上搜了搜关于spark的一些入门案例,搜了半小时发现,基本上都是Wordcount,或者一些简单的调用API,让小编实在有些无从下手,于是乎小编就突发奇想,
分类:
其他好文 时间:
2019-05-19 14:01:33
阅读次数:
105
//将从hbas数据库中用mr读取的数据放入到 hdfs中 注:引入 jar 包 //使用mr 将hbase数据库中的单词计算出来 创建表 wordcount 放入4条数据 在eclipce中 ...
分类:
其他好文 时间:
2019-05-18 18:53:51
阅读次数:
159
在写一个mapreduce类之前先添加依赖包 新建一个WordCountMapper类 定义WordCountReducer类 定义WordCountRunner类 打成架包 把打包好的架包上传到集群 然后在集群上运行一个wordcount小案例 ...
分类:
其他好文 时间:
2019-05-13 23:06:00
阅读次数:
129
一:合并(mapTask的合并) 使用合并的注意事项: (1)合并是一种特殊的Reducer (2)合并是在Mapper端执行一次合并,用于减少Mapper输出到Reducer的数据量,可以提高效率。 (3)举例:以WordCount为例 (4)注意:一定要谨慎使用Combiner,有些不能使用:求 ...
分类:
其他好文 时间:
2019-05-04 00:08:48
阅读次数:
151
一.准备工作 1.需求 在wordcount程序中使用自定义combiner 解析mapreduce的流程 2.环境配置 (1)hadoop为本地模式 (2)pom文件代码如下 <dependencies> <dependency> <groupId>org.apache.hadoop</group ...
分类:
其他好文 时间:
2019-05-03 16:45:06
阅读次数:
250
一:单词计数 1:单词计数总流程图 2:代码实现 1:Map阶段 2:Reduce阶段 3:Driver阶段 4:打包程序提交到集群上运行 命令 (如果jar包没在当前目录下,记得写好路径): hadoop jar wordcount.jar it.dawn.YARNPra.wc_hdfs.Word ...
分类:
其他好文 时间:
2019-05-02 15:48:13
阅读次数:
168
简介:这里先手写一个MR程序,大致实现一个单词计数程序。帮助后面学习MapReduce组件。 1:先自定义一个Mapper接口 2:定义一个Context类: 该类主要实现数据的传输,和数据的封装(这里用的一个HashMap进行封装的) 3:实现Mapper类(其实这里就是简化的Map和Reduce ...
分类:
其他好文 时间:
2019-05-01 01:46:46
阅读次数:
255
一、字符串反转 把一个句子中的打次进行反转,比如“how are you” ,变为 “you are how” // 字符串反转 public class StringTest { // 字符反转的方法 private void swap(char[] c, int front, int end) ...
分类:
编程语言 时间:
2019-04-09 20:41:34
阅读次数:
173
待计算的wordCount文件放在HDFS上。 wc.txt: 目标:进行WordCount计算,把结果输出到HBase表中 1.先在HBase中创建表wc 2. WCRunner.class 3. Mapper 4. Reducer 5. Eclipse Console输出 SLF4J: Clas ...
分类:
其他好文 时间:
2019-04-07 09:33:44
阅读次数:
162