//近期在研究hadoop。第一个想要要開始研究的必然是wordcount程序了。看了《hadoop应用开发实战解说》结合自己的理解,对wordcount的源代码进行分析。 <pre name="code" class="java"> package org.apache.hadoop.mapred ...
分类:
其他好文 时间:
2017-07-27 11:29:20
阅读次数:
168
1.创建maven项目 pom文件: 2.编写wordcound 3.在src下面创建NativeIO 创建package:org.apache.hadoop.io.nativeio 创建类:NativeIO 4.确保hadoop运行正常,将文件上传到hdfs上 hadoop fs -mkdir - ...
分类:
其他好文 时间:
2017-07-25 00:50:27
阅读次数:
331
Storm的数据从Spout采集后,交给Blot组件处理,数据在Blot之间流动时,会涉及到数据流动的方向。这就是Storm的分组策略。 从WordCount的单词拆分到单词计数,会使用按字段的分组策略来拆分单词,并分配到不同的Count Blot中计算。 ...
分类:
其他好文 时间:
2017-07-22 00:05:30
阅读次数:
197
由之前的学习,Storm的程序构成有Topology,Spout、Blot组成。 构建工程第一步 :引入jar,把storm集群中的/usr/local/apps/apache-storm-1.0.3/lib目录jar包全部引入 ...
分类:
其他好文 时间:
2017-07-22 00:05:05
阅读次数:
208
TopK
TopK算法有两步,一是统计词频,二是找出词频最高的前K个词。
1.实例描述
假设取Top1,则有如下输入和输出。
输入:
HelloWorldByeWorld
HelloHadoopByeHadoop
ByeHadoopHelloHadoop
输出:
词Hadoop词频4
2.设计思路
首先统计WordCount的词频,将数据转化为(词,词频)..
分类:
编程语言 时间:
2017-07-21 22:06:30
阅读次数:
335
WordCountTopology数据流分析(storm编程模型) 上一章的example的单词统计在storm的数据流动到底是怎么进行的呢,这一章节开始介绍; ...
分类:
其他好文 时间:
2017-07-21 01:17:44
阅读次数:
177
1、pom.xml 4.0.0 sparkcore sparkcore-java 1.0 jar sparkcore-java http://maven.apache.org UTF-8 org.apache.spark spark-core_2.11 ... ...
分类:
其他好文 时间:
2017-07-19 00:19:14
阅读次数:
143
文本处理工具wc(wordcount)统计文件内容wc命令用于统计文件的行数、字节数、用空格隔开的字符单词数信息语法:wc[文件名...]wc[选项][文件名...]选项:-l:统计行数(lines)-w:统计单词数(words)-c:统计字节数(bytes)-m:统计字符数-L:统计文件中最长行的长度cut字符..
分类:
系统相关 时间:
2017-07-17 18:51:46
阅读次数:
260
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this ...
分类:
其他好文 时间:
2017-07-13 17:16:03
阅读次数:
515
1.安装 Red Hat 环境 2.安装JDK 3.下载hadoop2.8.0 http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz 4.在用户目录下新建hadoop文件夹, ...
分类:
其他好文 时间:
2017-07-07 10:12:32
阅读次数:
257