本文是结合hadoop中的mapreduce来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息,同时可以按照总流量大小对用户进行分组排序等。是一个非常简洁易用的hadoop项目,主要用户进一步加强对MapReduce的理解及实际应用。文末提供源数据采集文件和系统源码。
以下是一个待分析的文本文件,里面有非常多的用户浏览信息,保扩用户手机号码,上网时间,机器序列号,访问的IP,访问的网站,上行流量,下行流量,总流量等信息。这里只截取一小段,具体文件在文末提供下载链接。...
分类:
其他好文 时间:
2016-06-12 01:53:01
阅读次数:
270
combine和partition都是函数,中间的步骤应该只有shuffle!combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的。combine函数把一个map函数产生的<key,value>对(多个key,value)合并成一个新的<key2,valu ...
分类:
其他好文 时间:
2016-05-29 08:33:40
阅读次数:
803
Hive 1、什么是Hive,Hive有什么用 一、什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言, ...
分类:
其他好文 时间:
2016-05-27 14:36:15
阅读次数:
240
恢复内容开始 http://blog.csdn.net/frankiewang008/article/details/41965543 1-HBase的安装 HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使 ...
分类:
其他好文 时间:
2016-05-25 15:07:44
阅读次数:
285
我准备学习用hadoop来实现下面的过程: 词频统计 存储海量的视频数据 倒排索引 数据去重 数据排序 聚类分析 ============= 先写这么多 ...
分类:
其他好文 时间:
2016-05-18 23:38:34
阅读次数:
143
Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系...
分类:
其他好文 时间:
2016-05-18 18:34:45
阅读次数:
176
在Hadoop中,每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入,然后同样产生一个<ey,value>形式的中间输出,Hadoop会负责将所有具有相同中间k ...
分类:
其他好文 时间:
2016-05-13 13:38:19
阅读次数:
116
其实这个例子都是书上的,我也只是拿过来理解学习下。 WordCount是Hadoop中的Hello, world,这是我听得最多的一个表述。 下面是WordCount.java的源码 package org.apache.hadoop.examples; import java.io.IOExcep... ...
分类:
其他好文 时间:
2016-05-13 11:33:19
阅读次数:
143