说明:參考Mahout FP算法相关相关源代码。算法project能够在FP关联规则计算置信度下载:(仅仅是单机版的实现,并没有MapReduce的代码)使用FP关联规则算法计算置信度基于以下的思路:1. 首先使用原始的FP树关联规则挖掘出全部的频繁项集及其支持度;这里须要注意,这里是输出全部的频繁 ...
分类:
编程语言 时间:
2017-05-12 13:17:31
阅读次数:
269
需求: 利用mapReduce实现类似微信好友中查找共同好友的功能。如下: A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,F ...
分类:
其他好文 时间:
2017-04-24 00:04:29
阅读次数:
277
用Hive一句话搞定的,但是有时必须要用mapreduce
方法介绍
1. 概述
在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且...
分类:
编程语言 时间:
2017-04-20 11:01:23
阅读次数:
739
转自:http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程 了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段: Join的 ...
分类:
数据库 时间:
2017-01-31 23:31:46
阅读次数:
749
对于任意矩阵M和N,若矩阵M的列数等于矩阵N的行数,则记M和N的乘积为P=M*N,其中mik 记做矩阵M的第i行和第k列,nkj记做矩阵N的第k行和第j列,则矩阵P中,第i行第j列的元素可表示为公式(1-1): pij=(M*N)ij=∑miknkj=mi1*n1j+mi2*n2j+……+mik*n ...
分类:
其他好文 时间:
2017-01-07 13:17:08
阅读次数:
298
一、背景 1.1 流程 实现排序,分组拍上一篇通过Partitioner实现了。 实现接口,自动产生接口方法,写属性,产生getter和setter,序列化和反序列化属性,写比较方法,重写toString,为了方便复制写够着方法,不过重写够着方法map里需要不停地new,发现LongWritable ...
分类:
移动开发 时间:
2016-12-14 14:23:48
阅读次数:
291
一、问题背景 实际业务的需要,比如以移动为例,河南的用户去了北京上网,那么他的上网信息默认保存在了北京的基站,那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息,否则只能扫描日志找到北京,很慢,所以分区很需要。 二、数据集分析 查看电话号码一列,看前三位分为移动、联通和 ...
分类:
移动开发 时间:
2016-12-12 14:04:50
阅读次数:
246
一、问题背景 现在的移动刚一通话就可以在网站上看自己的通话记录,以前是本月只能看上一个月。不过流量仍然是只能看上一月的。 目的就是找到用户在一段时间内的上网流量。 本文并没有对时间分组。 二、数据集分析 可以看出实际数据集并不是每个字段都有值,但是还好,完整地以tab隔开了,数据格式还是不错的,我们 ...
分类:
移动开发 时间:
2016-12-08 23:58:43
阅读次数:
472
一、问题定义 我在网上找了些,关于二度人脉算法的实现,大部分无非是通过广度搜索算法来查找,犹豫深度已经明确了2以内;这个算法其实很简单,第一步找到你关注的人;第二步找到这些人关注的人,最后找出第二步结果中出现频率最高的一个或多个人(频率这块没完成),即完成。 但如果有千万级别的用户,那在运算时,就肯 ...
分类:
其他好文 时间:
2016-12-03 07:49:22
阅读次数:
405
一、原理分析 Mapreduce的处理过程,由于Mapreduce会在Map~reduce中,将重复的Key合并在一起,所以Mapreduce很容易就去除重复的行。Map无须做任何处理,设置Map中写入context的东西为不作任何处理的行,也就是Map中最初处理的value即可,而Reduce同样 ...
分类:
其他好文 时间:
2016-12-03 01:57:37
阅读次数:
319