码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
Java实现的一个词频统计程序
Java实现的一个词频统计程序,考虑海量数据应该怎么做?MapReduce?!...
分类:编程语言   时间:2014-05-22 11:29:46    阅读次数:361
hadoop学习;datajoin;chain签名;combine()
hadoop有种简化机制来管理job和control的非线性作业之间的依赖,job对象时mapreduce的表现形式。job对象的实例化可通过传递一个jobconf对象到作业的构造函数中来实现。 x.addDeopendingJob(y)意味着x在y完成之前不会启动。 鉴于job对象存储着配置和依赖信息,jobcontrol对象会负责监管作业的执行,通过addjob(),你可以为jobcont...
分类:其他好文   时间:2014-05-22 07:27:41    阅读次数:287
hadoop多文件格式输入
版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求:现有两份数据:phone:123,good number 124,common number 125,bad numberuser:zhangsan,123 lisi,124 w...
分类:其他好文   时间:2014-05-22 06:23:52    阅读次数:391
MapReduce之浅析Map接口和Reduce接口
import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap...
分类:其他好文   时间:2014-05-22 01:11:55    阅读次数:337
MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频 1 package TopK;...
分类:其他好文   时间:2014-05-21 22:29:14    阅读次数:599
MapReduce之InputFormat和OutFormat
InputFormat中的Splits集合的获取;InputFormat是一个接口,该接口有2个成员函数;InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;RecordReader getRecordReade...
分类:其他好文   时间:2014-05-21 19:21:45    阅读次数:234
hbase是否能取代mysql
代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。 在...
分类:数据库   时间:2014-05-21 17:04:40    阅读次数:393
远程运行newLISP代码
newLISP提供了一个简单的MapReduce的方式,利用net-eval函数,可以向远程运行这newlisp服务进程的机器发起调用。本文介绍最简单的方法:首先服务器启动newlisp进程newlisp -l -c -d 4711 &-l 代表记录日志,默认是打印到终端-c 是不会出现常见的newlisp的会话终端-d 是在连接之间保存状态,一个边际效应就是后续的请求必须等待前面的请求已经完成才...
分类:其他好文   时间:2014-05-21 07:20:38    阅读次数:260
记一则罕见的hive字段值异常引起map阶段的OOM
前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。先看log。节点一的TaskTracker的log:节点二的TaskTracker的log:节点三的TaskTracker的log:其他节点的TaskTracker中的log都和slave4的一样的:故障分析:OOM是一个比较常见的故..
分类:其他好文   时间:2014-05-20 22:15:47    阅读次数:422
MapReduce入门
说明MapReduce是一种分布式计算模型,解决海量数据的计算问题,主要有Map和Reduce组成用户使用时需要实现map()和reduce()两个函数,两个函数的形参都是key/value键值对若以eclipse为开发环境,运行时出现内存不足的情况,需要修改虚拟机的参数 (例如把Default V...
分类:其他好文   时间:2014-05-19 11:56:18    阅读次数:352
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!