因为毕业设计上需要将控制台的任务实时输出到界面上,而且那是个Hadoop的mapreduce任务,一跑半个小时的节奏,所以需要用到多线程并随时读取返回的数据,百度了没找到合适的方法,于是被逼无奈编写了这个十分简单的多线程操作工具类。大概的功能就是可以执行一个特定的线程(线程必须调用本类的方法才能实现...
分类:
编程语言 时间:
2014-05-15 21:50:11
阅读次数:
366
简介
可插入的 shuffle 和 sort 功能,允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是:用一个不是HTTP的应用协议,如RDMA来 shuffle 从Map节点中到Reducer节点的数据;或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。
重要: 可插入的 shuffle sort 功能是实验性的、不稳定。这意味着提...
分类:
其他好文 时间:
2014-05-15 13:25:05
阅读次数:
233
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:A,10
A,11
A,12
A,13
B,21
B,31
B,41
B,51data2:A,20
A,21
A,22
A,23
B,201
B,301
B,401
B,501最后输出为:A,23
B,501假如这样的逻辑的m...
分类:
其他好文 时间:
2014-05-15 08:15:04
阅读次数:
374
【MongDB运维】MongDB自动安装脚本--rpm包安装版...
分类:
数据库 时间:
2014-05-15 01:38:14
阅读次数:
369
hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中,TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键,从TextInputFormat返回的键为每行的字节偏移量,但目前没看到用过
以前在mapper中曾使用LongWritable(键)和Text(值),在TextInputFormat中,因为键是字节偏移量,可以是L...
分类:
移动开发 时间:
2014-05-15 01:31:37
阅读次数:
454
本篇介绍MapReduce的一些高级特性,如计数器、数据集的排序和连接。计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的“”连接(join)操作。...
分类:
其他好文 时间:
2014-05-14 23:53:44
阅读次数:
553
ReduceTask的运行
Reduce处理程序中需要执行三个类型的处理,
1.copy,从各map中copy数据过来
2.sort,对数据进行排序操作。
3.reduce,执行业务逻辑的处理。
ReduceTask的运行也是通过run方法开始,
通过mapreduce.job.reduce.shuffle.consumer.plugin.class配置shuffle的plugin,
...
分类:
其他好文 时间:
2014-05-14 20:23:57
阅读次数:
519
本文使用官方C# Driver,实现在MongoDB中存储,查询空间数据(矢量)
空间数据的存储
本例中,从一个矢量文件(shapefile格式)中读取矢量要素空间信息以及属性表,并写入到MongoDB中去,其中读取shapefile文件以及将空间信息转成json的功能通过Ogr库实现
//打开MongoDB的Collection...
分类:
数据库 时间:
2014-05-14 20:00:22
阅读次数:
541
出现no write has been done on this connection解决方案...
分类:
数据库 时间:
2014-05-14 19:42:51
阅读次数:
403
MapTask运行通过执行.run方法:
1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。
2.得到用户定义的Mapper实现类,也就是map函数的类。
3.得到InputFormat实现类。
4.得到当前task对应的InputSplit.
5.通过InputFormat,得到对应的RecordReader。
6.生成Re...
分类:
其他好文 时间:
2014-05-14 14:31:59
阅读次数:
381