根据超市的销售清单,采用hadoop中的mapreduce计算商品之间的关联程度(即统计同时买A商品和B商品的次数)...
分类:
其他好文 时间:
2014-10-17 15:38:03
阅读次数:
213
引言
1.本文不描述MapReduce入门知识,这类知识网上很多,请自行查阅
2.本文的实例代码来自官网
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
最后的WordCount v2.0,该...
分类:
其他好文 时间:
2014-10-16 20:49:43
阅读次数:
203
GridGain最近在2014年的Spark峰会上发布了Hadoop内存片内加速技术,可以为Hadoop应用带来内存片内计算的相关收益。
该技术包括两个单元:和Hadoop HDFS兼容的内存片内文件系统,以及为内存片内处理而优化的MapReduce实现。这两个单元对基于磁盘的HDFS和传统的MapReduce进行了扩展,为大数据处理情况提供了更好的性能。...
分类:
其他好文 时间:
2014-10-16 17:15:42
阅读次数:
235
一、修改Hadoop配置文件1.修改core-site.xml文件添加如下属性,让MapReduce作业可以使用Tachyon文件系统作为输入和输出<property>
<name>fs.tachyon.impl</name>
<value>tachyon.hadoop.TFS</value>
</property>2.配置hadoop-env.sh在hado..
分类:
其他好文 时间:
2014-10-15 16:36:41
阅读次数:
175
错误一:
Hive的where中不能用别名,
错误二:
hive的groupby中不能用自定义函数,否则报错(用嵌套select代替)
错误三:
执行:$ ./hive_game_operationstatis5.sh
报错信息如下:
./hive_game_operationstatis5.sh:line 11: [: missing `]'
./hive_ga...
分类:
数据库 时间:
2014-10-14 22:10:29
阅读次数:
240
本文描述如何设置一个单一节点的 Hadoop 安装,以便您可以快速执行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS)。...
分类:
其他好文 时间:
2014-10-07 19:00:13
阅读次数:
235
初学者运行MapReduce作业时,经常会遇到各种错误,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示。Hadoop MapReduce日志分为两部分,一部分是服务日志,一部分是作...
分类:
其他好文 时间:
2014-10-07 15:34:33
阅读次数:
422
基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计
map/reduce是大数据处理的技术,它的思路是把大规模数据分成一个个小数据块,每个数据块由一个map任务来处理,处理的中间结果汇总到reduce,最后生成最终的处理结果,这个处理和汇总的过程是可以反复多次的,也就是map-reduce-map-reduce
基于map/redu...
分类:
其他好文 时间:
2014-10-06 13:19:00
阅读次数:
127
本文环境和之前的Hadoop 1.x不同,是在Hadoop 2.x环境下测试。newLISP脚本,在stdin中读取数...
分类:
其他好文 时间:
2014-10-04 22:24:07
阅读次数:
183
Reduce计算分为若干阶段1. copy(或者叫shuffle)阶段和merge阶段并行之前Map产生的结果被存放在本地磁盘上,这时需要从reduce节点将数据从map节点复制过来。放得下进内存,比较大的则写到本地磁盘。同时,有两个线程对已经获得的内存中和磁盘上的数据进行merge操作。具体细节是:通过RPC调用询问task tracker已经完成的map task列表,shuffle(洗牌)是...
分类:
其他好文 时间:
2014-10-04 15:41:56
阅读次数:
240