Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架。其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapReduce而开发的一系列上层应用软件。 hdfs是在一个网络中以流式数据访问模式来存储超大文件的跨.....
分类:
其他好文 时间:
2014-09-02 15:22:34
阅读次数:
365
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
分类:
其他好文 时间:
2014-09-02 01:34:43
阅读次数:
342
数据 ? ? ?EMPNO ? ? ? ENAME ? ? ? ?JOB ? ? ? ? ? ? ? ? ? MGR ? HIREDATE ? ? ? ? ? ? ? ? ? ? ?SAL ? ? ? ? COMM ? ? ?DEPTNO ??????7369?SMITH??????C...
分类:
其他好文 时间:
2014-09-01 00:33:22
阅读次数:
316
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child类中的Main方法,这个方法是如何执行的。1,从命令参数中解析相应参数,获取JVMID、建立RPC连...
分类:
其他好文 时间:
2014-08-31 01:36:00
阅读次数:
259
在编写MapReduce程序时,Map和Reduce之间传递的数据需要是ArrayList类型的,在调试运行时遇到了这样的一个错误:java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.io.Ar...
分类:
其他好文 时间:
2014-08-30 16:25:09
阅读次数:
341
Exception in thread "main" java.lang.NoClassDefFoundError: org/codehaus/jackson/map/JsonMappingException at org.apache.hadoop.mapreduce.Job$1.r...
分类:
移动开发 时间:
2014-08-30 12:32:09
阅读次数:
199
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程。中间留了一个问题,就是任务到底是怎么分配的。任务的分配自然是由JobTracker做出来的,具体来说,存在一个抽象类:TaskScheduler,主要负责分配任务,继承该类的有几个类:Capaci...
分类:
其他好文 时间:
2014-08-30 05:36:19
阅读次数:
359
hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研...
分类:
其他好文 时间:
2014-08-28 21:18:16
阅读次数:
355
1.Tachyon简介Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能...
分类:
其他好文 时间:
2014-08-27 18:32:08
阅读次数:
454
故名思义,拆分fork+合并join。jdk1.7整合Fork/Join,性能上有大大提升。思想:充分利用多核CPU把计算拆分成多个子任务,并行计算,提高CPU利用率大大减少运算时间。有点像,MapReduce思路感觉大致一样。jdk7中已经提供了最简洁的接口,让你不需要太多时间关心并行时线程的通信...
分类:
其他好文 时间:
2014-08-27 16:09:38
阅读次数:
182