码迷,mamicode.com
首页 >  
搜索关键字:hadoop format异常    ( 13956个结果
Hive调优实战
Hive优化总结---by 食人花优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j...
分类:其他好文   时间:2014-07-22 22:55:15    阅读次数:271
继承FileInputFormat类来理解 FileInputFormat类
import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.File...
分类:其他好文   时间:2014-07-22 22:54:33    阅读次数:223
Hadoop的数据管理
Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。
分类:其他好文   时间:2014-07-22 22:54:13    阅读次数:243
hadoop家族的各个成员
这篇文章不提原理,讲讲hadoop及其周边项目的作用。hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?官方定义:hadoop是一个开发和执行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据...
分类:其他好文   时间:2014-07-19 21:30:03    阅读次数:179
大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章: 1...
分类:其他好文   时间:2014-07-19 21:05:50    阅读次数:236
如何确定Hadoop守护进程分别会在哪台机器上运行
经过一段时间的配置,Hadoop环境总算运行起来了,但是呢,为何主节点就没有跑tasktracker和datanode进程,slave节点也没有跑secondary进程,Hadoop是如何控制的呢?经过看权威指南(267页)和跟群里同学讨论,还有自己测试,最终确定:tasktracker和datan...
分类:其他好文   时间:2014-07-19 20:19:01    阅读次数:239
Hadoop集群配置心得(低配置集群+自动同步配置)
本文为本人原创,首发到炼数成金http://f.dataguru.cn/thread-138720-1-1.html。情况是这样的,我没有一个非常强劲的电脑来搞出一个性能非常NB的服务器集群,相信很多人也跟我差不多,所以现在把我的低配置集群经验拿出来写一下好了。我的配备:1)五六年前的赛扬单核处理器...
分类:其他好文   时间:2014-07-19 20:07:37    阅读次数:294
手把手教你安装Hbase,一次成功!
安装环境: OS: Centos 6.5 JDK: jdk1.6.0_18 Hadoop: hadoop-0.20.2 Hbase: hbase-0.90.5   安装准备: 1.       Jdk环境已安装:版本为1.6以上 2.       hadoop环境已安装:完全分布模式安装如下 http://blog.csdn.net/lichangzai/arti...
分类:其他好文   时间:2014-07-18 22:08:46    阅读次数:441
yarn参考资料汇总
1、YARN或将成为Hadoop新发力点http://www.csdn.net/article/2013-06-27/2816031-hadoop-yarn2、更快、更强——解析Hadoop新一代MapReduce框架Yarnhttp://www.csdn.net/article/2014-02-1...
分类:其他好文   时间:2014-07-16 16:45:34    阅读次数:198
hadoop快速扫盲帖,从零了解hadoop
1、MapReduce理论简介   1.1 MapReduce编程模型   MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。   在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job...
分类:其他好文   时间:2014-07-16 16:20:31    阅读次数:326
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!