Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。
然后,框架为这个任务的InputSplit中每个键值对调用一次 map(WritableComparable, Writable, OutputCollector, Reporter)操作。
通过调用 OutputCollector.col...
分类:
其他好文 时间:
2015-03-10 17:22:28
阅读次数:
216
主要错误信息:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error
in shuffle in fetcher#43
解决办法:限制reduce的shuffle内存使用
hive:set mapreduce.reduce.shuffle.memory.li...
分类:
其他好文 时间:
2015-03-08 15:45:25
阅读次数:
197
#创建表人信息表person(String name,int age)hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED...
分类:
其他好文 时间:
2015-03-06 22:02:49
阅读次数:
11717
这个视频介绍了目前非常流行的大数据处理框架Hadoop的Windows Azure上的实现:HDInsight,以及利用MapReduce来对大数据进行分析,利用Hive进行查询,利用客户端PowerBI, PowerQuery对结果进行展示等过程。 讲的通俗易懂,实乃Hadoop大数据处理最佳入...
什么是Phoenix? Phoenix的团队用了一句话概括Phoenix:"We put the SQL back in NoSQL" 意思是:我们把SQL又放回NoSQL去了!这边说的NoSQL专指HBase,意思是可以用SQL语句来查询Hbase,你可能会说:“Hive和Impala也可以啊!”。但是Hive和Impala还可以查询文本文件,Phoenix的特点就是,它只能查Hbase,别的类型都不支持!但是也因为这种专一的态度,让Phoenix在Hbase上查询的性能超过了Hive和Impala!...
分类:
数据库 时间:
2015-03-06 11:23:52
阅读次数:
468
create table user(userid STRING,sex STRING,age INT,career INT,code STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ':';LOAD DATA LOCAL INPATH '/home/h...
分类:
其他好文 时间:
2015-03-05 20:58:42
阅读次数:
200
倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路: Hive的执行是分阶段的,map处理数据量的差异取决于上一个stag.....
分类:
其他好文 时间:
2015-03-05 20:54:17
阅读次数:
19465
SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,...
分类:
其他好文 时间:
2015-03-05 18:41:32
阅读次数:
128
为spark编写UDFcache:作业介绍https://github.com/cs186-spring15/course/tree/master/hw2我花了点时间做了下,觉得是学习sparksql和scala的好材料。现在把我写的作业记录如下:Task#1:ImplementingDiskPartitionandGeneralDiskHashedRelationTask#2:ImplementingobjectDiskHa..
分类:
其他好文 时间:
2015-03-05 15:01:48
阅读次数:
306
各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包...
分类:
数据库 时间:
2015-03-05 14:17:32
阅读次数:
146