码迷,mamicode.com
首页 >  
搜索关键字:hive udf    ( 6169个结果
hive 用户手册和map参数调整
Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。 然后,框架为这个任务的InputSplit中每个键值对调用一次 map(WritableComparable, Writable, OutputCollector, Reporter)操作。 通过调用 OutputCollector.col...
分类:其他好文   时间:2015-03-10 17:22:28    阅读次数:216
hadoop异常之 reduce拉取数据失败  (error in shuffle in fetcher)
主要错误信息:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#43 解决办法:限制reduce的shuffle内存使用                 hive:set mapreduce.reduce.shuffle.memory.li...
分类:其他好文   时间:2015-03-08 15:45:25    阅读次数:197
Hive导入HDFS/本地数据
#创建表人信息表person(String name,int age)hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED...
分类:其他好文   时间:2015-03-06 22:02:49    阅读次数:11717
Windows Azure上的大数据服务: HDInsight的介绍
这个视频介绍了目前非常流行的大数据处理框架Hadoop的Windows Azure上的实现:HDInsight,以及利用MapReduce来对大数据进行分析,利用Hive进行查询,利用客户端PowerBI, PowerQuery对结果进行展示等过程。 讲的通俗易懂,实乃Hadoop大数据处理最佳入...
分类:Windows程序   时间:2015-03-06 18:28:14    阅读次数:169
Alex 的 Hadoop 菜鸟教程: 第21课 不只是在HBase中用SQL:Phoenix
什么是Phoenix? Phoenix的团队用了一句话概括Phoenix:"We put the SQL back in NoSQL" 意思是:我们把SQL又放回NoSQL去了!这边说的NoSQL专指HBase,意思是可以用SQL语句来查询Hbase,你可能会说:“Hive和Impala也可以啊!”。但是Hive和Impala还可以查询文本文件,Phoenix的特点就是,它只能查Hbase,别的类型都不支持!但是也因为这种专一的态度,让Phoenix在Hbase上查询的性能超过了Hive和Impala!...
分类:数据库   时间:2015-03-06 11:23:52    阅读次数:468
hive lab competition
create table user(userid STRING,sex STRING,age INT,career INT,code STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ':';LOAD DATA LOCAL INPATH '/home/h...
分类:其他好文   时间:2015-03-05 20:58:42    阅读次数:200
Hive数据倾斜总结
倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路: Hive的执行是分阶段的,map处理数据量的差异取决于上一个stag.....
分类:其他好文   时间:2015-03-05 20:54:17    阅读次数:19465
Hive分区和桶
SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,...
分类:其他好文   时间:2015-03-05 18:41:32    阅读次数:128
Homework 2: UDF Caching in Spark
为spark编写UDFcache:作业介绍https://github.com/cs186-spring15/course/tree/master/hw2我花了点时间做了下,觉得是学习sparksql和scala的好材料。现在把我写的作业记录如下:Task#1:ImplementingDiskPartitionandGeneralDiskHashedRelationTask#2:ImplementingobjectDiskHa..
分类:其他好文   时间:2015-03-05 15:01:48    阅读次数:306
HBase完全分布式安装以及Hive远程模式(mysql作为数据库)的安装
各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包...
分类:数据库   时间:2015-03-05 14:17:32    阅读次数:146
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!