码迷,mamicode.com
首页 >  
搜索关键字:hive 认证类    ( 5967个结果
Parquet与ORC性能测试报告
本文主要使用Hive引擎对比测试了两种业界较为认可的列式存储格式——ORC和Parquet,并使用Text存储格式做对比,设置了星状模型、扁平式宽表,嵌套式宽表等多种场景进行测试,以供感兴趣的同学参考。...
分类:其他好文   时间:2016-04-19 19:41:57    阅读次数:236
生动有趣地讲解Map/Reduce基本原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这 ...
分类:其他好文   时间:2016-04-18 11:27:43    阅读次数:230
CDH5.7快速离线安装教程
一、简介 CDH是cloudera公司开发的一个快速部署、高效管理Hadoop和其各种组件的一个商业化产品。主要分为两部分,分别为Cloudera Manager和CDH软件包。其中Cloudera Manager负责集群的部署与管理。CDH软件包囊括了hdaoop各类的组件的安装包,例如hive、hdfs、spark等等。 由于实验室服务器集群实现了硬件虚拟化,要在虚拟资源重新搭建CDH...
分类:其他好文   时间:2016-04-17 22:55:40    阅读次数:202
hive UDF函数
?虽然Hive提供了很多函数,但是有些还是难以满足我们的需求。因此Hive提供了自定义函数开发 ?自定义函数包括三种UDF、UADF、UDTF ?UDF(User-Defined-Function) ?UDAF(User- Defined Aggregation Funcation) ?UDTF(U ...
分类:其他好文   时间:2016-04-17 11:39:55    阅读次数:216
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的 Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均 值能代表的价值降低。Hiv ...
分类:其他好文   时间:2016-04-15 20:19:39    阅读次数:246
深入浅出数据仓库中SQL性能优化之Hive篇
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化, 针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Ma ...
分类:数据库   时间:2016-04-15 11:43:57    阅读次数:226
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区 ...
分类:数据库   时间:2016-04-15 11:43:18    阅读次数:244
向Redis里存入数据
实现思路:1、 从Redis缓存获取URL统计网址清单2、 逐条拼凑SQL统计语句,暂时不能支持批量计算,因为按单个网址统计。3、 发送到HIVE JDBC执行SQL并等待返回结果4、 逐条接收SQL查询结果,动态添加到LIST集合中。5、 遍历LIST集合数据,转换成JSON对象,并推送到Redi ...
分类:其他好文   时间:2016-04-14 17:45:06    阅读次数:118
Hive学习之七《 Sqoop import 从关系数据库抽取到HDFS》
一、什么是sqoop Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数 ...
分类:数据库   时间:2016-04-13 02:06:51    阅读次数:346
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一、本课程是怎么样的一门课程(全面介绍) 1.1、课程的背景 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。 Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重 ...
分类:数据库   时间:2016-04-12 07:11:13    阅读次数:220
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!