Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为meta....
                            
                            
                                分类:
其他好文   时间:
2014-05-23 05:54:55   
                                阅读次数:
1771
                             
                    
                        
                            
                            
                                如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。
传统关系型数据库(mysql,oracle)数据存储方式主要如下:
图一
上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引...
                            
                            
                                分类:
数据库   时间:
2014-05-23 00:19:11   
                                阅读次数:
301
                             
                    
                        
                            
                            
                                作者在工作中遇到了类似流式数据实时接入的业务场景,所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具,文中的图片来自淘宝数据仓库团队交流过程中的sildes,也参考了一些相关文档。
业务背景
TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。
目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据...
                            
                            
                                分类:
其他好文   时间:
2014-05-22 10:58:59   
                                阅读次数:
334
                             
                    
                        
                            
                            
                                好久不写,一方面是工作原因,有些东西没发直接发,另外的也是习惯给丢了,内因所致。今天是个好日子,走起!btw,实际上这种格式化输出应该不只限于某一种需求,差不多是通用的。需求:--基本的:当前Hive查询结果存在数据与表头无法对其的情况,不便于监控人员直接查看,或者导出到excel中,需要提供一个脚...
                            
                            
                                分类:
其他好文   时间:
2014-05-21 23:00:39   
                                阅读次数:
527
                             
                    
                        
                            
                            
                                继上一篇讲了Put和Delete之后,这一篇我们讲Get和Scan, 
因为我发现这两个操作几乎是一样的过程,就像之前的Put和Delete一样,上一篇我本来只打算写Put的,结果发现Delete也可以走这个过程,所以就一起写了。Get我们打开HRegionServer找到get方法。Get的方法处理...
                            
                            
                                分类:
其他好文   时间:
2014-05-21 17:58:53   
                                阅读次数:
344
                             
                    
                        
                            
                            
                                代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。
在...
                            
                            
                                分类:
数据库   时间:
2014-05-21 17:04:40   
                                阅读次数:
393
                             
                    
                        
                            
                            
                                基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
 课程讲师:迪伦
 课程分类:Java
 适合人群:高级
 课时数量:96课时
 用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop
 涉及项目:Greenplum Hadoop大数据分析平台
 更新程度:完毕
对这个课程有兴趣的朋友可以加我的QQ2059055336和...
                            
                            
                                分类:
其他好文   时间:
2014-05-21 13:23:22   
                                阅读次数:
363
                             
                    
                        
                            
                            
                                主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, 
Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, 
Cassandra, Hama, Whirr,...
                            
                            
                                分类:
其他好文   时间:
2014-05-21 05:55:45   
                                阅读次数:
280
                             
                    
                        
                            
                            
                                今天在写一个sql的时候,使用了hive的unionall,运行时报错。sql如下:selectdimension_name,dt,dtype_name,uv,new_uv,old_uv,pv,stay_timefromtemp_bi.uv
unionall
select‘平台‘dimension_name
,dt
,app_platformdtype_name
,count(distinctmid)uv
,count(distinctcasewhenis_..
                            
                            
                                分类:
其他好文   时间:
2014-05-20 23:53:32   
                                阅读次数:
527
                             
                    
                        
                            
                            
                                前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。先看log。节点一的TaskTracker的log:节点二的TaskTracker的log:节点三的TaskTracker的log:其他节点的TaskTracker中的log都和slave4的一样的:故障分析:OOM是一个比较常见的故..
                            
                            
                                分类:
其他好文   时间:
2014-05-20 22:15:47   
                                阅读次数:
422