一、Impala简单介绍Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用同样的统一存储平台,Impala也使用同样的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。...
                            
                            
                                分类:
其他好文   时间:
2014-10-28 15:23:23   
                                阅读次数:
467
                             
                         
                    
                        
                            
                            
                                上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件,由于hiveContext继承自sqlContext,关键的概念和组件类似,只不过后者针对hive的特性做了一些修正和重写,所以本篇就只介绍sqlContext的关键的概念和组件。
概念:
Logi...
                            
                            
                                分类:
数据库   时间:
2014-10-27 12:53:06   
                                阅读次数:
616
                             
                         
                    
                        
                            
                            
                                HIVE 0.11版本的bug
两次{{group by}}的bug 
https://issues.apache.org/jira/browse/HIVE-5149
SELECT key, COUNT(*)
FROM (
  SELECT key, value, COUNT( * )
  FROM src
  GROUP BY key, value
) a
GROUP BY key;...
                            
                            
                                分类:
其他好文   时间:
2014-10-26 22:54:36   
                                阅读次数:
217
                             
                         
                    
                        
                            
                            
                                1、Eclipse 读取hdfs文件错误: java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724...
                            
                            
                                分类:
其他好文   时间:
2014-10-26 16:53:15   
                                阅读次数:
178
                             
                         
                    
                        
                            
                            
                                1、小、大表 join
在小表和大表进行join时,将小表放在前边,效率会高,hive会将小表进行缓存。
2、mapjoin
使用mapjoin将小表放入内存,在map端和大表逐一匹配,从而省去reduce。
例子:
select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1
在0.7版本...
                            
                            
                                分类:
其他好文   时间:
2014-10-25 23:04:26   
                                阅读次数:
315
                             
                         
                    
                        
                            
                            
                                周六hive 桶相关特性分析hive 子查询特别分析hive优化方式和使用技巧
                            
                            
                                分类:
其他好文   时间:
2014-10-25 00:43:50   
                                阅读次数:
133
                             
                         
                    
                        
                            
                            
                                Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hiv.....
                            
                            
                                分类:
其他好文   时间:
2014-10-24 14:23:25   
                                阅读次数:
201
                             
                         
                    
                        
                            
                            
                                在上一篇的CliDriver类中介绍了CliDriver类会引用到CommandProcessor相关类,主要是根据命令来判断具体实现类,比如通过本地的hivecli启动时,运行hive的命令(非list/source/shell命令等)时在processCmd方法中有如下实现:try{
CommandProcessorproc=CommandProcessorFactory.g..
                            
                            
                                分类:
其他好文   时间:
2014-10-23 06:56:00   
                                阅读次数:
254
                             
                         
                    
                        
                            
                            
                                本篇为安装篇较简单:
前提:
1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行
2:安装了hbase-0.94.3, 正常运行
接下来,安装Hive,基于已经安装好的hadoop,步骤如下:
1:下载
从http://hive.apache.org/下载hive-0.9.0/
创建目录
/hive
将文件hive-0.9.0保存在/hive下
...
                            
                            
                                分类:
其他好文   时间:
2014-10-22 18:17:21   
                                阅读次数:
197