目录: 一、Nginx的相关配置,以及测试数据 二、Hadoop中创建使用目录 三、Hive的日志表创建,并同步到Hbase中 1)创建自增长ID的类,并添加到Hive环境中 2)在Hive中创建日志表 3)将Nginx的日志数据导入到Hive日志表中 方法一:将本...
                            
                            
                                分类:
其他好文   时间:
2014-08-24 14:04:32   
                                阅读次数:
246
                             
                    
                        
                            
                            
                                下面以sales和things表为例。这两个表定义如下: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * FROM things; 2 Tie 4 Coat 3 Hat 1 Scarf 1. Inn....
                            
                            
                                分类:
其他好文   时间:
2014-08-24 00:18:31   
                                阅读次数:
454
                             
                    
                        
                            
                            
                                环境:Centos6.4 64位Hadoop2.2.0Sun JDK1.7.0_45hive-0.12.0准备工作:yum -y install lzo-devel zlib-devel gcc autoconf automake libtool开始了哦!(1)安装LZOwget http://ww...
                            
                            
                                分类:
其他好文   时间:
2014-08-23 15:18:00   
                                阅读次数:
1180
                             
                    
                        
                            
                            
                                今天有个etl开发在droppartition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做droppartition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对hdfs没..
                            
                            
                                分类:
其他好文   时间:
2014-08-23 02:29:00   
                                阅读次数:
231
                             
                    
                        
                            
                            
                                ## RCFile 之前听说 RCFile 在读取数据时可以跳过不需要的列,不需要将一整行读入然后选择所需字段,所以在 Hive 中执行 `select a, b from tableA where c = 1` 这样的操作就相对比较高效。为了满足好奇心,找了...
                            
                            
                                分类:
其他好文   时间:
2014-08-22 22:39:30   
                                阅读次数:
315
                             
                    
                        
                            
                            
                                问题:有如下数据文件 city.txt (id, city, value)cat city.txt1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条va...
                            
                            
                                分类:
其他好文   时间:
2014-08-22 22:25:40   
                                阅读次数:
455
                             
                    
                        
                            
                            
                                regex insert join group cli...
                            
                            
                                分类:
其他好文   时间:
2014-08-22 14:32:28   
                                阅读次数:
221
                             
                    
                        
                            
                            
                                Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就...
                            
                            
                                分类:
其他好文   时间:
2014-08-21 19:27:44   
                                阅读次数:
148
                             
                    
                        
                            
                            
                                需求
将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。
设计
涉及的三张表:
全量表:保存了截止上一次同步时间的全量基础数据表
增量表:增量临时表
更新后的全量表:更新后的全量数据表
步骤:
通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表
通过Hive将“全量...
                            
                            
                                分类:
数据库   时间:
2014-08-21 19:22:14   
                                阅读次数:
455