1.下载spark源码,在spark源码目录下面有个make-distribution.sh文件,修改里面的参数,使编译后能支持hive,修改后执行该文件。(要预先安装好maven才能编译)。2.将编译好的spark源码部署到机器上,然后将hive/conf中的hive-site.xml拷贝到spa...
分类:
其他好文 时间:
2014-08-25 10:02:34
阅读次数:
271
数据表大概150M,但是只有几个字段,导致行数特别多,当使用正则表达式去匹配时执行较慢。解决思路:增大map数; //设置reduce数为150,将原表分成150份,map数无法直接设置,因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map...
分类:
其他好文 时间:
2014-08-24 14:11:33
阅读次数:
390
目录: 一、Nginx的相关配置,以及测试数据 二、Hadoop中创建使用目录 三、Hive的日志表创建,并同步到Hbase中 1)创建自增长ID的类,并添加到Hive环境中 2)在Hive中创建日志表 3)将Nginx的日志数据导入到Hive日志表中 方法一:将本...
分类:
其他好文 时间:
2014-08-24 14:04:32
阅读次数:
246
下面以sales和things表为例。这两个表定义如下: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * FROM things; 2 Tie 4 Coat 3 Hat 1 Scarf 1. Inn....
分类:
其他好文 时间:
2014-08-24 00:18:31
阅读次数:
454
环境:Centos6.4 64位Hadoop2.2.0Sun JDK1.7.0_45hive-0.12.0准备工作:yum -y install lzo-devel zlib-devel gcc autoconf automake libtool开始了哦!(1)安装LZOwget http://ww...
分类:
其他好文 时间:
2014-08-23 15:18:00
阅读次数:
1180
今天有个etl开发在droppartition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做droppartition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对hdfs没..
分类:
其他好文 时间:
2014-08-23 02:29:00
阅读次数:
231
## RCFile 之前听说 RCFile 在读取数据时可以跳过不需要的列,不需要将一整行读入然后选择所需字段,所以在 Hive 中执行 `select a, b from tableA where c = 1` 这样的操作就相对比较高效。为了满足好奇心,找了...
分类:
其他好文 时间:
2014-08-22 22:39:30
阅读次数:
315
问题:有如下数据文件 city.txt (id, city, value)cat city.txt1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条va...
分类:
其他好文 时间:
2014-08-22 22:25:40
阅读次数:
455
regex insert join group cli...
分类:
其他好文 时间:
2014-08-22 14:32:28
阅读次数:
221