相信在Etl的过程中不可避免的实用union all来拼装数据,那么这就涉及到是否并行处理的问题了。在hive中是否适用并行map,可以通过参数来设定:set hive.exec.parallel=true; 那么还是实用上一篇博客的数据,链接:http://www.cnblogs.com/liqi...
分类:
数据库 时间:
2015-10-13 01:30:10
阅读次数:
256
//hive与hbase整合create table lectrure.hbase_lecture10(sname string, score int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' whth serdepr...
分类:
其他好文 时间:
2015-10-13 00:17:09
阅读次数:
316
序列化:把结构化的对象转换成字节流,使得能够在系统中或网络中通信需要把数据存储到hadoop的hbase常用序列化系统thrift(hive,hbase)ProtocolBuffer(google)avro
分类:
其他好文 时间:
2015-10-11 19:54:18
阅读次数:
172
1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z...
分类:
其他好文 时间:
2015-10-10 17:23:21
阅读次数:
354
1,环境情况安装的CDH5.4,使用CM来管理各个组件(Yarn、Spark、HDFS、Hive、Oozie……)。2,在shell命令下提交Oozie作业①sudo –u hdfs hadoop fs –mkdir /user/cdhfive 创建一个专门的用户目录,这里为cdhfive②sudo...
分类:
其他好文 时间:
2015-10-10 17:17:45
阅读次数:
2980
1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver...
分类:
其他好文 时间:
2015-10-10 15:21:01
阅读次数:
273
本文记录hive列通配查询相关使用,通常写hql的时候大家经常在where过滤条件中使用通配,其实在hive中select的时候对列同样可以使用正则通配。使用场景:表中列比较多,且有规律的名字(col1_a,col1_b,col2_z,col2_d,col10_w……),查数据是列出所有列比较麻烦(懒人模式)。select..
分类:
其他好文 时间:
2015-10-09 15:30:47
阅读次数:
272
查看所有表:showtables;查看表结构:desc表名查看表的分区:showpartitions表名;查看UDF:HIVE允许用户使用UDF(userdefinedfunction)对数据进行处理。查看所有UDF:showfunctions某个具体UDF说明:describefunctionUDF名http://blog.csdn.net/yfkiss/article/details/788526..
分类:
其他好文 时间:
2015-10-09 15:28:57
阅读次数:
180
折腾了一天,最后才发现sqoop2暂时只支持mysql到hdfs或者hdfs到mysql,不支持hive或者hbase,无语啊。不过这里还是记下sqoop2的安装,兴许以后sqoop2加了支持,从这里能够快速记忆起来。 首先下载,这里版本是sqo...
分类:
其他好文 时间:
2015-10-08 20:11:19
阅读次数:
186
原文链接 http://www.ibm.com/developerworks/cn/data/library/bd-hivelibrary/index.htmlPeter J. Jamack, 大数据分析顾问, Peter J Jamack2013 年 9 月 06 日当您需要处理大量数据时,存储它...
分类:
数据库 时间:
2015-10-06 16:37:49
阅读次数:
419