码迷,mamicode.com
首页 >  
搜索关键字:hive 认证类    ( 5967个结果
HIVE编程指南之HiveQL的学习笔记1
// HiveQLa) 数据定义语言1 数据库表的一个目录或命名空间,如果用户没有指定数据库的话,那么将会使用默认的数据库default-----创建数据库CREATE DATABASE guoyongrong;// 给每个数据库创建了一个目录,数据库的文件目录名是以.db结尾的CREATE DAT...
分类:其他好文   时间:2015-07-31 16:09:43    阅读次数:114
hive执行任务报错Execution failed with exit status: 3
2014-12-18 03:21:03 Starting to launch local task to process map join; maximum memory = 10654842882014-12-18 03:21:08 Processing rows: 200000 Hashtabl...
分类:其他好文   时间:2015-07-31 12:34:08    阅读次数:322
(转)Hive SQL的编译过程
本文来着美团 :http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。H...
分类:数据库   时间:2015-07-30 22:59:55    阅读次数:208
四、伪分布下安装hive
声明:本篇blog并没有配置MySQL,不过会在接下来的文章中实现 一、环境 Ubuntu14.04 hadoop2.6伪分布(安装教程请参考:点击打开链接) hive-1.2.1(下载链接:点击打开链接) 二、安装 1、将其下载的安装包解压到相应的目录,在此小编的是/usr/local/hadoop/      tar  -zxcf apache-hive-1.2.1-bin....
分类:其他好文   时间:2015-07-30 17:03:25    阅读次数:307
Federated HDFS+beeline+hiveserver2 遇到的坑
遇到的坑:1、Hive的任务会从临时目录移动数据到数据仓库目录,默认hive使用/tmp作为临时目录,用户通常使用/user/hive/warehouse/作为数据仓库目录。在FederatedHDFS情况下,/tmp和/user视为两个不同的ViewFSmounttable,所以hive任务在这两个目录之间移动数据。FederatedHDFS..
分类:其他好文   时间:2015-07-30 15:11:51    阅读次数:1079
Hive 安装配置
系统:Ubuntu 64 bit系统step1:创建hive文件目录,并在hive目录下创建tmp,warehouse 和 log目录:Step2:解压hive安装包:Step3:创建配置文件:Step4:修改hive-site.xml:Step5:修改hive-log4j.properties:S...
分类:其他好文   时间:2015-07-30 00:24:59    阅读次数:158
Mysql或者Hive数据行变成列
对于mysql /  hive 再进行统计的时候如果需要行变成列,可以使用函数 CASE 字段a WHEN 值b THEN c [WHEN d THEN e]* [ELSE f] END  当字段a=值b时,返回c(如果是字段的话则代表该字段的值,也可以是一个固定值 加单引号就可以);当a=d时,返回e,否则返回f。 如: 数据表结构:(举例说明,id有重复的) ...
分类:数据库   时间:2015-07-29 21:24:49    阅读次数:199
Spark SQL and DataFrame Guide(1.4.1)——之DataFrames
Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames...
分类:数据库   时间:2015-07-29 17:22:28    阅读次数:196
Spark SQL编程指南(Python)
前言Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。SchemaRDD类似于传统关系型数据库的一张表,由两部分组成:Rows:数据行对象Schema:数据行模式:列名、列数据类型、列可否为空等S...
分类:数据库   时间:2015-07-29 12:02:57    阅读次数:147
hive count distinct
select count(distinct user_id) from dm_user where ds=20150701; 使用disticnt函数,所有的数据只会shuffle到一个reducer上,导致reducer数据倾斜严重 优化后为 set mapred.reduce.tasks=50; select count(*) from (select user_id...
分类:其他好文   时间:2015-07-28 13:11:29    阅读次数:103
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!