码迷,mamicode.com
首页 >  
搜索关键字:hive    ( 5904个结果
Flume在企业大数据仓库架构中位置及功能
Flume在企业大数据仓库架构中位置及功能hadoop数据仓库flume数据仓库架构1、如下图所示,外部数据中,关系型数据库导入到HDFS用sqoop,由Nginx产生的文件实时监控用Flume获得。在HDFS或Hbase中,如果要进行实时查询用Impala(内存),如果是分析可以用Hive,Map... ...
分类:Web程序   时间:2016-04-01 06:33:43    阅读次数:452
Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编 ...
分类:其他好文   时间:2016-03-31 14:42:07    阅读次数:135
“挖掘机”升级路 二篇(04)--分享一个自动配置的脚本
掰着指头算算,今天是周三,也就意味着我从接触Hadoop到搭建集群Hadoop、HBase、Hive已经过去了四天,结果是我依然没有搭建完成,还在苦苦挣扎。这周一定要让完整的Hadoop跑起来,不然也真是太不像话了。 今天我想想干了些啥,早上路过青年路的时候买了个馒头,他居然要了我两块钱!!!不是什 ...
分类:其他好文   时间:2016-03-31 00:04:10    阅读次数:232
“挖掘机”升级路 一篇(03)--HBase集群安装中的收获
粗略算算,从上周五到这周二,折腾Hadoop已经三天了。这三天我是过得诚惶诚恐,作为一个学徒,老大虽然没有说啥,但是我恨不得立马完成这些基本的部署工作,感觉拖了好久好久。简单的总结一下,第一天折腾Hadoop单机和伪分布式的安装,第二天在折腾Hive的安装,以失败告终,第三天折腾HBase的集群安装 ...
分类:其他好文   时间:2016-03-29 23:58:21    阅读次数:374
使用hive查询把访问网络流量会话化
《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。 一、问题提出(摘自书中原文)         为了分析网络流量,我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中,一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某...
分类:其他好文   时间:2016-03-29 10:43:32    阅读次数:303
Hive学习之五 《Hive进阶—UDF操作案例》 详解
hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数。 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一、Java通过正则表达式,截取标题名称。 以链接,截取标红的字符串。 http://cms.yhd.com/s ...
分类:其他好文   时间:2016-03-29 00:52:48    阅读次数:185
hive 配置文件以及join中null值的处理
一、Hive的參数设置 1. 三种设定方式:配置文件 · 用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml · 默认配置文件:$HIVE_CONF_DIR/hive-default.xml 用户自己定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,由于H ...
分类:其他好文   时间:2016-03-26 18:54:51    阅读次数:165
HIVE的安装
分类:其他好文   时间:2016-03-26 08:11:23    阅读次数:121
Hadoop每日一讨论整理版
这是我在几个QQ群发起的Hadoop每日一讨论小活动,每天中午2点左右发出一个关于Hadoop的知识片段,在此做一个整理。 【每日一讨论】之计算框架(2013-5-21) 就计算框架而言,Hadoop目前比较成熟的只有离线计算框架MapReduce(通常运行时间在1min以上),以及构建在MapReduce之上支持sql的Hive。随着发展,实时计算(通常运行时间在0~5s)有...
分类:其他好文   时间:2016-03-26 07:33:55    阅读次数:325
Hive学习之三 《Hive的表的详解和应用案例详解》
一、Hive的表 Hive的表分为内部表、外部表和分区表。 1、内部表,为托管表。 2、外部表,external。 3、分区表。 详解: 内部表,删除表的时候,数据会跟着删除。 外部表,在删除表的时候,数据不会跟着删除。 默认分隔符:列 为 \001 行分隔符为 \n 分区表: 1、解决查询效率,不 ...
分类:其他好文   时间:2016-03-24 16:21:41    阅读次数:136
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!