粗略算算,从上周五到这周二,折腾Hadoop已经三天了。这三天我是过得诚惶诚恐,作为一个学徒,老大虽然没有说啥,但是我恨不得立马完成这些基本的部署工作,感觉拖了好久好久。简单的总结一下,第一天折腾Hadoop单机和伪分布式的安装,第二天在折腾Hive的安装,以失败告终,第三天折腾HBase的集群安装 ...
分类:
其他好文 时间:
2016-03-29 23:58:21
阅读次数:
374
《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。
一、问题提出(摘自书中原文)
为了分析网络流量,我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中,一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某...
分类:
其他好文 时间:
2016-03-29 10:43:32
阅读次数:
303
hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数。 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一、Java通过正则表达式,截取标题名称。 以链接,截取标红的字符串。 http://cms.yhd.com/s ...
分类:
其他好文 时间:
2016-03-29 00:52:48
阅读次数:
185
一、Hive的參数设置 1. 三种设定方式:配置文件 · 用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml · 默认配置文件:$HIVE_CONF_DIR/hive-default.xml 用户自己定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,由于H ...
分类:
其他好文 时间:
2016-03-26 18:54:51
阅读次数:
165
这是我在几个QQ群发起的Hadoop每日一讨论小活动,每天中午2点左右发出一个关于Hadoop的知识片段,在此做一个整理。
【每日一讨论】之计算框架(2013-5-21)
就计算框架而言,Hadoop目前比较成熟的只有离线计算框架MapReduce(通常运行时间在1min以上),以及构建在MapReduce之上支持sql的Hive。随着发展,实时计算(通常运行时间在0~5s)有...
分类:
其他好文 时间:
2016-03-26 07:33:55
阅读次数:
325
一、Hive的表 Hive的表分为内部表、外部表和分区表。 1、内部表,为托管表。 2、外部表,external。 3、分区表。 详解: 内部表,删除表的时候,数据会跟着删除。 外部表,在删除表的时候,数据不会跟着删除。 默认分隔符:列 为 \001 行分隔符为 \n 分区表: 1、解决查询效率,不 ...
分类:
其他好文 时间:
2016-03-24 16:21:41
阅读次数:
136
安装mysql mysql装在了master节点上 1)卸载系统自带的mysql相关安装包,仅卸载 mysql 开头的包 rpm -qa|grep -i mysql -i 作用是不区分大小写 可以看到有两个安装包 MySQL-server-5.6.19-1.linux_glibc2.5.x86_64
分类:
其他好文 时间:
2016-03-21 21:36:46
阅读次数:
252
Hive自身查询语言HQL能完毕大部分的功能,但遇到特殊需求时,须要自己写UDF实现。下面是一个完整的案例。 1、eclipse中编写UDF 当我们在hive中使用自己定义的UDF的时候,hive会调用类中的evaluate方法来实现特定的功能 ③导出项目为jar文件。 注:项目的jdk与集群的jd
分类:
其他好文 时间:
2016-03-21 19:55:39
阅读次数:
114
Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flu
分类:
其他好文 时间:
2016-03-20 21:14:09
阅读次数:
253