Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including
Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Pla...
分类:
其他好文 时间:
2014-10-31 15:43:55
阅读次数:
233
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几...
分类:
其他好文 时间:
2014-10-31 10:13:42
阅读次数:
350
目录1.hadoop分布式安装2.zookeeper分布式安装3.hbase分布式安装4.pig分布式安装5.hive客户端安装
分类:
其他好文 时间:
2014-10-31 08:45:43
阅读次数:
244
Logging?initialized?using?configuration?in?jar:file:/usr/share/hive/lib/hive-common-0.13.1.jar!/hive-log4j.properties
Exception?in?thread?"main"?java.lang.RuntimeException:?java.lang.Run...
分类:
Web程序 时间:
2014-10-30 21:05:57
阅读次数:
418
想要从日志数据中分析一下操作系统、浏览器、版本使用情况,但是hive中的函数不能直接解析useragent,于是可以写一个UDF来解析。useragent用于表示用户的当前操作系统,浏览器版本信息,形如:
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 S...
分类:
其他好文 时间:
2014-10-30 17:01:50
阅读次数:
218
现象:hive 表中的小时数据,每隔几天就会缺失一个小时的,最后发现时在做数据聚合cat的时候,失败,导致: 修改脚本,做下面的方案,解决了: ##merge 5min data into hour data ? ? ? ? ? ? ? ? ? ? ...
分类:
系统相关 时间:
2014-10-30 13:40:18
阅读次数:
271
之前也安装过hive,操作过无数,也没发现什么错误,今天因为之前安装的hadoop不能用了,不知道为什么,老是提示node 0,所以重新安装了hadoop和hive。安装完测试hive创建表也没发现什么错误,但是一旦执行create table tab_name as select * from (...
分类:
其他好文 时间:
2014-10-30 01:35:00
阅读次数:
443
环境说明: l? hadoop:2.4.0 l? Zookeeper:3.4.6 l? Hbase:0.96 l? Hive:0.13.1 ? 1.? Hive整合HBase原理 Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠Hive安装...
分类:
其他好文 时间:
2014-10-29 19:54:53
阅读次数:
407
Hive的几种常见的数据导入方式
这里介绍四种:
(1)、从本地文件系统中导入数据到Hive表;
(2)、从HDFS上导入数据到Hive表;
(3)、从别的表中查询出相应的数据并导入到Hive表中;
(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。
一、从本地文件系统中导入数据到Hive表
先在Hive里面创建好表,如下:
...
分类:
其他好文 时间:
2014-10-29 19:29:20
阅读次数:
279