1. Impala架构 ?????? Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引...
分类:
其他好文 时间:
2015-03-18 12:34:49
阅读次数:
214
1.DDL 操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达式显示表11.修改表结构12.表添加一列 13.添加一列并增加列字段注释14.更改表名15.删除列16.增加删除分区17.重命名表1...
分类:
数据库 时间:
2015-03-18 10:12:13
阅读次数:
253
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完...
分类:
其他好文 时间:
2015-03-18 07:54:00
阅读次数:
401
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如...
分类:
其他好文 时间:
2015-03-17 21:50:22
阅读次数:
155
1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce.....
分类:
其他好文 时间:
2015-03-17 19:51:58
阅读次数:
146
使用flume收集数据,将数据传递给kafka和hdfs,kafka上的数据可以使用storm构建实时计算,而hdfs上的数据,经过MR处理之后可以导入hive中进行处理。 环境:hadoop1.2.1,hive 0.13.1,maven 3.2.5,flume 1.4,kafka 0.7.2,ec...
分类:
Web程序 时间:
2015-03-14 18:17:55
阅读次数:
4961
项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数。在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能。new java project, BuildPath add hadoop-core..jar and hive-exec…ja...
分类:
其他好文 时间:
2015-03-14 16:43:16
阅读次数:
176
悄悄地,spark 还是像往常一样,发布了1.3版本,从release notes可以看出,这一版本比较大的变化是1. 增加了DataFrame API,这样以后操作一些结构化的数据集时将会变的非常方便,它可以通过数据源如Hive tables, JSON data, a JDBC databa.....
分类:
其他好文 时间:
2015-03-14 13:44:25
阅读次数:
192
把mysql中的表复制到hdfs/hive中,hdfs默认路径是/user/(username)中sqoop ##sqoop命令 import ##表示导入 --connect jdbc:mysql://ip:3306/sqoop ##告诉jdbc,连接mysql的url --userna...
分类:
其他好文 时间:
2015-03-14 12:14:08
阅读次数:
181
hive CLI启动时报错:(hadoop-2.5.2 + HIVE 1.1.0)root@ubuntu:/hadoop-2.5.2/etc/hadoop# hiveLogging initialized using configuration in jar:file:/hive/apache-hi...
分类:
其他好文 时间:
2015-03-14 06:09:03
阅读次数:
13095