本文主要介绍了Spark SQL里目前的CLI实现,代码之后肯定会有不少变动,所以我关注的是比较核心的逻辑。主要是对比了Hive CLI的实现方式,比较Spark SQL在哪块地方做了修改,哪些地方与Hive CLI是保持一致的。
基本上Spark SQL在CLI这块的实现很靠近Hive Service项目里的CLI模块,主要类继承体系、执行逻辑差不多都一样。Spark SQL修改的关键逻辑在CLIService内的SessionManager内的OperationManager里,将非元数据查询操作的q...
分类:
数据库 时间:
2014-08-05 00:44:58
阅读次数:
939
首先所有的输入格式都继承FileInputFormat,对于TextFile和SequenceFile有对应的TextInputFormat和SequenceFileInputFormat。我们先来看一下TextInputFormat的实现:publicclassTextInputFormatextendsFileInputFormat<LongWritable,Text>
implementsJobConfigurable{
p..
分类:
其他好文 时间:
2014-08-04 18:17:29
阅读次数:
677
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
bin/hive 提示"xxx Illegal Hadoop Version: Unknown (expected A.B.* format)"类似这样的问题,经过查看代码 public static String getMajorVersion() { String vers = Versi...
分类:
其他好文 时间:
2014-08-03 17:46:15
阅读次数:
837
今天在ubuntu下面用终端打开一个文件的时候,出现了这个问题。突然想起来这个文件是只读的,所以要开放它的用户权限。
具体的实现如下 chmod 777 /home/example/filename.这样就开放了这个文件的所有权限,可以尽情的访问了。关于chmod的具体说明如下:
变更文件或目录的权限。在UNIX系统家族里,文件或目录权限的控制分别以读取,写入,执行3种一般权限来区分,...
分类:
其他好文 时间:
2014-08-01 19:50:22
阅读次数:
267
本文主要针对对HBase不了解的人。主要想基于个人的理解回答以下几个问题:
什么是HBase?何时用HBase?与Hive、Pig的区别?HBase的结构为何HBase速度很快?HBase常用的操作有哪些?HBase的一些配置和监控
什么是HBase?
HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉...
分类:
其他好文 时间:
2014-07-31 16:59:07
阅读次数:
271
原文来自于:http://blog.csdn.net/w13770269691/article/details/17353595今天想使用一下Hive的图形化工具HWI,我的Hive是0.12.0版本。该版本已经集成了HWI的JAR包,在$HIVE_HOME/lib下的hive-hwi-0.12.0...
分类:
其他好文 时间:
2014-07-31 12:31:26
阅读次数:
183
最近有个业务建表使用了RegexSerDe,之前虽然也它来解析nginx日志,但是没有做深入的了解。这次看了下其实现方式。建表语句:CREATEexternalTABLEods_cart_log
(
time_localSTRING,
request_jsonSTRING,
trace_id_numSTRING
)
PARTITIONEDBY
(
dtstring,
hourstring
)
ROWFORMA..
分类:
其他好文 时间:
2014-07-31 03:11:15
阅读次数:
226
最近发生了一次因为hdfs的坏块导致的hive计算问题,因此写了个监控脚本用来监控hdfs的坏块,脚本如下:#!/usr/bin/python
#-*-coding:utf8-*-
#editbyericni
#20140724
#monitorhdfscorrupt
importsys
importproperty
importsendmail
importre,os
reload(sys)
sys.setdefaulten..
分类:
其他好文 时间:
2014-07-31 03:11:06
阅读次数:
350
order by,distribute by,sort by,cluster by ?查询使用说明 // 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个reducer分区中
// 一个reduce(海量数据,速度很慢)
select year, te...
分类:
其他好文 时间:
2014-07-30 21:00:44
阅读次数:
198