欢迎转载,转载请注明出处,徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何完成对hql的支持是一件非常有趣的事情。Hive简介Hive的由来以下部分摘自Hadoop defini...
分类:
其他好文 时间:
2014-07-07 14:45:58
阅读次数:
224
欢迎转载,转载请注明出处,徽沪一郎。楔子Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块...
分类:
其他好文 时间:
2014-07-07 14:17:47
阅读次数:
295
前沿: Hive也采用类SQL的语法, 但其作为数据仓库, 与面向OLTP的传统关系型数据库(Mysql/Oracle)有着天然的差别. 它用于离线的数据计算分析, 而不追求高并发/低延时的应用场景. 最显著的特别是, Hive的数据是Schema On Read, 对数据的写入非常的自由和松散,....
分类:
其他好文 时间:
2014-07-07 09:53:53
阅读次数:
262
早在Spark Submit 2013里就有介绍到Spark SQL,不过更多的是介绍Catalyst查询优化框架。经过一年的开发,在今年Spark Submit 2014上,Databricks宣布放弃Shark 的开发,而转投Spark SQL,理由是Shark继承了Hive太多,优化出现了瓶颈,如图:
今天把Spark最新的代码签了下来,测试了一下:
1、编译Spar...
分类:
数据库 时间:
2014-07-03 16:06:04
阅读次数:
534
今天,有个同事问我,怎样在C#中使用全局钩子?以前写的全局钩子都是用unmanaged C或C++写个DLL来实现,可大家都知道,C#是基于.Net Framework的,是managed,怎么实现全局钩子呢?于是开始到网上搜索,好不容易找到一篇,318804 - HOW TO: Set a Win...
分类:
其他好文 时间:
2014-07-03 10:23:28
阅读次数:
302
测试环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.61、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应...
分类:
编程语言 时间:
2014-07-03 00:39:24
阅读次数:
316
错误信息及出现情景:
在export环境变量LD_PRELOAD=$XTERN_ROOT/dync_hook/interpose.so后,再运行amplxe-gui,出现上述错误。新增的动态链接库对VTune的libstdc++.so.6提出了高版本的要求。VTune 2013 updated 17的libstdc++.so.6版本为libstdc++.so.6.0.12,如果运行以下命令:
...
分类:
编程语言 时间:
2014-07-02 07:11:42
阅读次数:
339
iptables组件是一种工具,也称为用户空间(userspace),它使插入、修改和除去信息包过滤表中的规则变得容易。分为四个表和五个链,其中表是按照对数据包的操作区分的,链是按照不同的Hook点来区分的,表和链实际上是netfilter的两个维度。4个表:filter,nat,mangle,raw,默认表..
分类:
其他好文 时间:
2014-07-01 09:42:19
阅读次数:
410
如果你熟悉SharePoint 2007, 你必须知道12 Hive目录。在SharePoint 2010中,12 Hive已经被14 Hive 代替。大多数情况下,都是SharePoint文件的默认路径。...
分类:
其他好文 时间:
2014-07-01 07:47:39
阅读次数:
187