Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便;当前版本中还不能使用Spark SQL CLI与ThriftServer进行交互。注意:在使用Spark SQL CLI时需要将hive-site.xml配置文件拷贝到$SP...
分类:
数据库 时间:
2014-09-13 17:10:25
阅读次数:
512
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心。云计算学习者的心声:如何从企业级开发的角度,不断动手实际操作,循序...
分类:
移动开发 时间:
2014-09-13 17:05:15
阅读次数:
333
SparkSql实际运用:在spark0.9.x中不支持jdbc操作,spark1.1会加入jdbc支持
版本说明:spark-1.1.0+scala-2.10.4+hive-0.12.0
spark1.1的发布正式版:2014/9/11
1、增加start-thriftserver.sh 服务启动,通过jdbc/odbc直接连接
bin/start-thriftser...
分类:
数据库 时间:
2014-09-13 09:25:24
阅读次数:
329
什么是MapJoin?
MapJoin顾名思义,就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。
MapJoin的原理:
即在map 端进行join,其原理是broadcast join,即把小表作为一个完整的驱动表来进行join操作。通常情况下,要连接的各个表里面的数据会分布在不同...
分类:
其他好文 时间:
2014-09-12 22:09:44
阅读次数:
241
sqoop hive-0.13 hadoop-2.2.0...
分类:
数据库 时间:
2014-09-12 20:47:04
阅读次数:
275
hive支持的数据类型路下
数值类型 Numeric Types
TINYINT (1字节,数据范围: -128 to 127)
SMALLINT (2字节,数据范围: -32,768 to 32,767)
INT (4字节,数据范围:-2,147,483,648 to 2,147,483,647)
BIGINT (8字节,数据范围: -9,223,372,036,854,775,808 to 9,223,372,036,854,775,807)
FLOAT (4字节, 单精度浮点数)
DOUBLE (8字...
分类:
其他好文 时间:
2014-09-11 21:01:02
阅读次数:
207
grep 由于内置高效的字符串搜索算法,兼容各种风格的正则,且功能众多,有着 linux 下字符串处理三剑客之一的称号,但是到了如今的大数据/分布式时代,这种单机时代的工具显得有些廉颇老矣。。。 1、需求背景 我们...
分类:
其他好文 时间:
2014-09-11 04:33:02
阅读次数:
670
前面介绍了sparkSQL的运行架构,后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前,我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件,相关的信息如下:
hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点:http:...
分类:
数据库 时间:
2014-09-10 09:39:40
阅读次数:
378
sparkSQL1.1对数据的查询分成了2个分支:sqlContext 和 hiveContext。
在sqlContext中,sparkSQL可以使用SQL-92语法对定义的表进行查询,表的源数据可以来自:
RDDparquet文件json文件
在hiveContext中,sparkSQL可以使用HQL语法,对hive数据进行查询,sparkSQ...
分类:
数据库 时间:
2014-09-10 09:38:00
阅读次数:
406