最近使用SparkSQL做数据的打平操作,就是把多个表的数据经过关联操作导入到一个表中,这样数据查询的过程中就不需要在多个表中查询了,在数据量大的情况下,这样大大提高了查询效率。我启动了thriftserver,然后通过beeline去连接thriftserver, 打平操作进行的很顺利,但是在执行...
分类:
其他好文 时间:
2015-08-09 00:24:31
阅读次数:
329
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi...
分类:
其他好文 时间:
2015-08-03 18:23:27
阅读次数:
170
Spark SQL除了使用spark-sql命令进入交互式执行环境之外,还能够使用JDBC/ODBC或命令行接口进行分布式查询,在这个模式下,终端用户或应用可以直接和Spark SQL进行交互式SQL查询而不需要写任何scala代码。...
分类:
数据库 时间:
2015-06-25 09:06:40
阅读次数:
224
将hive-site.xml拷贝到$SPARK_HOME/conf中配置如hive使用mysql一样,注意赋予相应的权限。javax.jdo.option.ConnectionURLjdbc:mysql://xxxx:3306/sparkmetadata?createDatabaseIfNotExist=true启动spark-sql要给driver路径spark-sql
--driver-class-path
/usr/local/spark/spa..
分类:
数据库 时间:
2015-06-23 18:12:40
阅读次数:
174
出现这个问题,是因为spark的excutor执行的时候,缺少hive的依赖包,添加依赖包的参数是:--conf "spark.executor.extraClassPath=/opt/cloudera/parcels/CDH-5.3.1-1.cdh5.3.1.p0.5/lib/hive/lib/*...
分类:
数据库 时间:
2015-06-23 13:30:45
阅读次数:
337
在cdh5.3中的spark,已经包含了sparksql,只需要做以下几步配置,就可以在使用该功能1)确保hive的cli和jdbc都可以正常工作2)把hive-site.xml 复制到 SPARK_HOME/conf目录下3)将hive的类库添加到spark classpath中:编辑SPARK_...
分类:
数据库 时间:
2015-06-19 01:25:51
阅读次数:
425
本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下:
1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据
2.我在一个电影网站上看了几部电影,并都为其做了评分操作(0-5分)
3.该电影网站的推荐系统根据我对那几部电影的评分,要预测出...
分类:
数据库 时间:
2015-05-27 22:56:56
阅读次数:
377
Text文本文件测试一个简单的person.txt文件内容为:JChubby,13
Looky,14
LL,15
分别是Name和Age在Idea中新建Object,原始代码如下:object TextFile{
def main(args:Array[String]){ }
}SparkSQL编程模型:第一步:
需要一个SQLContext对象,该对象是SparkSQL操作的入口...
分类:
数据库 时间:
2015-05-25 10:03:28
阅读次数:
216
首先介绍一下Shark的概念
Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的
但是在Spark平台上,Shark的解析速度是Hive的几多倍
它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着H...
分类:
数据库 时间:
2015-05-15 09:11:25
阅读次数:
314
折腾了一天,终于解决了上节中result3的错误。至于为什么会产生这个错误,这里,先卖个关子,先看看这个问题是如何发现的:首先,找到了这篇文章:http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html里面有这么一段:Theissueisthatyou..
分类:
数据库 时间:
2015-04-17 22:29:05
阅读次数:
704