出现这个问题,是因为spark的excutor执行的时候,缺少hive的依赖包,添加依赖包的参数是:--conf "spark.executor.extraClassPath=/opt/cloudera/parcels/CDH-5.3.1-1.cdh5.3.1.p0.5/lib/hive/lib/*...
分类:
数据库 时间:
2015-06-23 13:30:45
阅读次数:
337
在cdh5.3中的spark,已经包含了sparksql,只需要做以下几步配置,就可以在使用该功能1)确保hive的cli和jdbc都可以正常工作2)把hive-site.xml 复制到 SPARK_HOME/conf目录下3)将hive的类库添加到spark classpath中:编辑SPARK_...
分类:
数据库 时间:
2015-06-19 01:25:51
阅读次数:
425
本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下:
1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据
2.我在一个电影网站上看了几部电影,并都为其做了评分操作(0-5分)
3.该电影网站的推荐系统根据我对那几部电影的评分,要预测出...
分类:
数据库 时间:
2015-05-27 22:56:56
阅读次数:
377
Text文本文件测试一个简单的person.txt文件内容为:JChubby,13
Looky,14
LL,15
分别是Name和Age在Idea中新建Object,原始代码如下:object TextFile{
def main(args:Array[String]){ }
}SparkSQL编程模型:第一步:
需要一个SQLContext对象,该对象是SparkSQL操作的入口...
分类:
数据库 时间:
2015-05-25 10:03:28
阅读次数:
216
首先介绍一下Shark的概念
Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的
但是在Spark平台上,Shark的解析速度是Hive的几多倍
它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着H...
分类:
数据库 时间:
2015-05-15 09:11:25
阅读次数:
314
折腾了一天,终于解决了上节中result3的错误。至于为什么会产生这个错误,这里,先卖个关子,先看看这个问题是如何发现的:首先,找到了这篇文章:http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html里面有这么一段:Theissueisthatyou..
分类:
数据库 时间:
2015-04-17 22:29:05
阅读次数:
704
Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部,Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下,目前实现了针对关系查询处理(如,表达式,逻辑查询计划)的库,和在处理查询执行不同阶段(分析,逻辑优化,物理优化,代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...
分类:
其他好文 时间:
2015-04-17 11:18:59
阅读次数:
206
本博文程序是读取hadoop的hdfs中的文件,使用正则化解析出规定格式的数据,然后加载到sparkSQL数据库中。
正则化如果不太了解,请看正则表达式30分钟入门教程
package com.spark.firstApp
import org.apache.spark.SparkContext
import org.apache.spark._
import org.apache.lo...
分类:
数据库 时间:
2015-04-16 15:47:50
阅读次数:
243
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。
直接上代码:
importorg.apache.spark.SparkContext
importorg.apache.spark.sql.SQLContext
objectSparkSQL{
//定义两个caseclassA和B:
//A是用户的基本信息:包括客户号、***号和性别
//B是用户的交易信息..
分类:
数据库 时间:
2015-04-15 15:00:49
阅读次数:
565
Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)
可实现你所需要的:
- 数据采集
- 数据发现
- 数据分析
- 数据可视化和协作支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。
甚至可以添加自己的语言支持。如何写一个...
分类:
Web程序 时间:
2015-04-01 13:23:03
阅读次数:
329