折腾了一天,终于解决了上节中result3的错误。至于为什么会产生这个错误,这里,先卖个关子,先看看这个问题是如何发现的:首先,找到了这篇文章:http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html里面有这么一段:Theissueisthatyou..
分类:
数据库 时间:
2015-04-17 22:29:05
阅读次数:
704
Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部,Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下,目前实现了针对关系查询处理(如,表达式,逻辑查询计划)的库,和在处理查询执行不同阶段(分析,逻辑优化,物理优化,代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...
分类:
其他好文 时间:
2015-04-17 11:18:59
阅读次数:
206
本博文程序是读取hadoop的hdfs中的文件,使用正则化解析出规定格式的数据,然后加载到sparkSQL数据库中。
正则化如果不太了解,请看正则表达式30分钟入门教程
package com.spark.firstApp
import org.apache.spark.SparkContext
import org.apache.spark._
import org.apache.lo...
分类:
数据库 时间:
2015-04-16 15:47:50
阅读次数:
243
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。
直接上代码:
importorg.apache.spark.SparkContext
importorg.apache.spark.sql.SQLContext
objectSparkSQL{
//定义两个caseclassA和B:
//A是用户的基本信息:包括客户号、***号和性别
//B是用户的交易信息..
分类:
数据库 时间:
2015-04-15 15:00:49
阅读次数:
565
export MAVEN_OPTS="-Xmx4g -XX:MaxPermSize=1024M -XX:ReservedCodeCacheSize=1024m"mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.1 -Phive -Phive-thriftser...
分类:
其他好文 时间:
2015-04-13 22:25:25
阅读次数:
138
Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)
可实现你所需要的:
- 数据采集
- 数据发现
- 数据分析
- 数据可视化和协作支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。
甚至可以添加自己的语言支持。如何写一个...
分类:
Web程序 时间:
2015-04-01 13:23:03
阅读次数:
329
为spark编写UDFcache:作业介绍https://github.com/cs186-spring15/course/tree/master/hw2我花了点时间做了下,觉得是学习sparksql和scala的好材料。现在把我写的作业记录如下:Task#1:ImplementingDiskPartitionandGeneralDiskHashedRelationTask#2:ImplementingobjectDiskHa..
分类:
其他好文 时间:
2015-03-05 15:01:48
阅读次数:
306
说句实话,这次安装spark真是个非常费劲的过程,spark好像确实都需要自己编译,用自己编译好的版本安转,对于一个菜鸟初学者,抱着求职的欲望,却被天朝的墙挡住,就是一个悲剧,这里我转载了一篇别人写好的,编译过程的帖子,我也是按照这个过程做的编译。但我提供一下了链接..
分类:
其他好文 时间:
2015-02-10 16:54:10
阅读次数:
191
SparkSQL操作文本文件val sqlContext = new org.apache.spark.sql.SQLContext(sc)import sqlContext._case class PageViews(track_time: String, url: String, session...
分类:
数据库 时间:
2015-01-09 10:29:50
阅读次数:
732
1、下载并编译spark源码下载sparkhttp://spark.apache.org/downloads.html我下载的是1.2.0版本解压并编译,在编译前,可以根据自己机器的环境修改相应的pom.xml配置,我的环境是hadoop2.4.1修改个小版本号即可,编译包括了对hive、yarn、ganglia等的支持tarxzf~/source/spark-1..
分类:
其他好文 时间:
2014-12-29 18:36:06
阅读次数:
5133