这两天在研究了hbase,hadoop,hive,spark由于spark.py不支持clust(jar才支持,但是太麻烦了>_<)所以最终决定使用hive在hive中用create external table后可以一同指定partition和location,这样就可以直接在hadoop的原始数...
分类:
其他好文 时间:
2014-11-26 01:17:25
阅读次数:
210
3,Scala中的表达式实战 首先看一下Scala中优雅的条件的表达式: 接下来看一下while循环表达式: 下面看一下for条件表达式: 在for中也可以使用until: 如果想在条件表达式中筛选出1到10中所有偶数,可以采用下面...
分类:
其他好文 时间:
2014-11-25 23:56:48
阅读次数:
320
关于SQL和Hadoop的实现参考这里 MapReduce编程-自连接
这里用相同的原理,使用spark实现。本人也是刚学Scala,可能写的不好,还请指正。
object SelfUion {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("SelfUnion")
val sc ...
分类:
其他好文 时间:
2014-11-25 23:51:43
阅读次数:
303
本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的...
3,Scala中的表达式实战 首先看一下Scala中优雅的条件的表达式: 接下来看一下while循环表达式: 下面看一下for条件表达式: 在for中也可以使用until: 如果想在条件表达式中筛选出1到10中所有偶数,可以采用下面的写法:
分类:
其他好文 时间:
2014-11-25 22:51:59
阅读次数:
122
1. Win7下利用Intellij IDEA构建Spark开发环境前提:Intellij IDEA Community 免费版下载(最新版14.0.1),Scala插件下载(最新版scala-intellij-bin-1.1.2.zip)1> 安装Intellij IDEA Scala运行环境ht...
分类:
其他好文 时间:
2014-11-25 17:47:01
阅读次数:
613
前言 Java领域的即时通信的解决方案可以考虑openfire+spark+smack。当然也有其他的选择。 Openfire是基于Jabber协议(XMPP)实现的即时通信服务器端版本,目前建议使用3.8.1版本,这个版本是当前最新的版本,而且网...
分类:
移动开发 时间:
2014-11-25 16:42:51
阅读次数:
257
2,Scala函数特性编程实战当函数不带参数的使用,我们调用的时候可以省略括号:接下来定义一个匿名函数、调用并运行:在Scala总函数式一等公民,所以我们可以把函数付给一个常:另外一个特性是Scala函数编程的柯里化,这个特性允许函数定义的时候有两个括号: 而这种代码在Spark的源码中是非常常见的...
分类:
其他好文 时间:
2014-11-25 00:09:08
阅读次数:
239
2,Scala函数特性编程实战 ? 当函数不带参数的使用,我们调用的时候可以省略括号: 接下来定义一个匿名函数、调用并运行: 在Scala总函数式一等公民?,所以我们可以把函数付给一个常: 另外一个特性是Scala函数...
分类:
其他好文 时间:
2014-11-24 22:47:05
阅读次数:
284
Spark调优本文系根据官方文档翻译而来,转载请注明本文链接 http://www.oschina.net/translate/spark-tuning?print数据序列化内存优化确定内存用量调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行化水平Reduce任务的内存用量Broadcast...
分类:
Web程序 时间:
2014-11-24 09:56:40
阅读次数:
335