LocalWordCount中,需要首先创建SparkConf配置Master、AppName等环境参数,如果程序中没有设置,则会读取系统参数。然后,以SparkConf作为参数创建SparkContext,初始化Spark环境。 val sparkConf = new SparkConf().se...
分类:
Web程序 时间:
2015-07-17 00:03:09
阅读次数:
306
SparkContext的初始化SparkContext是应用启动时创建的Spark上下文对象,是进行Spark应用开发的主要接口,是Spark上层应用与底层实现的中转站(SparkContext负责给executors发送task)。
SparkContext在初始化过程中,主要涉及一下内容:
SparkEnv
DAGScheduler
TaskScheduler
Sche...
分类:
其他好文 时间:
2015-07-14 20:29:32
阅读次数:
157
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。
根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。
图中,foreach算子通过用户自定义函数对每个数据项进行操作。...
分类:
其他好文 时间:
2015-07-12 11:10:23
阅读次数:
199
在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py):
首先编写程序(这里用Pytho的API):
from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的
sc = SparkContext("local","Simp...
分类:
移动开发 时间:
2015-07-05 18:37:23
阅读次数:
218
1)spark把数据写入到hbase需要用到:PairRddFunctions的saveAsHadoopDataset方法,这里用到了implicit conversion,需要我们引入import org.apache.spark.SparkContext._2)spark写入hbase,实质是借...
分类:
其他好文 时间:
2015-06-23 14:58:59
阅读次数:
516
由于Spark是用Scala实现的,所以Spark天生支持Scala API,此外,还支持Java和Python API。以Spark 1.3版本的Python API为例,其模块层级关系如下图所示:
从上图可知,pyspark是Python API的顶层package,它包含了几个重要的subpackages,其中:
1) pyspark.SparkContext
它抽象了指向sp...
val sc = new SparkContext(...)
val links = sc.parallelize(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','B')),('D',Array('A','C'))),2).map(x => (x._1,x._2)).cache()
var ranks = sc.paralleliz...
分类:
其他好文 时间:
2015-05-07 18:53:41
阅读次数:
129
经常写代码的时候发现rdd没有reduceByKey的方法,这个发生在spark1.2及其以前对版本,因为rdd本身不存在reduceByKey的方法,需要隐式转换成PairRDDFunctions才能访问,因此需要引入Import org.apache.spark.SparkContext._。不...
分类:
其他好文 时间:
2015-05-05 18:28:37
阅读次数:
325
本博文程序是读取hadoop的hdfs中的文件,使用正则化解析出规定格式的数据,然后加载到sparkSQL数据库中。
正则化如果不太了解,请看正则表达式30分钟入门教程
package com.spark.firstApp
import org.apache.spark.SparkContext
import org.apache.spark._
import org.apache.lo...
分类:
数据库 时间:
2015-04-16 15:47:50
阅读次数:
243
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。
直接上代码:
importorg.apache.spark.SparkContext
importorg.apache.spark.sql.SQLContext
objectSparkSQL{
//定义两个caseclassA和B:
//A是用户的基本信息:包括客户号、***号和性别
//B是用户的交易信息..
分类:
数据库 时间:
2015-04-15 15:00:49
阅读次数:
565