码迷,mamicode.com
首页 >  
搜索关键字:sparkcontext    ( 295个结果
Apache Spark-1.0.0代码浅析(二):Spark初始化
LocalWordCount中,需要首先创建SparkConf配置Master、AppName等环境参数,如果程序中没有设置,则会读取系统参数。然后,以SparkConf作为参数创建SparkContext,初始化Spark环境。 val sparkConf = new SparkConf().se...
分类:Web程序   时间:2015-07-17 00:03:09    阅读次数:306
【Spark】SparkContext源码解读
SparkContext的初始化SparkContext是应用启动时创建的Spark上下文对象,是进行Spark应用开发的主要接口,是Spark上层应用与底层实现的中转站(SparkContext负责给executors发送task)。 SparkContext在初始化过程中,主要涉及一下内容: SparkEnv DAGScheduler TaskScheduler Sche...
分类:其他好文   时间:2015-07-14 20:29:32    阅读次数:157
【Spark】RDD操作详解4——Action算子
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。 图中,foreach算子通过用户自定义函数对每个数据项进行操作。...
分类:其他好文   时间:2015-07-12 11:10:23    阅读次数:199
在spark上运行独立程序(Self-Contained Applications)
在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py): 首先编写程序(这里用Pytho的API): from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的 sc = SparkContext("local","Simp...
分类:移动开发   时间:2015-07-05 18:37:23    阅读次数:218
spark 数据写入到 hbase
1)spark把数据写入到hbase需要用到:PairRddFunctions的saveAsHadoopDataset方法,这里用到了implicit conversion,需要我们引入import org.apache.spark.SparkContext._2)spark写入hbase,实质是借...
分类:其他好文   时间:2015-06-23 14:58:59    阅读次数:516
Spark调研笔记第5篇 - Spark API简介
由于Spark是用Scala实现的,所以Spark天生支持Scala API,此外,还支持Java和Python API。以Spark 1.3版本的Python API为例,其模块层级关系如下图所示: 从上图可知,pyspark是Python API的顶层package,它包含了几个重要的subpackages,其中: 1) pyspark.SparkContext 它抽象了指向sp...
分类:Windows程序   时间:2015-06-09 11:55:18    阅读次数:301
Spark下的PageRank实现
val sc = new SparkContext(...) val links = sc.parallelize(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','B')),('D',Array('A','C'))),2).map(x => (x._1,x._2)).cache() var ranks = sc.paralleliz...
分类:其他好文   时间:2015-05-07 18:53:41    阅读次数:129
RDD无reduceByKey方法
经常写代码的时候发现rdd没有reduceByKey的方法,这个发生在spark1.2及其以前对版本,因为rdd本身不存在reduceByKey的方法,需要隐式转换成PairRDDFunctions才能访问,因此需要引入Import org.apache.spark.SparkContext._。不...
分类:其他好文   时间:2015-05-05 18:28:37    阅读次数:325
孙其功陪你学之——Spark 正则化和SparkSQL
本博文程序是读取hadoop的hdfs中的文件,使用正则化解析出规定格式的数据,然后加载到sparkSQL数据库中。 正则化如果不太了解,请看正则表达式30分钟入门教程 package com.spark.firstApp import org.apache.spark.SparkContext import org.apache.spark._ import org.apache.lo...
分类:数据库   时间:2015-04-16 15:47:50    阅读次数:243
SparkSQL 初步应用
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。 直接上代码: importorg.apache.spark.SparkContext importorg.apache.spark.sql.SQLContext objectSparkSQL{ //定义两个caseclassA和B: //A是用户的基本信息:包括客户号、***号和性别 //B是用户的交易信息..
分类:数据库   时间:2015-04-15 15:00:49    阅读次数:565
295条   上一页 1 ... 24 25 26 27 28 ... 30 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!