搜索关键字：sparkcontext，搜索到295个结果！码迷,mamicode.com！

Apache Spark-1.0.0代码浅析（二）：Spark初始化

LocalWordCount中，需要首先创建SparkConf配置Master、AppName等环境参数，如果程序中没有设置，则会读取系统参数。然后，以SparkConf作为参数创建SparkContext，初始化Spark环境。 val sparkConf = new SparkConf().se...

分类：Web程序时间：2015-07-17 00:03:09 阅读次数：306

【Spark】SparkContext源码解读

SparkContext的初始化SparkContext是应用启动时创建的Spark上下文对象，是进行Spark应用开发的主要接口，是Spark上层应用与底层实现的中转站（SparkContext负责给executors发送task）。 SparkContext在初始化过程中，主要涉及一下内容： SparkEnv DAGScheduler TaskScheduler Sche...

分类：其他好文时间：2015-07-14 20:29:32 阅读次数：157

【Spark】RDD操作详解4——Action算子

本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作，不返回RDD和Array，而是返回Uint。图中，foreach算子通过用户自定义函数对每个数据项进行操作。...

分类：其他好文时间：2015-07-12 11:10:23 阅读次数：199

在spark上运行独立程序（Self-Contained Applications）

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序（SimpleApp.py）：首先编写程序（这里用Pytho的API）： from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的 sc = SparkContext("local","Simp...

分类：移动开发时间：2015-07-05 18:37:23 阅读次数：218

spark 数据写入到 hbase

1）spark把数据写入到hbase需要用到：PairRddFunctions的saveAsHadoopDataset方法，这里用到了implicit conversion，需要我们引入import org.apache.spark.SparkContext._2）spark写入hbase，实质是借...

分类：其他好文时间：2015-06-23 14:58:59 阅读次数：516

Spark调研笔记第5篇 - Spark API简介

由于Spark是用Scala实现的，所以Spark天生支持Scala API，此外，还支持Java和Python API。以Spark 1.3版本的Python API为例，其模块层级关系如下图所示：从上图可知，pyspark是Python API的顶层package，它包含了几个重要的subpackages，其中： 1) pyspark.SparkContext 它抽象了指向sp...

分类：Windows程序时间：2015-06-09 11:55:18 阅读次数：301

Spark下的PageRank实现

val sc = new SparkContext(...) val links = sc.parallelize(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','B')),('D',Array('A','C'))),2).map(x => (x._1,x._2)).cache() var ranks = sc.paralleliz...

分类：其他好文时间：2015-05-07 18:53:41 阅读次数：129

RDD无reduceByKey方法

经常写代码的时候发现rdd没有reduceByKey的方法，这个发生在spark1.2及其以前对版本，因为rdd本身不存在reduceByKey的方法，需要隐式转换成PairRDDFunctions才能访问，因此需要引入Import org.apache.spark.SparkContext._。不...

分类：其他好文时间：2015-05-05 18:28:37 阅读次数：325

孙其功陪你学之——Spark 正则化和SparkSQL

本博文程序是读取hadoop的hdfs中的文件，使用正则化解析出规定格式的数据，然后加载到sparkSQL数据库中。正则化如果不太了解，请看正则表达式30分钟入门教程 package com.spark.firstApp import org.apache.spark.SparkContext import org.apache.spark._ import org.apache.lo...

分类：数据库时间：2015-04-16 15:47:50 阅读次数：243

SparkSQL 初步应用

最近项目中使用SparkSQL来做数据的统计分析，闲来就记录下来。直接上代码： importorg.apache.spark.SparkContext importorg.apache.spark.sql.SQLContext objectSparkSQL{ //定义两个caseclassA和B： //A是用户的基本信息：包括客户号、***号和性别 //B是用户的交易信息..

分类：数据库时间：2015-04-15 15:00:49 阅读次数：565

共295条上一页 1 ... 24 25 26 27 28 ... 30 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)