Spark可以通过三种方式配置系统:
通过SparkConf对象, 或者Java系统属性配置Spark的应用参数
通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量
通过log4j.properties配置日志属性
Spark属性Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性。
下面展示了在本地机使用...
分类:
其他好文 时间:
2016-07-19 13:42:16
阅读次数:
312
shuffle调优参数 new SparkConf().set("spark.shuffle.consolidateFiles", "true") spark.shuffle.consolidateFiles:是否开启shuffle block file的合并,默认为false//设置从maPart ...
分类:
其他好文 时间:
2016-07-13 20:42:37
阅读次数:
127
一、从csv文件创建DataFrame
本文将介绍如何从csv文件创建DataFrame。
如何做?
从csv文件创建DataFrame主要包括以下几步骤:
1、在build.sbt文件里面添加spark-csv支持库;
2、创建SparkConf对象,其中包括Spark运行所有的环境信息;
3、创建SparkContext对象,它是进入Spark的核心切入点,...
分类:
其他好文 时间:
2016-05-23 15:07:15
阅读次数:
250
0、Spark的wc.note
package RddApiimport org.apache.spark.{SparkConf, SparkContext}/** * hadoop * spark * tachyon * hadoop * hbase * spark *//** * Created by Administrator on 2016/4/2...
分类:
其他好文 时间:
2016-05-18 19:20:18
阅读次数:
259
/** * Created by wu-yj on 2016/5/6. */import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}i ...
分类:
其他好文 时间:
2016-05-17 17:23:28
阅读次数:
316
本期内容:
1、在线动态计算分类最热门商品案例回顾与演示
2、基于案例贯通Spark Streaming的运行源码
第一部分案例:
package com.dt.spark.sparkstreaming
import com.robinspark.utils.ConnectionPool
import org.apache.spark.SparkConf
im...
分类:
其他好文 时间:
2016-05-13 02:55:25
阅读次数:
154
SparkContext创建:高层DAGScheduler, 底层TaskScheduler, SchedulerBackend
application=driver+executor
Spark的程序分成两个部分:driver和executor
driver驱动executor
Driver部分的源代码:SparkConf+SparkContext
executor具体执行...
分类:
其他好文 时间:
2016-05-12 12:43:38
阅读次数:
172
本篇博文将从如下几点组织文章:
一:案例演示
二:源码分析一:案例演示
这里只是贴出源码,后续会对改代码的实战和实验演示都会详细的补充。package com.dt.spark.sparkstreaming
import org.apache.spark.SparkConf
import org.apache.spark.sql.Row
import org.apache.spark.sql....
分类:
其他好文 时间:
2016-05-12 12:33:14
阅读次数:
265
SparkStreaming的Job到底是如何运行的,我们下面以一个例子来解析一下:packagecom.dt.spark.streaming
importcom.dt.spark.common.ConnectPool
importorg.apache.spark.SparkConf
importorg.apache.spark.streaming.{Seconds,StreamingContext}
/**
*以网站热词排名为例,..
分类:
其他好文 时间:
2016-05-07 16:49:15
阅读次数:
254
package RDD
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by legotime on 2016/5/5.
*/
object pairRDD {
def myfunc1(index: Int, iter: Iterator[(String)]) : Iterator[String] =...
分类:
其他好文 时间:
2016-05-07 11:30:22
阅读次数:
872