搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

SparkStreamingTest.scala

/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.rdd.RDDimport org.apache.spark.streaming._import org.apache.spark....

分类：其他好文时间：2015-09-09 16:09:16 阅读次数：144

关于RDD

RDD, Resilient Distributed Dataset，弹性分布式数据集，是Spark的核心概念。对于RDD的原理性的知识，可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory C...

分类：其他好文时间：2015-09-06 12:47:10 阅读次数：169

Spark - RDD（弹性分布式数据集）

org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with LoggingA Resilient Distributed Dataset (RDD), the basic abstraction in Spark. R...

分类：其他好文时间：2015-08-31 13:20:40 阅读次数：163

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成临时表，然后通过SQL语...

分类：数据库时间：2015-08-31 10:08:08 阅读次数：377

Scala - Spark Lambda“goesto“ => 分析

1 /// 定义一个函数AddNoise，参数分别为rdd,Fraction。其中rdd为（BreezeDenseMatrix， BreezeDenseMatrix）元组构成的RDD。Fraction为一个Double。返回一个（BreezeDenseMatrix， BreezeDenseMa...

分类：其他好文时间：2015-08-30 22:37:58 阅读次数：189

Apache Spark-1.0.0浅析（十）：数据存储——读写操作

“RDD是由不同的partition组成的，transformation和action是在partition上面进行的；而在storage模块内部，RDD又被视为由不同的block组成，对于RDD的存取是以block为单位进行的，本质上partition和block是等价的，只是看待的角度不同。在S...

分类：Web程序时间：2015-08-30 15:35:01 阅读次数：401

Spark问题笔记3

1、RDD的缓存策略是什么？缓存策略对应类StorageLevel，包括多种存储级别： object StorageLevel { val NONE = new StorageLevel(false, false, false, false) val DISK_ONLY = new StorageLevel(true, fa...

分类：其他好文时间：2015-08-27 00:36:07 阅读次数：273

Spark问题笔记2

1、学习Spark必须要深入理解RDD编程模型。为什么呢？ RDD是Spark抽象的基石，整个Spark的编程都是基于对RDD的操作完成的。RDD（弹性分布式数据集，Resilient Distributed Datasets），其特性是只读的、可分区、容错的的数据集合；所谓弹性，指内存不够时，可以与磁盘进行交换（Spark是基于内存的），上述是Spark快的一个原因。Spark快的另...

分类：其他好文时间：2015-08-26 18:00:53 阅读次数：368

sparksql链接mysql

1.在IDEA上建立一个sparksql_mysql的scala对象。2.连接mysql的代码如下import java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.rdd.JdbcRDDimpo...

分类：数据库时间：2015-08-19 10:46:20 阅读次数：207

怎样给Spark传递函数—怎样让你的Spark应用更高效更健壮

相信很多人在开始用Spark的时候一定会遇到 Task not serializable的问题，这种问题大多数都是在RDD的算子中调用了不能序列化的对象引起的。为什么传入算子中的对象一定要能够序列化呢？这就要从Spark本身说起，...

分类：其他好文时间：2015-08-16 16:53:11 阅读次数：124

共1327条上一页 1 ... 117 118 119 120 121 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)