public static void CreateWord(string HtmlPath, string WordSavePath) { string inputName = HtmlPath; //string ext = Path.GetExtension(inputName); string... ...
分类:
其他好文 时间:
2018-04-10 13:26:53
阅读次数:
167
创建rdd的两种方式:1)loading an external dataset eg:lines = sc.parallelize(List("pandas","numpy"))#一次性导入整个dataset 因而不被广泛使用 2) distrbuting a collection of obje ...
分类:
其他好文 时间:
2018-04-04 23:24:00
阅读次数:
169
文本文件的内容: 由上述代码可以看出,KK是一个实体类型并且可序列化(Serializable)! ...
分类:
数据库 时间:
2018-04-04 16:15:24
阅读次数:
365
Spark是一种与Hadoop相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下: 1.Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小; 2.由于RDD的特性,Spark不适用
分类:
其他好文 时间:
2018-04-03 17:35:48
阅读次数:
127
Spark Streaming: Spark用于处理流式数据的模块,类似Storm 核心:DStream(离散流),就是一个RDD 一、Spark Streaming基础 1、什么是Spark Streaming? (*)Spark Streaming makes it easy to build ...
分类:
其他好文 时间:
2018-04-03 17:27:52
阅读次数:
3133
Spark是一种与Hadoop相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下: 1.Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小; 2.由于RDD的特性,Spark不适用
分类:
其他好文 时间:
2018-04-03 17:26:53
阅读次数:
116
一、RDD算子分类 1. RDD算子分类及概述 RDD的算子分为Transformation和Action两类,Transformation是延迟执行,Action是立即执行。Transformation和Action本质上的区别是,Transformation是从一个RDD到一个RDD,Actio ...
分类:
其他好文 时间:
2018-04-01 19:57:28
阅读次数:
415
1、什么是RDD? 最核心 (*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main pr ...
分类:
其他好文 时间:
2018-03-31 23:15:30
阅读次数:
379
spark streaming是建立在spark core之上的,也就说spark streaming任务最终执行还是依赖于RDD模型。在转化成最终的RDD模型执行前,spark streaming主要需要处理以下几个问题: a,每个batch的RDD是怎么根据用户的代码生成的(对应JobGener ...
分类:
其他好文 时间:
2018-03-29 20:08:45
阅读次数:
162
RDD,即弹性分布式数据集,也就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD支持两种类型的操作:转化操作和行动操作。转换操作会由一个RDD生 ...
分类:
其他好文 时间:
2018-03-28 12:25:42
阅读次数:
155