摘要: 本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets)。它同意开发者在大型集群上运行基于内存的计算。RDD适用于两种应用,而现有的数据流系统对这两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域非经常见。二是交 ...
分类:
其他好文 时间:
2017-07-23 10:04:08
阅读次数:
251
本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行。 依据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每一个元素都应用f函数操作,不返回RD ...
分类:
其他好文 时间:
2017-07-21 18:17:34
阅读次数:
257
一开始是因为没法直接在pyspark里使用map 来做model predict,但是scala是可以的!如下: When we use Scala API a recommended way of getting predictions for RDD[LabeledPoint] using De ...
分类:
其他好文 时间:
2017-07-21 17:15:00
阅读次数:
248
The matrix is generated from SVD, and I am using the results from SVD to do clustering analysis. if your clustering only supports RDD as its input, he ...
分类:
其他好文 时间:
2017-07-21 11:38:10
阅读次数:
176
1. Alternating Least Square ALS(Alternating Least Square),交替最小二乘法。在机器学习中,特指使用最小二乘法的一种协同推荐算法。如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。比如用户u6就没有给商 ...
分类:
编程语言 时间:
2017-07-20 00:50:24
阅读次数:
272
最近在学习hibernate,其中关于错误的问题真是一头大,各种各样的奇葩错误层出不穷,简直是受不了了。 用hibernate操作数据库,在使用hibernate进行把持久化类自动生成相关数据库表的时候,出现了一些问题。 其中有上篇错误《hibernate学习错误--之一》,在上篇错误解决完成后,进 ...
分类:
Web程序 时间:
2017-07-14 00:33:31
阅读次数:
266
匹配中文字符的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^x00-xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:ns*r 评注:可以用来删除空白 ...
分类:
其他好文 时间:
2017-07-13 16:28:38
阅读次数:
195
distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect ...
分类:
编程语言 时间:
2017-07-12 15:07:40
阅读次数:
280
1.DataFrame的创建方式 1.1 通过加载外部文件创建 1.2 通过RDD和元数据进行转换 1.2.1 通过使用动态构建的元数据的方式创建DataFrame 1.2.2 通过反射的方式,使用javabean的属性作为DataFrame的元数据进行创建DataFrame 1.2.3 使用hiv ...
分类:
其他好文 时间:
2017-07-09 17:27:22
阅读次数:
255