搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

sc.distinct

这个很简单，就是取rdd中的唯一值val data1 = sc.parallelize(List(1,2,3,2,3,2,2))data1.distinct().collect输出123注意，可以调整执行并行度即data1.distinct().collect这样就会按三个partition进行并行...

分类：其他好文时间：2015-05-11 17:26:47 阅读次数：130

Spark MLlib Statistics统计

1、Spark MLlib Statistics统计 Spark Mllib 统计模块代码结构如下： 1.1 列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据，转换成RDD[Vector]类型 val data_path = "/home/jb-huangmeiling/sample_stat.txt" ...

分类：其他好文时间：2015-05-11 16:10:07 阅读次数：132

Spark RDD API详解(一) Map和Reduce

RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理...

分类：Windows程序时间：2015-05-07 16:03:46 阅读次数：174

Spark SQL1.2 和Spark SQL1.3的测试

Spark1.21. 文本导入创建RDD的形式,测试txt文本master=spark://master:7077./bin/spark-shellscala> val sqlContext = new org.apache.spark.sql.SQLContext(sc) sqlContext:....

分类：数据库时间：2015-05-05 23:46:31 阅读次数：226

RDD无reduceByKey方法

经常写代码的时候发现rdd没有reduceByKey的方法，这个发生在spark1.2及其以前对版本，因为rdd本身不存在reduceByKey的方法，需要隐式转换成PairRDDFunctions才能访问，因此需要引入Import org.apache.spark.SparkContext._。不...

分类：其他好文时间：2015-05-05 18:28:37 阅读次数：325

spark原理介绍

1、spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存，如96G以上。 2、spark所有操作均基于RDD，操作主要分成2大类：transformation与action。 3、spark提供了交互处理接口，类似于shell的使用。 4、spark可以优化迭代工作负载，因为中间数据均保存于内存中。 5、spark 是在 Sc...

分类：其他好文时间：2015-04-28 14:12:04 阅读次数：128

RDD分区2GB限制

本文目的最近使用spark处理较大的数据时，遇到了分区2G限制的问题(ken)。找到了解决方法，并且在网上收集了一些资料，记录在这里，作为备忘。问题现象遇到这个问题时，spark日志会报如下的日志，片段1 15/04/16 14:13:03 WARN scheduler.TaskSetMan...

分类：其他好文时间：2015-04-25 18:01:39 阅读次数：593

Spark jar包找不到解决方法

今天在使用Spark中DataFrame往Mysql中插入RDD，但是一直报出以下的异常次信息： [itelbog@iteblog ~]$ bin/spark-submit --master local[2] --jars lib/mysql-connector-java-5.1.35.jar --class spark.sparkToJDBC ./spark-test_2.10-1...

分类：编程语言时间：2015-04-24 19:18:59 阅读次数：248

Spark DataFrame小试牛刀

三月中旬，Spark发布了最新的1.3.0版本，其中最重要的变化，便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，计算性能更还快了两倍。这一个小小的API，隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠，通过它Spark能...

分类：其他好文时间：2015-04-24 16:19:33 阅读次数：138

Spark RDD API扩展开发(1)

我们都知道，Apache Spark内置了很多操作数据的API。但是很多时候，当我们在现实中开发应用程序的时候，我们需要解决现实中遇到的问题，而这些问题可能在Spark中没有相应的API提供，这时候，我们就需要通过扩展Spark API来实现我们自己的方法。我们可以通过两种方法来扩展Spark API，（1）、其中一种就是在现有的RDD中添加自定义的方法；（2）、第二种就是创建属于我们自己...

分类：Windows程序时间：2015-04-23 17:29:59 阅读次数：170

共1327条上一页 1 ... 122 123 124 125 126 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)