码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark 从RDD createDataFrame 的坑
Scala: import org.apache.spark.ml.linalg.Vectors val data = Seq( (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0), (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), ...
分类:其他好文   时间:2017-11-08 19:44:27    阅读次数:172
Spark 算子
RDD算子分类,大致可以分为两类,即: Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 Action:行动算子,这类算子会触发SparkContext提交Job作业。 一:Transformation:转换算子 1.map map是对RDD中的每个元素都执行 ...
分类:其他好文   时间:2017-11-08 14:55:19    阅读次数:185
spark算子:partitionBy对数据进行分区
def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。 参考:http://lxw1234.com/archives/2015/07/356.htm ...
分类:其他好文   时间:2017-11-07 20:46:31    阅读次数:267
Spark的Driver节点和Executor节点
转载自:http://blog.sina.com.cn/s/blog_15fc03d810102wto0.html 1.驱动器节点(Driver) Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操 ...
分类:其他好文   时间:2017-11-04 13:34:32    阅读次数:364
spark sql
1.rdd to dataframe rdd.toDF(schema=None, sampleRatio=Non) session.createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True) rdd转换为data ...
分类:数据库   时间:2017-10-30 18:27:06    阅读次数:289
Web微信
1 D:\soft\work\Python_17\day23\weixin>tree /F 2 卷 NewDisk 的文件夹 PATH 列表 3 卷序列号为 2E8B-8205 4 D:. 5 │ db.sqlite3 6 │ manage.py 7 │ 8 ├─.idea 9 │ │ misc.x ...
分类:微信   时间:2017-10-27 02:00:30    阅读次数:1359
Spark快速大数据分析之RDD基础
Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程 ...
分类:其他好文   时间:2017-10-25 19:49:04    阅读次数:140
Spark记录-spark编程介绍
Spark核心编程 Spark 核心是整个项目的基础。它提供了分布式任务调度,调度和基本的 I/O 功能。Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的逻辑集合。RDDS可以用两种方法来创建的;一个是在外部存储系统引用的数据集,第二个是通过应用转换(如 ...
分类:其他好文   时间:2017-10-24 11:54:47    阅读次数:178
对RDD分区的理解
举个例子: 667.txt: part-00000 _SUCCESS 668.txt: part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 _SUCCESS 如果设置.setM ...
分类:其他好文   时间:2017-10-20 20:14:10    阅读次数:215
RDD编程下(自学四)
3.5 常见的转化操作和行动操作 3.5.1 基本RDD 1. 针对各个元素的转化操作 两个最常用的转化操作是map()和filter()。转化操作map()接受一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中对应元素的值。而转化操作filter()则接收一个函数,并将R ...
分类:其他好文   时间:2017-10-20 13:33:06    阅读次数:223
1327条   上一页 1 ... 65 66 67 68 69 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!