码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark架构与作业执行流程简介(scala版)
在讲spark之前,不得不详细介绍一下RDD(Resilient Distributed Dataset),打开RDD的源码,一开始的介绍如此: 字面意思就是弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Resilient:弹性的,它表示的 ...
分类:其他好文   时间:2018-01-07 12:01:12    阅读次数:210
Spark算子篇 --Spark算子之aggregateByKey详解
一。基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑 每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑 ...
分类:其他好文   时间:2018-01-07 00:54:18    阅读次数:244
Javascript 实现复制(Copy)动作方法大全
一、实现点击按钮,复制文本框中的的内容 <script type="text/javascript"> function copyUrl2() { var Url2=document.getElementById("biao1"); Url2.select(); // 选择对象 document.e ...
分类:编程语言   时间:2017-12-28 16:06:26    阅读次数:283
Apache Spark 2.0三种API的传说:RDD、DataFrame和Dataset
Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单、易用的APIs,支持跨多种语言(比如:Scala、Java、Python和R)来操作大数据。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自 ...
分类:Windows程序   时间:2017-12-28 16:00:15    阅读次数:231
Spark RDD API(scala)
1、RDD RDD(Resilient Distributed Dataset弹性分布式数据集)是Spark中抽象的数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据时分区存储的,这样不同分区的数据就可以分布在不同 ...
分类:Windows程序   时间:2017-12-26 14:32:29    阅读次数:466
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的 ...
分类:Web程序   时间:2017-12-26 11:53:42    阅读次数:890
分区工具parted的详解及常用分区使用方法【转】
来源:http://blog.51cto.com/zhangmingqian/1068779 分区工具parted的详解及常用分区使用方法 一、 parted的用途及说明 概括使用说明: parted用于对磁盘(或RAID磁盘)进行分区及管理,与fdisk分区工具相比,支持2TB以上的磁盘分区,并且 ...
分类:其他好文   时间:2017-12-25 19:31:29    阅读次数:213
Spark算子
Spark算子:RDD基本转换操作(1)–map、flagMap、distinct Spark算子:RDD创建操作 Spark算子:RDD基本转换操作(2)–coalesce、repartition Spark算子:RDD基本转换操作(3)–randomSplit、glom Spark算子:RDD基 ...
分类:其他好文   时间:2017-12-25 19:28:41    阅读次数:162
spark 常用函数介绍(python)
原文引自:https://www.cnblogs.com/yxpblog/p/5269314.html 在开始之前,我先介绍一下,RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD ...
分类:编程语言   时间:2017-12-25 11:25:29    阅读次数:202
利用百度搜索结果爬取邮箱
帮同学做一个关于爬取教授邮箱的任务,在百度搜索中输入教授的名字+长江学者+邮箱,爬取并筛选每个教授的邮箱,最后把邮箱信息写入到Excel表中:--爬取结果争取率大概在50%-60% 大致思路如下: 先利用百度搜索关键词(不断转换关键词,效果会不一样) 利用BeautifulSoup解析到百度搜索的h ...
分类:其他好文   时间:2017-12-24 14:42:31    阅读次数:445
1327条   上一页 1 ... 62 63 64 65 66 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!