码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
几个时序数据库
================================可用作时序的数据库:================================[时序]TimescaleDB, 基于 PostgreSQL, 支持 SQL.[时序]KairosDB, 基于 Cassandra, 不支持 SQL. ...
分类:数据库   时间:2020-01-12 18:38:07    阅读次数:93
Spark入门(四)--Spark的map、flatMap、mapToPair
spark的RDD操作 在上一节Spark经典的单词统计中,了解了几个RDD操作,包括flatMap,map,reduceByKey,以及后面简化的方案,countByValue。那么这一节将介绍更多常用的RDD操作,并且为每一种RDD我们分解来看其运作的情况。 spark的flatMap flat ...
分类:其他好文   时间:2020-01-12 10:08:52    阅读次数:87
Spark实战--寻找5亿次访问中,访问次数最多的人
问题描述 对于一个大型网站,用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念,我们这里可以简单的计算一下。对于一个用户,单次访问,我们通常会记录下哪些数据呢? 1、用户的id 2、用户访问的时间 3、用户逗留的时间 4、用户执行的操作 5、用户的其余数据(比如IP等等) 我们单单从用户id来说 ...
分类:其他好文   时间:2020-01-12 10:07:15    阅读次数:98
Spark入门(三)--Spark经典的单词统计
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著《GoneWithTheWind》(《飘》)的文本来做一个数据统计,看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。 ...
分类:其他好文   时间:2020-01-12 10:06:03    阅读次数:116
Spark入门(六)--Spark的combineByKey、sortBykey
spark的combineByKey combineByKey的特点 combineByKey的强大之处,在于提供了三个函数操作来操作一个函数。第一个函数,是对元数据处理,从而获得一个键值对。第二个函数,是对键值键值对进行一对一的操作,即一个键值对对应一个输出,且这里是根据key进行整合。第三个函数 ...
分类:其他好文   时间:2020-01-12 09:55:36    阅读次数:48
Spark入门(七)--Spark的intersection、subtract、union和distinc
Spark的intersection intersection顾名思义,他是指交叉的。当两个RDD进行intersection后,将保留两者共有的。因此对于RDD1.intersection(RDD2) 和RDD2.intersection(RDD1) 。应该是一致的。 比如对于,List1 = { ...
分类:其他好文   时间:2020-01-12 09:36:42    阅读次数:80
Spark入门(五)--Spark的reduce和reduceByKey
reduce和reduceByKey的区别 reduce和reduceByKey是spark中使用地非常频繁的,在字数统计中,可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢?reduce处理数据时有着一对一的特性,而reduceByKey则有着多对一的 ...
分类:其他好文   时间:2020-01-12 09:23:23    阅读次数:76
emr-spark
查spark version:spark-sql --version spark的开源包: apache的dist下载spark-2.4.3-bin-hadoop2.8.tgz 1/ spark要访问s3需要cp /usr/lib/hadoop-current/share/hadoop/tools/ ...
分类:其他好文   时间:2020-01-11 11:50:20    阅读次数:125
容器集群管理平台的比较
容器化和微服务是当前最热话题,不久之前,笔者(据说因为现在都不用笔了,“笔者”的称谓已经不合适了,因为输入用键盘,叫“键人”更为合适)参加QCon上海一个微服务监控的Session,场面爆棚,我不得不在拥挤的过道听完了整个session。随着要管理的容器越来越多,容器的集群管理平台成为了刚需! Do ...
分类:其他好文   时间:2020-01-10 12:57:11    阅读次数:107
20.Spark
[TOC] 前提:环境变量 一、local模式 1.配置 2.运行 二、Standalone模式 1.配置 1.1 spark env.sh 1.2 slaves 2.运行 三、Yarn模式 1.配置 1.1 spark env.sh 1.2 yarn site.xml(yarn) 1.3 spar ...
分类:其他好文   时间:2020-01-10 12:53:04    阅读次数:103
7287条   上一页 1 ... 77 78 79 80 81 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!