搜索关键字：spark streaming数据源flume实战，搜索到7001个结果！码迷,mamicode.com！

【Spark 内核】 Spark 内核解析-下

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库... ...

分类：其他好文时间：2020-01-13 19:42:03 阅读次数：78

mac 搭建虚拟机安装spark,hive,zookeeper,scala,kafka等大数据集群搭建

大数据相关资料课程环境 Virtual Box 4.1安装 1、使用课程提供的Virtual Box安装包，一步一步安装即可。Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。2、之所以选用Virtual Box是因为它比 ...

分类：系统相关时间：2020-01-13 18:05:58 阅读次数：106

flink与hbase交互

1. HBase连接的方式概况主要分为：纯Java API读写HBase的方式； Spark读写HBase的方式； Flink读写HBase的方式； HBase通过Phoenix读写的方式；第一种方式是HBase自身提供的比较原始的高效操作方式，而第二、第三则分别是Spark、Flink集成H ...

分类：其他好文时间：2020-01-13 12:28:18 阅读次数：99

几个时序数据库

================================可用作时序的数据库:================================[时序]TimescaleDB, 基于 PostgreSQL, 支持 SQL.[时序]KairosDB, 基于 Cassandra, 不支持 SQL. ...

分类：数据库时间：2020-01-12 18:38:07 阅读次数：93

Spark入门（四）--Spark的map、flatMap、mapToPair

spark的RDD操作在上一节Spark经典的单词统计中，了解了几个RDD操作，包括flatMap，map，reduceByKey，以及后面简化的方案，countByValue。那么这一节将介绍更多常用的RDD操作，并且为每一种RDD我们分解来看其运作的情况。 spark的flatMap flat ...

分类：其他好文时间：2020-01-12 10:08:52 阅读次数：87

Spark实战--寻找5亿次访问中，访问次数最多的人

问题描述对于一个大型网站，用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念，我们这里可以简单的计算一下。对于一个用户，单次访问，我们通常会记录下哪些数据呢？ 1、用户的id 2、用户访问的时间 3、用户逗留的时间 4、用户执行的操作 5、用户的其余数据（比如IP等等）我们单单从用户id来说 ...

分类：其他好文时间：2020-01-12 10:07:15 阅读次数：98

Spark入门（三）--Spark经典的单词统计

spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本，我们这里选择了英文原著《GoneWithTheWind》（《飘》）的文本来做一个数据统计，看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。 ...

分类：其他好文时间：2020-01-12 10:06:03 阅读次数：116

Spark入门（六）--Spark的combineByKey、sortBykey

spark的combineByKey combineByKey的特点 combineByKey的强大之处，在于提供了三个函数操作来操作一个函数。第一个函数，是对元数据处理，从而获得一个键值对。第二个函数，是对键值键值对进行一对一的操作，即一个键值对对应一个输出，且这里是根据key进行整合。第三个函数 ...

分类：其他好文时间：2020-01-12 09:55:36 阅读次数：48

Spark入门（七）--Spark的intersection、subtract、union和distinc

Spark的intersection intersection顾名思义，他是指交叉的。当两个RDD进行intersection后，将保留两者共有的。因此对于RDD1.intersection(RDD2) 和RDD2.intersection(RDD1) 。应该是一致的。比如对于，List1 = { ...

分类：其他好文时间：2020-01-12 09:36:42 阅读次数：80

Spark入门（五）--Spark的reduce和reduceByKey

reduce和reduceByKey的区别 reduce和reduceByKey是spark中使用地非常频繁的，在字数统计中，可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢？reduce处理数据时有着一对一的特性，而reduceByKey则有着多对一的 ...

分类：其他好文时间：2020-01-12 09:23:23 阅读次数：76

共7001条上一页 1 ... 71 72 73 74 75 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)