实验三spark和hadoop的安装 hadoop的安装在之前的随笔中已经介绍过,此处传送门:https://www.cnblogs.com/heiyang/p/11293969.html 接着介绍,spark的安装,不是很难,唯一需要注意的是不同的hadoop版本都有对应的spark版本,下载的时 ...
分类:
其他好文 时间:
2020-01-13 23:38:59
阅读次数:
149
[TOC] 1 目的 记录Spark集群框架搭建及实验自学心得。 2 准备工作 1. "VMware 15 Pro" 2. "Centos7" 3. "JDK 1.8" 4. "Hadoop 2.7.2" 5. "SecureCRT version 8.5" 6. "Scala 2.12.7" 7. ...
分类:
其他好文 时间:
2020-01-13 20:16:53
阅读次数:
106
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-13 19:42:03
阅读次数:
78
大数据相关资料 课程环境 Virtual Box 4.1安装 1、使用课程提供的Virtual Box安装包,一步一步安装即可。Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。2、之所以选用Virtual Box是因为它比 ...
分类:
系统相关 时间:
2020-01-13 18:05:58
阅读次数:
106
1. HBase连接的方式概况 主要分为: 纯Java API读写HBase的方式; Spark读写HBase的方式; Flink读写HBase的方式; HBase通过Phoenix读写的方式; 第一种方式是HBase自身提供的比较原始的高效操作方式,而第二、第三则分别是Spark、Flink集成H ...
分类:
其他好文 时间:
2020-01-13 12:28:18
阅读次数:
99
================================可用作时序的数据库:================================[时序]TimescaleDB, 基于 PostgreSQL, 支持 SQL.[时序]KairosDB, 基于 Cassandra, 不支持 SQL. ...
分类:
数据库 时间:
2020-01-12 18:38:07
阅读次数:
93
spark的RDD操作 在上一节Spark经典的单词统计中,了解了几个RDD操作,包括flatMap,map,reduceByKey,以及后面简化的方案,countByValue。那么这一节将介绍更多常用的RDD操作,并且为每一种RDD我们分解来看其运作的情况。 spark的flatMap flat ...
分类:
其他好文 时间:
2020-01-12 10:08:52
阅读次数:
87
问题描述 对于一个大型网站,用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念,我们这里可以简单的计算一下。对于一个用户,单次访问,我们通常会记录下哪些数据呢? 1、用户的id 2、用户访问的时间 3、用户逗留的时间 4、用户执行的操作 5、用户的其余数据(比如IP等等) 我们单单从用户id来说 ...
分类:
其他好文 时间:
2020-01-12 10:07:15
阅读次数:
98
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著《GoneWithTheWind》(《飘》)的文本来做一个数据统计,看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。 ...
分类:
其他好文 时间:
2020-01-12 10:06:03
阅读次数:
116
spark的combineByKey combineByKey的特点 combineByKey的强大之处,在于提供了三个函数操作来操作一个函数。第一个函数,是对元数据处理,从而获得一个键值对。第二个函数,是对键值键值对进行一对一的操作,即一个键值对对应一个输出,且这里是根据key进行整合。第三个函数 ...
分类:
其他好文 时间:
2020-01-12 09:55:36
阅读次数:
48