import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...
分类:
其他好文 时间:
2020-04-22 09:16:07
阅读次数:
55
Dcoker compose一键部署Nexus 创建配置文件 ` 查询密码 END ...
分类:
其他好文 时间:
2020-04-21 16:55:10
阅读次数:
59
Docker compose一键部署gitlab 创建配置文件 ` END ...
分类:
其他好文 时间:
2020-04-21 15:08:33
阅读次数:
118
一键部署rsync服务 [root@m01 conf] cat /server/scripts/rsync.yaml command playbook hosts: 172.16.1.41 tasks: name: setup01:install rsync yum: name: rsync sta ...
分类:
其他好文 时间:
2020-04-20 15:22:10
阅读次数:
63
1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的,然后spark启动jobq去处理那些消息 然而,默认情况下,这种方式会因为底层的失败丢失数据。 如果要启用高可靠机制,让数据零丢失,就必须启用spark st ...
分类:
其他好文 时间:
2020-04-20 11:59:44
阅读次数:
64
一. Spark简介 1.1 前言 Apache Spark是一个计算系统,它的处理速度很快,很通用,并且能集群部署。可以通过Scala,Java,Python和R来操作API。它还提供了了一些高级工具,比如Spark SQL(通过SQL操作),MLlib(机器学习用的),Graphx(图形化操作用 ...
分类:
其他好文 时间:
2020-04-20 11:44:10
阅读次数:
80
package com.atguigu.bigdata.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: ...
分类:
其他好文 时间:
2020-04-19 18:04:25
阅读次数:
66
1.RDD 是spark的核心数据结构,全称是弹性分布式数据集。 本质上是一种分布式的内存抽象,表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建,RDD定义了各种丰富的转换操作,通过转换操作,新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...
分类:
数据库 时间:
2020-04-19 01:15:39
阅读次数:
108
安装前准备: 1.3台主机 2.安装jdk 3.免密登陆 开始安装spark 1.解压安装包 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz 2.修改配置文件 cd conf cp spark-env.sh.template spark-env.shcp slaves ...
分类:
其他好文 时间:
2020-04-19 00:31:12
阅读次数:
85
有两种模式:cluster 和 driver 区别: cluster 模式:Driver 程序在 YARN 中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如 HDFS、Redis、Mysql)而非 stdout 输出的应用程序,客户端的终端显示的仅是作为 YA ...
分类:
其他好文 时间:
2020-04-17 12:30:05
阅读次数:
70