1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息 ...
分类:
其他好文 时间:
2020-06-18 14:33:17
阅读次数:
67
原始RDD或数据集中的每一个分区都映射一个或多个数据文件, 该映射是在文件的一部分或者整个文件上完成的。 Spark Job RDD/datasets在执行管道中,通过根据分区到数据文件的映射读取数据输入到RDD/dataset。 如何根据某些参数确定spark的分区数? 影响数据分区数的参数: ( ...
分类:
其他好文 时间:
2020-06-18 13:16:01
阅读次数:
66
-- 2020年3月26日 AM 0、知识回顾 select * from emp; insert into emp(empno, ename, job) values (22, kk, pp); insert into emp(empno, ename, job) select * from de ...
分类:
其他好文 时间:
2020-06-16 19:59:14
阅读次数:
80
- 起源 - TCC概念由Pat Helland于2007年发表的一篇名为《Life beyond Distributed Transactions:an Apostate’s Opinion》的论文提出, 在该论文中,TCC还是以Tentative-Confirmation-Cancellatio ...
分类:
其他好文 时间:
2020-06-16 18:08:36
阅读次数:
45
1.基于Receiver的方式 这种方式使用Receiver来接收kafka中的数据,Receiver是基于kafka的高层Consumer API来实现的。Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处 ...
分类:
其他好文 时间:
2020-06-15 22:58:10
阅读次数:
60
INTERVAL参数设置: 每天运行一次 'SYSDATE + 1'每小时运行一次 'SYSDATE + 1/24'每10分钟运行一次 'SYSDATE + 10/(60*24)'每30秒运行一次 'SYSDATE + 30/(60*24*60)'每隔一星期运行一次 'SYSDATE + 7'每个月 ...
分类:
数据库 时间:
2020-06-14 20:19:52
阅读次数:
166
1,客户端通过Distributed FileSystem 向namenode请求下载文件,namenode 通过查找元数据,返回文件块所在datanode的地址。 2,客户端挑选一台datanode(按照就近原则,返回的块地址根据网络拓扑图排序,距离客户端进的排在前面)服务器,建立连接,请求读取数 ...
分类:
其他好文 时间:
2020-06-14 16:34:06
阅读次数:
59
redis安装小结 下载,解压,编译,修改配置文件,注册为服务 redis6的安装详细说明(个人认为) 到目前阿里云镜像里redis-server版本好像还不是6.0以上的,要用最新的只能自己折腾 用命令查看apt中redis-server的版本apt-cache madison redis-ser ...
分类:
系统相关 时间:
2020-06-14 01:08:07
阅读次数:
200
6.Harbor配置6.1.harbor01节点1.修改harbor.cfgcat>/root/harbor/harbor.cfg<<-‘EOF‘_version=1.5.0hostname=reg.xgmin.comui_url_protocol=httpsmax_job_workers=50customize_crt=offssl_cert=/data/cer
分类:
其他好文 时间:
2020-06-12 16:11:26
阅读次数:
55
题目 Shuffling is a procedure used to randomize a deck of playing cards. Because standard shuffling techniques are seen as weak, and in order to avoid " ...
分类:
系统相关 时间:
2020-06-11 16:17:02
阅读次数:
66