Kafka概述 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 传统消息队列的应用场景 使用消息队列的好处 1:解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2:可恢复性 系统的一部分组件失效时 ...
分类:
其他好文 时间:
2021-01-02 10:52:13
阅读次数:
0
将hive/lib下面的jline-2.12.jar 复制到hadoop目录下 cp /usr/local/src/hive-1.2.2/jline-2.12.jar /usr/local/src/hadoop-2.6.1/share/hadoop/yarn/lib/ ...
分类:
其他好文 时间:
2021-01-01 12:54:42
阅读次数:
0
由于之前已经搭建好了,今天是看视频回顾下,然后做下记录。 之前已经搭建好了Yarn集群,现在在Yarn集群上搭建spark。 1、安装spark 下载源码包:wget http://mirror.bit.edu.cn/apache/spark/spark-1.3.0/spark-1.3.0.tgz ...
分类:
其他好文 时间:
2021-01-01 12:18:40
阅读次数:
0
Hadoop3 No FileSystem for scheme "hdfs" 异常信息: org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs" at org.apache.hadoo ...
分类:
其他好文 时间:
2020-12-31 11:55:00
阅读次数:
0
go mod包管理 基本每个语言都有自己的包管理工具,node的npm,yarn;Python pipenv,venv;Java的maven等等,go 当然也有自己的包管理工具 mod(Modules简写) 参考链接 官方github https://github.com/golang/go/wik ...
分类:
其他好文 时间:
2020-12-31 11:51:58
阅读次数:
0
操作过程 2.1 数据准备 A.1sudo mkdir usr/local/bigdatacase A.2sudo chown -R hadoop:hadoop ./bigdatacase A.3mkdir usr/local/bigdatacase/dataset A.4 A.5 B.1sed - ...
分类:
Web程序 时间:
2020-12-30 11:30:32
阅读次数:
0
二 HDFS部署 主要步骤如下:1. 配置Hadoop的安装环境;2. 配置Hadoop的配置文件;3. 启动HDFS服务;4. 验证HDFS服务可用。1‘ 查看是否存在hadoop安装目录 ls /usr/cstor/hadoop 如果没有,利用工具从本地导入hadoop安装文件。 查看jdk是否 ...
分类:
其他好文 时间:
2020-12-30 11:10:24
阅读次数:
0
kudu计算公式:假设:tabletserver32台master5台最大数据存储量为,复制和压缩后,每个tabletserver9.6TB。每个tabletserver管理的tablet为3000,包含tablet的副本。基于以上限制,可以推测出一下内容:分区=每行大小*总条数<=3.2Gtablet(限制每一台tablet-server1500个分区),目前现在总kudu表为1546张表
分类:
其他好文 时间:
2020-12-30 10:41:55
阅读次数:
0
需要准备 hadoop-2.6.0-cdh5.7.0 、jdk1.8.0_161 、zookeeper-3.4.5-cdh5.7.0、 hive-1.1.0-cdh5.7.0 1.在hadoop 的etc/hadoop/目录中的文件 core-site.xml 添加下面代码 ,其中颜色标记部分为你的 ...
分类:
其他好文 时间:
2020-12-29 11:30:43
阅读次数:
0
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:
数据库 时间:
2020-12-29 11:28:30
阅读次数:
0