本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建。 1 环境介绍 一台阿里云ECS服务器:master 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar. ...
分类:
Web程序 时间:
2019-11-23 12:53:35
阅读次数:
85
Kafka的结构与RabbitMQ类似,消息生产者向Kafka服务器发送消息,Kafka接收消息后,再投递给消费者。
生产者的消费会被发送到Topic中,Topic中保存着各类数据,每一条数据都使用键、值进行保存。
每一个Topic中都包含一个或多个物理分区(Partition),分区维护着消息... ...
分类:
编程语言 时间:
2019-11-22 23:28:34
阅读次数:
128
kafka 由于它自身的高性能发送与消费能力,而受到广大企业的喜欢,所以我们就先看看kafka 一些源码实现如下: 这段代码摘抄的是,kafka源码 生产者发送消息demo(kafka.examples.Producer) 里面的一个片段,主要是涉及到两个知识点,一个是异步发送消息, 回调函数的实现 ...
分类:
其他好文 时间:
2019-11-22 23:24:35
阅读次数:
79
1、Flume简介 ? (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ? (2) Flume基于流式架构,容错性强,也很灵活简单。 ? (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实 ...
分类:
Web程序 时间:
2019-11-22 12:11:59
阅读次数:
201
数据源Source RPC异构流数据交换 Avro Source Thrift Source 文件或目录变化监听 Exec Source Spooling Directory Source Taildir Source MQ或队列订阅数据持续监听 JMS Source SSL and JMS Sou ...
分类:
Web程序 时间:
2019-11-22 10:48:12
阅读次数:
84
"深入理解Kafka必知必会(1)" Kafka目前有哪些内部topic,它们都有什么特征?各自的作用又是什么? __consumer_offsets:作用是保存 Kafka 消费者的位移信息 __transaction_state:用来存储事务日志消息 优先副本是什么?它有什么特殊的作用? 所谓的 ...
分类:
其他好文 时间:
2019-11-22 00:53:53
阅读次数:
58
Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具 原理: 将导入或导出命令翻译成Mapreduce程序来实现。 在翻译出的Mapreduce中主要是对InputFormat和OutputFormat进行定制 RDBMS到HD ...
分类:
Web程序 时间:
2019-11-21 21:27:34
阅读次数:
113
从控制台写入数据并将其写回到控制台是一个方便的起点,但是您可能要使用其他来源的数据或将数据从Kafka导出到其他系统。对于许多系统,可以使用Kafka Connect导入或导出数据,而无需编写自定义集成代码。 Kafka Connect是Kafka附带的工具,用于将数据导入和导出到Kafka。它是运 ...
分类:
其他好文 时间:
2019-11-21 17:15:49
阅读次数:
108
安装详述: https://www.jianshu.com/p/596f107e901a 3.0:运行:cd 到: D:\Installed_software\Professional\kafka_2.10-0.10.0.1 而不是:D:\Installed_software\Professiona ...
分类:
其他好文 时间:
2019-11-21 15:35:55
阅读次数:
69
什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的T ...
分类:
其他好文 时间:
2019-11-21 13:56:11
阅读次数:
103