一、Kafka介绍 kafka是消息中间件的一种,一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spar ...
分类:
其他好文 时间:
2019-08-08 18:48:51
阅读次数:
112
sqlserver中有几种排序的方式 1、order by asc||desc 【默认值升序(asc)、降序:desc】 列:select * from tb order by id 2、ROW_NUMBER() over(partition by columnname order by colum ...
分类:
数据库 时间:
2019-08-07 22:50:57
阅读次数:
137
truncate t_target; insert into t_target (http://www.my516.com)select distinct t1.* from t_source t1, (select min(item_id) item_id,created_time,item_na ...
分类:
其他好文 时间:
2019-08-06 19:42:25
阅读次数:
109
fetch.min.bytes. #获取最小字节数据 Consumer 向broker中要数据时是按大小来返回的,如果数据没有达到指定的MB,consumer会处于等待状态,直到broker 从producer 哪里获取到指定大小的数据为止。获取取的最小数据大小是指的每个partition上的数据。... ...
分类:
其他好文 时间:
2019-08-06 00:41:49
阅读次数:
92
环境准备 zookeeper集群环境kafka是依赖于zookeeper注册中心的一款分布式消息对列,所以需要有zookeeper单机或者集群环境。 三台服务器: http://kafka.apache.org/downloads 中下载,目前最新版本的kafka已经到2.2.0,我这里之前下载的是 ...
分类:
系统相关 时间:
2019-08-03 15:09:43
阅读次数:
164
磁盘管理好坏直接关系到整个系统的性能问题本地存储设备fdisk-l--->真实存在的设备(分区后查看,不一定是系统识别的)cat/proc/partition--->系统识别的设备blkid--->系统可使用的设备(格式化后查看,不成功用partprobe同步分区表)df--->系统正在挂载的设备(挂载后使用查看).设备分类/dev/sda串行SCSI硬盘设备,/dev/h
分类:
系统相关 时间:
2019-07-31 00:52:05
阅读次数:
130
一、kafka优点 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且 ...
分类:
其他好文 时间:
2019-07-28 18:10:01
阅读次数:
100
一、字符串拆分 二、字符串拼接 三、常用操作 ...
分类:
编程语言 时间:
2019-07-26 16:01:37
阅读次数:
137
分区表 在Hive Select查询中,一般会扫描整个表内容(HDFS上文件的内容),会消耗很多时间做没必要的工作。分区表指的是在创建表时,指定partition的分区空间。 庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区或切片的方法减少每一次扫描总数据量,这种做法可以显著地改 ...
分类:
其他好文 时间:
2019-07-25 17:38:46
阅读次数:
92
窗口函数可以进行排序,生成序列号等一般的聚合函数无法实现的高级操作。 窗口函数也称为OLAP函数,意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。 窗口函数语法:其中[]中的内容可以省略 使用格式: <窗口函数> over ([partition by <列清 ...
分类:
其他好文 时间:
2019-07-24 09:36:20
阅读次数:
118