搜索关键字：flume spark sparkflumeprotocol，搜索到7976个结果！码迷,mamicode.com！

spark sql/hive小文件问题

针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...

分类：数据库时间：2020-08-03 19:56:21 阅读次数：103

logstash_output_kafka:Mysql同步Kafka深入详解

0、题记实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。而mysql写入kafka的选型方案有：方案一：logstash_output_kafka插件。方案二：kafka_connector。方案三：debezium插件。方案四：flume。方案五：其他类似方案。其中：debezium和flume是基于mysqlbinlog实

分类：数据库时间：2020-08-01 12:38:39 阅读次数：93

Spark 数据处理相关代码

<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.3</version> </dependency> <!-- https://mvnrepos ...

分类：其他好文时间：2020-07-29 09:53:42 阅读次数：61

《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》

1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 ...

分类：其他好文时间：2020-07-29 00:41:18 阅读次数：111

spark系列之基本概念

Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。 RDD有两组操作，转换(transformation)和行动(actio ...

分类：其他好文时间：2020-07-28 22:37:30 阅读次数：72

spark中的透视函数pivot

透视函数其实就是我们excel中常用的数据透视表相似，先来看个例子。以下是准备的数据源，数据是电商系统中用户的行为数据(浏览，收藏，加购，成交，评分等)，score为统计次数。对应的字段分别为租户id，用户id，商品编码Id，行为事件代码，当日统计次数，统计日期。现在我们要转换成目标的数据是 ...

分类：其他好文时间：2020-07-28 17:17:13 阅读次数：131

Hive函数大全-完整版

Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、 ...

分类：其他好文时间：2020-07-28 14:21:17 阅读次数：191

BlockManager源码详解

一、简介在每个节点（driver和executor）上运行的管理器，该接口提供用于在本地和远程将block放置和检索到各种存储（内存，磁盘和堆外）的接口。二、源码 private[spark] class BlockManager( executorId: String, rpcEnv: Rpc ...

分类：其他好文时间：2020-07-27 23:41:12 阅读次数：73

Flume基础（十一）：自定义 Interceptor

1）案例需求使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。 2）需求分析在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Mu ...

分类：Web程序时间：2020-07-26 23:24:13 阅读次数：106

Spark SQL(6) OptimizedPlan

Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化sessionState，进而确定QueryExecution、Analy ...

分类：数据库时间：2020-07-26 19:28:25 阅读次数：101

共7976条上一页 1 ... 19 20 21 22 23 ... 798 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)