码迷,mamicode.com
首页 >  
搜索关键字:flume spark sparkflumeprotocol    ( 7976个结果
flume日志收集
1、flume日志收集架构如下 2、解压安装包,修改文件夹名称,配置环境变量 tar -zxvf apache-flume-1.6.0-bin.tar.gz export FLUME_HOME=/soft/flume export PATH=$PATH:$FLUME_HOME/bin 修改conf下 ...
分类:Web程序   时间:2020-07-10 18:37:36    阅读次数:66
半小时,利用FEDB将你的Spark SQL模型变为在线服务
SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用SparkSQL在特征变换主要有一下几类1.多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表2.使用udf进行简单的特征变换,比如对时间戳进行hour函数处理3.使用时间窗口和udaf
分类:数据库   时间:2020-07-09 17:54:20    阅读次数:99
flume 数据链路问题排查
技巧 1、查看flume的metrics,确定每个flume节点数据是否被接收以及发送: {"SOURCE.src-1":{"OpenConnectionCount":"0", //目前与客户端或sink保持连接的总数量(目前只有avro source展现该度量)"Type":"SOURCE","A ...
分类:Web程序   时间:2020-07-08 15:23:06    阅读次数:101
Spark Streaming
Concept http://spark.apache.org/streaming/ Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. Ease of Use Build ap ...
分类:其他好文   时间:2020-07-08 13:26:09    阅读次数:59
Spark SQL : DataFrame repartition、coalesce 对比
repartition repartition 有三个重载的函数: 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions` ...
分类:数据库   时间:2020-07-08 13:17:49    阅读次数:93
大数据面试题
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M ...
分类:其他好文   时间:2020-07-08 13:03:03    阅读次数:59
Spark 源码解读(五)SparkContext的初始化之创建和启动DAGScheduler
Spark 源码解读(五)SparkContext的初始化之创建和启动DAGScheduler DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkCont ...
分类:其他好文   时间:2020-07-07 23:39:16    阅读次数:102
Flume对接Kafka
一.简单实现 需求:根据 flume 监控 exec 文件的追加数据,写入 kafka 的 test-demo 分区,然后启用 kafka-consumer 消费 test-demo 分区数据。 需求分析 1)flume的配置文件 在hadoop102上创建flume的配置文件 # define a ...
分类:Web程序   时间:2020-07-07 23:22:58    阅读次数:79
spark rdd--分区理解
1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...
分类:其他好文   时间:2020-07-07 13:11:09    阅读次数:164
Kafka Streams与其他流处理平台的差异在哪里?
本文已收录GitHub,更有互联网大厂面试真题,面试攻略,高效学习资料等近些年来,开源流处理领域涌现出了很多优秀框架。光是在Apache基金会孵化的项目,关于流处理的大数据框架就有十几个之多,比如早期的ApacheSamza、ApacheStorm,以及这两年火爆的Spark以及Flink等。应该说,每个框架都有自己独特的地方,也都有自己的缺陷。面对这众多的流处理框架,我们应该如何选择呢?在本文汇
分类:其他好文   时间:2020-07-07 11:38:26    阅读次数:67
7976条   上一页 1 ... 23 24 25 26 27 ... 798 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!