[TOC] 我们都知道python上的一款可视化工具matplotlib,而前些阵子做一个Spark项目的时候用到了百度开源的一个可视化JS工具 Echarts,可视化类型非常多,但是得通过导入js库在Java Web项目上运行,平时用Python比较多,于是就在想有没有Python与Echarts ...
分类:
其他好文 时间:
2020-04-13 12:21:26
阅读次数:
118
创建完成Flink QuickStart 项目后,如果直接导入IDEA中运行或调试会报出如下错误 Caused by: java.lang.ClassNotFoundException: org.apache.flink.streaming.api.datastream.DataStream 这是由 ...
分类:
其他好文 时间:
2020-04-13 12:16:54
阅读次数:
404
区别: 1、map是对rdd中每一个元素进行操作 2、mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1、若是普通map,比如一个partition中有一万条数据,那么function要执行一万次,而使用mapPartions,一个ta ...
分类:
移动开发 时间:
2020-04-12 20:49:23
阅读次数:
80
kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/ngin ...
分类:
其他好文 时间:
2020-04-12 16:38:30
阅读次数:
65
ylbtech-System.Runtime.Serialization.ISerialization.cs 1.返回顶部 1、 #region 程序集 mscorlib, Version=4.0.0.0, Culture=neutral, PublicKeyToken=b77a5c561934e0 ...
分类:
其他好文 时间:
2020-04-11 00:25:59
阅读次数:
77
1. Transformations 1.1 map(fun) 操作 map操作需要传入一个函数当做参数, 主要作用是,对DStream对象a,将func函数作用到a中的每一个元素上并生成新的元素,得到的DStream对象b中包含这些新的元素。 val conf = new SparkConf(). ...
分类:
其他好文 时间:
2020-04-10 12:21:06
阅读次数:
87
共性: 1、都是spark平台下的分布式弹性数据集 2、都有惰性机制,创建、转换如map操作时不会立即执行,遇到foreach等Action算子时才开始运算。 3、都会自动缓存计算 4、都有partition概念 区别: 1、RDD不支持sparkSQL操作 2、DF每一行类型固定为Row,只有通过 ...
分类:
其他好文 时间:
2020-04-08 21:03:30
阅读次数:
292
1.血统机制 RDD只支持粗粒度转换,即只记录单个块上执行的单个操作。将创建RDD的一系列Lineage(即血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 RDD与RDD ...
分类:
其他好文 时间:
2020-04-06 17:52:36
阅读次数:
154
使用netty的开源框架 Dubbo:阿里开源的高性能rpc通讯框架 RocketMQ:阿里出品的高性能消息队列 Spark:为大规模数据处理设计的一款计算引擎 Elasticsearch,Cassandra,Flink,Netty-SocketIO,Spring5,Play,Grpc... Net ...
分类:
Web程序 时间:
2020-04-06 00:28:27
阅读次数:
121
大数据安全系列的其它文章 https://www.cnblogs.com/bainianminguo/p/12548076.html 安装kerberos https://www.cnblogs.com/bainianminguo/p/12548334.html hadoop的kerberos认证 ...
分类:
其他好文 时间:
2020-04-06 00:21:08
阅读次数:
411