"深入理解Kafka必知必会(1)" Kafka目前有哪些内部topic,它们都有什么特征?各自的作用又是什么? __consumer_offsets:作用是保存 Kafka 消费者的位移信息 __transaction_state:用来存储事务日志消息 优先副本是什么?它有什么特殊的作用? 所谓的 ...
分类:
其他好文 时间:
2019-11-22 00:53:53
阅读次数:
58
什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的T ...
分类:
其他好文 时间:
2019-11-21 13:56:11
阅读次数:
103
平台上执行复杂查询,OOM,根据日志提示的结局方法: -- SET spark.driver.memory=6/8G;【还是OOM】set spark.sql.autoBroadcastJoinThreshold=-1;【解决问题】 Exception in thread "broadcast-ex ...
分类:
数据库 时间:
2019-11-21 09:30:17
阅读次数:
98
什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 1)易整合 2)统一的数据访问方式 3)兼容Hive 4)标准 ...
分类:
数据库 时间:
2019-11-20 21:54:37
阅读次数:
91
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中。yarn client模式一般用在交互式场景中,比如spark shell, spark sql等程序,但是该模式下运行在客户端 ...
分类:
其他好文 时间:
2019-11-18 22:14:29
阅读次数:
101
flink支持的数据类型Flink对DataSet和DataStream中可使用的类型加了一些约束。原因是系统可以通过分析这些类型来确定有效的执行策略和选择不同的序列化方式。有7种不同的数据类型:1.java Tuple 和 Scala Case类:2.java POJO(指那些没有从任何类集成,也 ...
分类:
其他好文 时间:
2019-11-18 22:00:50
阅读次数:
132
初始化Centos7vi /etc/sysconfig/network-scripts/ifcfg-ens33DEVICE=ens33TYPE=EthernetONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.3.131GATEWAY ...
分类:
其他好文 时间:
2019-11-18 12:52:33
阅读次数:
64
在linux下,执行pyspark代码 —— 实测有效 1. 安装pycharm或者spyder,然后在其中编写代码和执行语句 2. 通过job来提交,即spark-submit提交,下面主要讲这种方法 首先假设,自己写的 *.py 文件包含了这些包,即通过import导入 import os fr ...
分类:
其他好文 时间:
2019-11-17 20:39:47
阅读次数:
185
一:集合 主要的集合特质 scala集合中重要的特质: Trait(Iterable) Trait(Seq) Trait(Set) Trait(Map) Trait(IndexedSeq) Trait(SoredSet) Trait(SoredMap) Seq是一个有先后次序的值的序列,比如数组和列 ...
分类:
其他好文 时间:
2019-11-17 18:01:18
阅读次数:
81