1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:20:23
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:10:47
阅读次数:
0
1. 域名代理实例: #user nobody; user root; worker_processes 1; #error_log logs/error.log; #error_log logs/error.log notice; #error_log logs/error.log info; p ...
分类:
其他好文 时间:
2021-03-01 13:32:37
阅读次数:
0
1.mybatis简介 在说mybatis之前,我们先来说一下ORM框架。 ORM(object Relational Mapping)对象关系映射,将程序中的一个对象与表中的一行数据一一对应。 如果我们要使用JDBC来完成ORM的操作,想一想我们需要多少操作? 首先导入关于操作数据库的类,然后建立 ...
分类:
其他好文 时间:
2021-02-26 13:19:38
阅读次数:
0
pyspark有个bug, 虽然下面代码写了 write.mode("overwrite")但是不生效 spark.conf.set("hive.exec.dynamic.partition.mode", "constrict") db_df.repartition(1).write.mode("o ...
分类:
其他好文 时间:
2021-02-23 14:14:20
阅读次数:
0
参考LittleCadet的博客多线程中Future与FutureTask的区别和联系 线程创建的两种方法,一种是实现Runnable接口,另一种是继承Thread。二者无法获取返回结果,于是有Callable接口,Future接口与FutureTask类的配和取得返回的结果。 FutureTask ...
分类:
编程语言 时间:
2021-02-20 12:20:07
阅读次数:
0
内容来自官方文档,基于此图我们可以了解airbyte 的整体运行&&方便问题解决&&环境部署 参考图 简单说明 ui 进行配置,以及通过界面查看同步&&日志 config store 关于认证&&同步次信息存储 scheduler 存储关于调度执行情况 config api 方便ui 进行连接配置 ...
分类:
其他好文 时间:
2021-02-20 12:15:36
阅读次数:
0
线上有一个消息消费服务,主线程批量从kafka拉取消息,然后提交到子线程池中挨个消费。分布式追踪用到的kafka插件会使子线程创建的ThreadLocalScope被循环引用,从而造成内存泄漏。 ...
分类:
其他好文 时间:
2021-02-20 11:53:15
阅读次数:
0
在介绍 Spark SQL之前,我们先了解两种基本的数据分析方式。 一、数据分析的两种方式 数据分析的方式大致上可以划分为 SQL 和 命令式两种。 命令式 在前面的 RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,可以得到一个结果,通过结果再进行后续计算。例如: sc.para ...
分类:
数据库 时间:
2021-02-16 12:29:50
阅读次数:
0
前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje ...
分类:
其他好文 时间:
2021-02-16 12:23:59
阅读次数:
0