前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje ...
分类:
其他好文 时间:
2021-02-16 12:23:59
阅读次数:
0
《Hadoop全权威指南第三版(原版)》 链接: https://pan.baidu.com/s/1O0AwkvstyRdB69Tiw8o7Ww 密码: 29li 有问题拿不到直接联系作者哦! 大数据越来越热。Hadoop技术是大数据技术的基础。 掌握了大数据技术,就意味着可以轻松找到高薪工作。 人 ...
分类:
其他好文 时间:
2021-02-15 11:48:45
阅读次数:
0
在围绕Hadoop形成的大数据技术生态当中,MapReduce的地位,在早期是处于核心地位的,但是伴随着数据处理实时性需求的不断提升,更多新的计算框架出现,MapReduce的地位受到压制,但是作为Hadoop原始计算框架,还是需要相应程度的了解和掌握的。今天的大数据入门分享,我们来具体讲一讲Map ...
分类:
其他好文 时间:
2021-02-09 12:33:28
阅读次数:
0
postgresql数据库 timescaledb 时序库 把大数据量表转换为超表 文章目录 postgresql数据库 timescaledb 时序库 把大数据量表转换为超表一 创建新表二 把新表改为超表三 插入数据1.数据量不大的情况可以直接插入2.如果数据量比较大 可以采取 一天一天 插入 或 ...
分类:
数据库 时间:
2021-02-06 11:48:38
阅读次数:
0
postgresql数据库 timescaledb 时序库 把大数据量表转换为超表 文章目录 postgresql数据库 timescaledb 时序库 把大数据量表转换为超表一 创建新表二 把新表改为超表三 插入数据1.数据量不大的情况可以直接插入2.如果数据量比较大 可以采取 一天一天 插入 或 ...
分类:
数据库 时间:
2021-02-06 11:48:18
阅读次数:
0
安装Impala Impala是一个针对Apache Hadoop的开源分析数据库,可以快速返回查询响应。 按照以下步骤,通过从源码构建在集群上设置Impala。 下载最新版本。请参阅Impala下载页面以获取最新版本的链接。 检查 README.md 文件,以获得指向构建说明的指针。 请检查MD5 ...
分类:
其他好文 时间:
2021-02-06 11:41:43
阅读次数:
0
本文对Hadoop+HBase+Spark+Hive环境搭建方法和步骤进行了详细介绍和说明,记录于此,供各位同学及自己参考研究。 ...
分类:
其他好文 时间:
2021-02-05 10:38:53
阅读次数:
0
Spark环境配置 spark-env.sh #JAVA_HOME export JAVA_HOME=/export/servers/jdk1.8.0_271 #Spark Master Address #export SPARK_MASTER_HOME=node01 export SPARK_MA ...
分类:
其他好文 时间:
2021-02-04 11:53:09
阅读次数:
0
Java第一课 一、数据类型 原始数据类型(八大数据类型) 数据类型取值 boolean true/false byte(1个字节) -128到127 short(2个字节) -32768到32767 char(2个字节) 0到65535 int(4个字节) -2^31~2^31-1 long(8个 ...
分类:
编程语言 时间:
2021-02-03 10:36:02
阅读次数:
0
每个task处理一个partition,一个文件的大小/128M就是task的数量 Task的最大并发数 当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。 默认情况下一个task对应cpu的一个核。如果一个exec ...
分类:
其他好文 时间:
2021-02-02 11:14:58
阅读次数:
0