搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje ...

分类：其他好文时间：2021-02-16 12:23:59 阅读次数：0

Hadoop全权威指南第三版（原版） pdf

《Hadoop全权威指南第三版（原版）》链接: https://pan.baidu.com/s/1O0AwkvstyRdB69Tiw8o7Ww 密码: 29li 有问题拿不到直接联系作者哦！大数据越来越热。Hadoop技术是大数据技术的基础。掌握了大数据技术，就意味着可以轻松找到高薪工作。人 ...

分类：其他好文时间：2021-02-15 11:48:45 阅读次数：0

MapReduce基本原理

在围绕Hadoop形成的大数据技术生态当中，MapReduce的地位，在早期是处于核心地位的，但是伴随着数据处理实时性需求的不断提升，更多新的计算框架出现，MapReduce的地位受到压制，但是作为Hadoop原始计算框架，还是需要相应程度的了解和掌握的。今天的大数据入门分享，我们来具体讲一讲Map ...

分类：其他好文时间：2021-02-09 12:33:28 阅读次数：0

postgresql数据库 timescaledb 时序库把大数据量表转换为超表

postgresql数据库 timescaledb 时序库把大数据量表转换为超表文章目录 postgresql数据库 timescaledb 时序库把大数据量表转换为超表一创建新表二把新表改为超表三插入数据1.数据量不大的情况可以直接插入2.如果数据量比较大可以采取一天一天插入或 ...

分类：数据库时间：2021-02-06 11:48:38 阅读次数：0

postgresql数据库 timescaledb 时序库把大数据量表转换为超表

postgresql数据库 timescaledb 时序库把大数据量表转换为超表文章目录 postgresql数据库 timescaledb 时序库把大数据量表转换为超表一创建新表二把新表改为超表三插入数据1.数据量不大的情况可以直接插入2.如果数据量比较大可以采取一天一天插入或 ...

分类：数据库时间：2021-02-06 11:48:18 阅读次数：0

Impala官网翻译09-安装Impala

安装Impala Impala是一个针对Apache Hadoop的开源分析数据库，可以快速返回查询响应。按照以下步骤，通过从源码构建在集群上设置Impala。下载最新版本。请参阅Impala下载页面以获取最新版本的链接。检查 README.md 文件，以获得指向构建说明的指针。请检查MD5 ...

分类：其他好文时间：2021-02-06 11:41:43 阅读次数：0

Hadoop+HBase+Spark+Hive环境搭建

本文对Hadoop+HBase+Spark+Hive环境搭建方法和步骤进行了详细介绍和说明，记录于此，供各位同学及自己参考研究。 ...

分类：其他好文时间：2021-02-05 10:38:53 阅读次数：0

Spark环境配置

Spark环境配置 spark-env.sh #JAVA_HOME export JAVA_HOME=/export/servers/jdk1.8.0_271 #Spark Master Address #export SPARK_MASTER_HOME=node01 export SPARK_MA ...

分类：其他好文时间：2021-02-04 11:53:09 阅读次数：0

Java第一课：数据类型和Scanner类

Java第一课一、数据类型原始数据类型(八大数据类型) 数据类型取值 boolean true/false byte(1个字节) -128到127 short（2个字节） -32768到32767 char（2个字节） 0到65535 int（4个字节） -2^31~2^31-1 long(8个 ...

分类：编程语言时间：2021-02-03 10:36:02 阅读次数：0

Spark executor中task的数量与最大并发数

每个task处理一个partition，一个文件的大小/128M就是task的数量 Task的最大并发数当task被提交到executor之后，会根据executor可用的cpu核数，决定一个executor中最多同时运行多少个task。默认情况下一个task对应cpu的一个核。如果一个exec ...

分类：其他好文时间：2021-02-02 11:14:58 阅读次数：0