码迷,mamicode.com
首页 >  
搜索关键字:spark on hive    ( 12366个结果
大数据实战-Hive-技巧实战
1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; + + +--+ | sex ...
分类:其他好文   时间:2021-03-08 14:17:52    阅读次数:0
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)
RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优化结果: 2. 尽早filter 获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内 ...
分类:其他好文   时间:2021-03-06 14:22:58    阅读次数:0
Spark Core 02(理论),独立的进程集
Application Application=a driver program + executors 一般来说:1个SparkContext = 1个application=1个SparkShell Spark提交任务不一定须在集群里提交,有gateway就行 1个application ==> ...
分类:系统相关   时间:2021-03-04 13:20:14    阅读次数:0
基于hdfs文件创建hive表
create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont ...
分类:其他好文   时间:2021-03-03 12:21:19    阅读次数:0
Spark 运行时相关概念
Spark 运行时相关概念 从集群的物理层面 Master 节点:部署 Cluster Manager的节点 Slave 节点:部署 Worker 的节点,每个节点可以有多个 Worker 进程 从进程层面(与所执行的应用无关) Cluster Manager:管理集群的 CPU、内存等资源,为不同 ...
分类:其他好文   时间:2021-03-03 12:14:39    阅读次数:0
大数据概论
大数据概述 一.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超 ...
分类:其他好文   时间:2021-03-03 12:14:24    阅读次数:0
大数据概论
1.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超大数据、流式 ...
分类:其他好文   时间:2021-03-02 12:28:59    阅读次数:0
大数据概述
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS(Hadoop分布式文件系统)是Hadoop体系中 数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于 ...
分类:其他好文   时间:2021-03-02 12:24:42    阅读次数:0
sqoop部署
vim sqoop-env.sh export HADOOP_HOME=/apps/hadoop export HADOOP_MAPRED_HOME=/apps/hadoop export HIVE_HOME=/apps/hive export ZOOKEEPER_HOME=/apps/zookee ...
分类:其他好文   时间:2021-03-02 12:20:39    阅读次数:0
大数据概述
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:其他好文   时间:2021-03-02 12:20:23    阅读次数:0
12366条   上一页 1 ... 14 15 16 17 18 ... 1237 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!