1、执行计划(过往记忆https://www.iteblog.com/archives/2562.html) 2、逻辑计划优化方法: 谓词下推,列裁剪,常量替换,常量累加 3、优化方法 数据源方面: 1、hive 使用parquet格式,不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...
分类:
数据库 时间:
2019-06-18 23:01:37
阅读次数:
303
hive: 基于hadoop,数据仓库软件,用作OLAP OLAP:online analyze process 在线分析处理OLTP:online transaction process 在线事务处理 事务: ACID A:atomic 原子性 C: consistent 一致性 I:isolat ...
分类:
其他好文 时间:
2019-06-14 16:16:24
阅读次数:
88
详细讲解RDD中两个关于重新分区的算子coalesce和repartition~
分类:
其他好文 时间:
2019-05-17 18:01:22
阅读次数:
177
1.difflib介绍 difflib作为 Python的标准库模块,无需安装,作用是对比文本之间的差异,且支持 输出可读性比较强的HTML文档,与Linux下的diff命令相似。我们可以 使用difflib对比代码、配置文件的差别,在版本控制方面是非常有用。 Python 2.3或更高版本默认自带 ...
分类:
编程语言 时间:
2019-05-13 14:19:32
阅读次数:
158
配置文件:pom.xml 2.11.8 2.2.0 2.6.0-cdh5.7.0 cloudera cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ org.scala-lang ... ...
分类:
其他好文 时间:
2019-05-07 19:44:14
阅读次数:
158
download JDK 8, extract and add to .bashrc: export JAVA_HOME=/home/bonelee/jdk1.8.0_211export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexpor ...
分类:
编程语言 时间:
2019-04-23 12:58:25
阅读次数:
198
【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A ...
分类:
其他好文 时间:
2019-04-21 09:17:35
阅读次数:
206
上图是spark框架概要图,spark一些重要概念先简要介绍一下:clustermanager:资源管理集群,比如standalone、yarn;application:用户编写的应用程序;Driver:application中的main函数,创建的SparkContext负责与clustermanager通信,进行资源的申请、任务的分配与监控。一般认为SparkContext就是Driver;w
分类:
其他好文 时间:
2019-04-20 17:02:21
阅读次数:
151
package cn.piesat.testimport org.apache.spark.sql.SparkSessionimport scala.collection.mutable.ArrayBufferobject SparkSQLTest { def main(args: Array[St ...
分类:
数据库 时间:
2019-04-06 15:27:58
阅读次数:
200
1.首先创建表 create table user( id int, name string, address string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 2.创建索引 create index ...
分类:
其他好文 时间:
2019-03-23 16:18:23
阅读次数:
229