码迷,mamicode.com
首页 >  
搜索关键字:ambari hadoop hbase hive spark    ( 26003个结果
hive排序后collect_set
假设存在表格如下: select 'a' as category, 19 as duration union all select 'b' as category, 15 as duration union all select 'c' as category, 12 as duration uni ...
分类:编程语言   时间:2020-05-27 11:51:22    阅读次数:328
pyhton 操作hive数据仓库
使用库Pyhive 安装:pip install Pyhive -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com from pyhive import hive # or import hive c ...
分类:其他好文   时间:2020-05-27 01:04:26    阅读次数:60
hadoop伪集群部署
软件环境:VMware10.0,VMware10,ubuntu15.10桌面版(ubuntukylin-15.10-desktop-i386.iso),Apache hadoop(hadoop-1.2.1.tar.gz),JDK(jdk-8u11-linux-i586.tar.gz) 一 安装JDK ...
分类:其他好文   时间:2020-05-27 00:47:44    阅读次数:69
大数据之Spark单词统计
题目三:使用Spark Core 统计文件中以spark开头的单词中,每个单词出现的次数(共计30分) spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...
分类:其他好文   时间:2020-05-26 22:06:21    阅读次数:102
Spark:shuffle原理
shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区 ...
分类:其他好文   时间:2020-05-26 18:22:19    阅读次数:71
oracleSQL 转 SPARKSQL(hiveSql) 及常用优化
背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 1. exist 转换 为 ...
分类:数据库   时间:2020-05-25 19:47:59    阅读次数:94
Flink核心概念
分布式缓存 分布式缓存的思想在hadoop和spark中都有体现,Flink 提供的分布式缓存类似 Hadoop,目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件,当前计算节点的 task 就像读取本地文件一样拉取这些配置。 比如在进行表与表 Join 操作时 ...
分类:其他好文   时间:2020-05-25 19:29:56    阅读次数:60
kafka unclean 配置代表啥,会对 spark streaming 消费有什么影响?
unclean.leader.election.enable 为true的话,意味着非ISR集合的broker 也可以参与选举,这样有可能就会丢数据,spark streaming在消费过程中拿到的 end offset 会突然变小,导致 spark streaming job挂掉。如果unclea ...
分类:其他好文   时间:2020-05-25 14:01:02    阅读次数:89
HBase与Hive的集成操作
1.介绍 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到HBase中; 2.模型概念 2.1 将ETL操作的数据存入HBase 2.2 HBase作为Hive的数据源 2.3 构建 ...
分类:其他好文   时间:2020-05-25 14:00:35    阅读次数:51
not find any valid local directory for nmPrivate
跑spark job的时候碰到了错误: 这是因为nmPrivate目录没有权限访问引起的。 参考: "https://www.oschina.net/question/2288283_2134188" ...
分类:其他好文   时间:2020-05-25 09:22:14    阅读次数:74
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!