搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

hive排序后collect_set

假设存在表格如下： select 'a' as category, 19 as duration union all select 'b' as category, 15 as duration union all select 'c' as category, 12 as duration uni ...

分类：编程语言时间：2020-05-27 11:51:22 阅读次数：328

pyhton 操作hive数据仓库

使用库Pyhive 安装：pip install Pyhive -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com from pyhive import hive # or import hive c ...

分类：其他好文时间：2020-05-27 01:04:26 阅读次数：60

hadoop伪集群部署

软件环境：VMware10.0，VMware10,ubuntu15.10桌面版（ubuntukylin-15.10-desktop-i386.iso），Apache hadoop（hadoop-1.2.1.tar.gz），JDK（jdk-8u11-linux-i586.tar.gz）一安装JDK ...

分类：其他好文时间：2020-05-27 00:47:44 阅读次数：69

大数据之Spark单词统计

题目三：使用Spark Core 统计文件中以spark开头的单词中，每个单词出现的次数（共计30分） spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...

分类：其他好文时间：2020-05-26 22:06:21 阅读次数：102

Spark：shuffle原理

shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区 ...

分类：其他好文时间：2020-05-26 18:22:19 阅读次数：71

oracleSQL 转 SPARKSQL（hiveSql）及常用优化

背景数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。转换 1. exist 转换为 ...

分类：数据库时间：2020-05-25 19:47:59 阅读次数：94

Flink核心概念

分布式缓存分布式缓存的思想在hadoop和spark中都有体现，Flink 提供的分布式缓存类似 Hadoop，目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件，当前计算节点的 task 就像读取本地文件一样拉取这些配置。比如在进行表与表 Join 操作时 ...

分类：其他好文时间：2020-05-25 19:29:56 阅读次数：60

kafka unclean 配置代表啥，会对 spark streaming 消费有什么影响？

unclean.leader.election.enable 为true的话，意味着非ISR集合的broker 也可以参与选举，这样有可能就会丢数据，spark streaming在消费过程中拿到的 end offset 会突然变小，导致 spark streaming job挂掉。如果unclea ...

分类：其他好文时间：2020-05-25 14:01:02 阅读次数：89

HBase与Hive的集成操作

1.介绍 Hive提供了与HBase的集成，使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询，同时也可以将hive表中的数据映射到HBase中； 2.模型概念 2.1 将ETL操作的数据存入HBase 2.2 HBase作为Hive的数据源 2.3 构建 ...

分类：其他好文时间：2020-05-25 14:00:35 阅读次数：51

not find any valid local directory for nmPrivate

跑spark job的时候碰到了错误：这是因为nmPrivate目录没有权限访问引起的。参考： "https://www.oschina.net/question/2288283_2134188" ...

分类：其他好文时间：2020-05-25 09:22:14 阅读次数：74

共26003条上一页 1 ... 100 101 102 103 104 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)