版本号:cdh5.0.0+hadoop2.3.0+hive0.12一、原始数据:1. 本地数据[root@node33 data]# ll total 12936 -rw-r--r--. 1 root root 13245467 May 1 17:08 hbase-data.csv [root@no ...
分类:
其他好文 时间:
2019-05-13 10:45:05
阅读次数:
113
package dev.spark.sqlimport java.util.Propertiesimport org.apache.spark.sql.{Row, SQLContext, SaveMode}import org.apache.spark.sql.hive.HiveContextimp ...
分类:
数据库 时间:
2019-05-12 20:07:53
阅读次数:
211
大数据数据仓库-基于大数据体系构建数据仓库(Hive,Flume,Kafka,Azkaban,Oozie,SparkSQL) ...
分类:
数据库 时间:
2019-05-12 13:36:39
阅读次数:
163
自从公司使用大数据产品之后,就很少碰开源的东西了,集群出问题也是跟研发沟通,前些天有朋友问我,怎么能把hive底层的引擎换成spark,我想了想,是不是将hive的数据库共享给spark然后用spark-shell不就好了,后来查了查资料,原来不是这样的,这里面的操作还挺多了。哎,真的是,用了别人产品,开发是方便了,原理懂的就少了,小编一直还沉浸在用一条SQL底层就能转换的
分类:
其他好文 时间:
2019-05-12 01:07:14
阅读次数:
171
近来在做项目中的技术调研,使用最新版的hdp3.1,其中使用spark2.3和hive 3.1. 遇到 一些问题,记录如下: 一,使用spark-sql client driver去访问hive创建的数据库,发现找不到,使用presto访问hive,只能读写外部表。 经过查询资料了解到,hive3. ...
分类:
其他好文 时间:
2019-05-11 12:17:22
阅读次数:
471
1:需要将yarn.cmd替换到hadoop的bin下,因为windows下需要windows的文档格式2:hive如果需要运行mr任务,要使用管理员身份运行3:如果机器资源匮乏yarn无法启动,始终提示节点unhealthy可使用配置降低要求(yarn-site覆盖到hadoop/etc的下面), ...
分类:
其他好文 时间:
2019-05-11 09:14:57
阅读次数:
97
一.大数据组件分类: 1.计算类: hadoop,spark,flink,hive 2.传输类:kafka,flume,redis 3.存储类:hbase,mongodb,Cassandra 4.调度类:zookeeper 5.配置类:mesos,yarn 二.流行的框架SMACK Spark Me ...
分类:
其他好文 时间:
2019-05-10 20:21:59
阅读次数:
160
(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。 这里选择下载Apache稳定版本apache-hive- ...
分类:
其他好文 时间:
2019-05-10 16:19:14
阅读次数:
177
Hadoop安装: 首先到官方下载官网的hadoop2.7.7,链接如下 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 找网盘的hadooponwindows-master.zip 链接如下 https://pan.baidu. ...
set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; ...
分类:
其他好文 时间:
2019-05-09 12:06:39
阅读次数:
131