公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址:https://hive.apache.org/downloads.html 找到自己h ...
分类:
其他好文 时间:
2020-02-08 00:22:59
阅读次数:
102
Scala需要使用java.io.PrintWriter实现把数据写入到文本文件。 采用相对路径时,当使用用户名hadoop登录Linux系统,打开Scala解释器进入命令提示符状态后,输入以下代码: scala> import java.io.PrintWriter import java.io. ...
分类:
其他好文 时间:
2020-02-08 00:12:18
阅读次数:
64
Spark写HBase 要通过Spark向 HBase 写入数据,我们需要用到PairRDDFunctions.saveAsHadoopDataset的方式。 package cn.com.win import org.apache.hadoop.hbase.HBaseConfiguration i ...
分类:
其他好文 时间:
2020-02-08 00:03:34
阅读次数:
53
官方文档:https://hadoop.apache.org/docs/stable/,目前官方已经是3.x,但yarn机制没有太大变化 一、简介 在Hadoop1.0中,没有yarn,所有的任务调度和资源管理都是MapReduce自己来做,所以在Hadoop1.0中,最核心的节点是JobTrack ...
分类:
其他好文 时间:
2020-02-07 16:24:04
阅读次数:
62
大数据的入门基础首先是hadoop,虽然很多年了,依然是宝刀未老,按网络的部署文章安装了一下,从版本多次选型,配置文件更改,bin目录覆盖,到运行中处理data文件的启动加载数据,不少坑爬,但是最后还是收获蛮大,开源软件就是有开源精神,Tomcat如果安装过,基本上也是大同小异,但是个人感觉还是要除 ...
分类:
系统相关 时间:
2020-02-07 01:34:14
阅读次数:
91
Hadoop是什么? 1. Hadoop是由Apache基金会所开发的分布式系统基础架构 2. 主要解决,海量数据的存储和海量数据的分析计算问题 3. 广义上来说,Hadoop通常是指一个更广泛的概念— Hadoop生态圈 Hadoop发展历史 1. Lucene框架是Doug Cutting开创的 ...
分类:
其他好文 时间:
2020-02-07 01:25:12
阅读次数:
79
1.hadoop集群的启动 cd $HADOOP_HOME //进入hadoop安装目录 sbin/start-dfs.sh //启动hdfs sbin/start-yarn.sh //启动yarn (或start-all.sh) 集群关闭: cd $HADOOP_HOME //进入hadoop安装 ...
分类:
系统相关 时间:
2020-02-07 00:58:00
阅读次数:
114
1、使用 Hadoop 提供的 Shell 命令完成如下操作 (1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop” 其中遇到的问题: 解决方法: (2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt,并在该文件 ...
分类:
其他好文 时间:
2020-02-06 23:29:09
阅读次数:
154
本次记录是用于:SparkStreaming对接Kafka、HBase记录 一、简介 ①HBase本身是一个菲关系型数据库,存储数据结构时以key-value结构来进行存储,HBase中的数据是稀疏的。 ②基于Hadoop运行,但是HBase的效率在秒级别 ③基于列存储:传统行存储方式在查询特定列时 ...
分类:
其他好文 时间:
2020-02-06 16:53:41
阅读次数:
101
sqoop是apache旗下,用于关系型数据库和hadoop之间传输数据的工具,sqoop可以用在离线分析中,将保存在mysql的业务数据传输到hive数仓,数仓分析完得到结果,再通过sqoop传输到mysql,最后通过web+echart来进行图表展示,更加直观的展示数据指标。 sqoop基础 基 ...
分类:
其他好文 时间:
2020-02-06 16:40:10
阅读次数:
80