在安装完hive之后(hadoop-2.10.0安装hive-2.3.6),已经迫不及待的想尝试一下hive的一些用法,我们最常用的就是直接输入hive回车,使用的是cli(Command Line Interface )模式,下面介绍一下hive的使用以及一些常用的命令 1.首先查看hive帮助, ...
分类:
其他好文 时间:
2020-02-10 00:00:22
阅读次数:
99
摘要 通过实现MapReduce计算结果保存到MySql数据库过程,掌握多种方式保存计算结果的技术,加深了对MapReduce的理解; Api 文档地址:http://hadoop.apache.org/docs/current/api/index.html maven资源库:https://mvn ...
分类:
数据库 时间:
2020-02-09 23:58:39
阅读次数:
155
1131 cd /apps/hadoop/hdfs/namenode/ 1132 rm -rf current in_use.lock 1133 cd /apps/hadoop/hdfs/data/ 1134 rm -rf current in_use.lock 1135 cd /hadoop/hd ...
分类:
其他好文 时间:
2020-02-08 11:25:21
阅读次数:
80
公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址:https://hive.apache.org/downloads.html 找到自己h ...
分类:
其他好文 时间:
2020-02-08 00:22:59
阅读次数:
102
Scala需要使用java.io.PrintWriter实现把数据写入到文本文件。 采用相对路径时,当使用用户名hadoop登录Linux系统,打开Scala解释器进入命令提示符状态后,输入以下代码: scala> import java.io.PrintWriter import java.io. ...
分类:
其他好文 时间:
2020-02-08 00:12:18
阅读次数:
64
Spark写HBase 要通过Spark向 HBase 写入数据,我们需要用到PairRDDFunctions.saveAsHadoopDataset的方式。 package cn.com.win import org.apache.hadoop.hbase.HBaseConfiguration i ...
分类:
其他好文 时间:
2020-02-08 00:03:34
阅读次数:
53
官方文档:https://hadoop.apache.org/docs/stable/,目前官方已经是3.x,但yarn机制没有太大变化 一、简介 在Hadoop1.0中,没有yarn,所有的任务调度和资源管理都是MapReduce自己来做,所以在Hadoop1.0中,最核心的节点是JobTrack ...
分类:
其他好文 时间:
2020-02-07 16:24:04
阅读次数:
62
大数据的入门基础首先是hadoop,虽然很多年了,依然是宝刀未老,按网络的部署文章安装了一下,从版本多次选型,配置文件更改,bin目录覆盖,到运行中处理data文件的启动加载数据,不少坑爬,但是最后还是收获蛮大,开源软件就是有开源精神,Tomcat如果安装过,基本上也是大同小异,但是个人感觉还是要除 ...
分类:
系统相关 时间:
2020-02-07 01:34:14
阅读次数:
91
Hadoop是什么? 1. Hadoop是由Apache基金会所开发的分布式系统基础架构 2. 主要解决,海量数据的存储和海量数据的分析计算问题 3. 广义上来说,Hadoop通常是指一个更广泛的概念— Hadoop生态圈 Hadoop发展历史 1. Lucene框架是Doug Cutting开创的 ...
分类:
其他好文 时间:
2020-02-07 01:25:12
阅读次数:
79
1.hadoop集群的启动 cd $HADOOP_HOME //进入hadoop安装目录 sbin/start-dfs.sh //启动hdfs sbin/start-yarn.sh //启动yarn (或start-all.sh) 集群关闭: cd $HADOOP_HOME //进入hadoop安装 ...
分类:
系统相关 时间:
2020-02-07 00:58:00
阅读次数:
114