前言 一个简单的理解:把SQL的一些操作应用在hadoop的HDFS上面。 数据库与数据仓库 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分 ...
分类:
其他好文 时间:
2020-05-28 23:08:21
阅读次数:
62
概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默 ...
分类:
其他好文 时间:
2020-05-28 18:13:32
阅读次数:
84
找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码 <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value ...
分类:
移动开发 时间:
2020-05-28 16:35:18
阅读次数:
115
create table toys.test (id int, x0 double, x1 double, x2 double, x3 double) row format delimited fields terminated by ',' stored as textfile; 先在hive 数 ...
分类:
其他好文 时间:
2020-05-28 16:09:46
阅读次数:
82
第一步环境准备: jdk安装,用户用组新建 useradd -m hadoop passwd hadoop 修改密码 添加用户hadoop到hadoop用户组 wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3. ...
分类:
其他好文 时间:
2020-05-27 20:47:07
阅读次数:
90
Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, d ...
分类:
其他好文 时间:
2020-05-27 15:57:13
阅读次数:
104
软件环境:VMware10.0,VMware10,ubuntu15.10桌面版(ubuntukylin-15.10-desktop-i386.iso),Apache hadoop(hadoop-1.2.1.tar.gz),JDK(jdk-8u11-linux-i586.tar.gz) 一 安装JDK ...
分类:
其他好文 时间:
2020-05-27 00:47:44
阅读次数:
69
题目三:使用Spark Core 统计文件中以spark开头的单词中,每个单词出现的次数(共计30分) spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...
分类:
其他好文 时间:
2020-05-26 22:06:21
阅读次数:
102
背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 1. exist 转换 为 ...
分类:
数据库 时间:
2020-05-25 19:47:59
阅读次数:
94
分布式缓存 分布式缓存的思想在hadoop和spark中都有体现,Flink 提供的分布式缓存类似 Hadoop,目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件,当前计算节点的 task 就像读取本地文件一样拉取这些配置。 比如在进行表与表 Join 操作时 ...
分类:
其他好文 时间:
2020-05-25 19:29:56
阅读次数:
60