一、简介 hive运行的本质就是将hql语句,转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作,是hive执行hql语句的最小单位。 二、几个典型语句的分析 1、join 2、group by 3、order by shuffle 的排序,二 ...
分类:
其他好文 时间:
2019-06-30 18:45:07
阅读次数:
122
idea上的maven中的pom.xml文件 mapper reducer worldcount 本地模式 需要将 words.txt里面的内容 左侧applications下是WorldApp ,在Program arguments 输入你的文件位置,格式见下图 (注意不应该出现中文字符) 开始两 ...
分类:
其他好文 时间:
2019-06-30 12:45:00
阅读次数:
367
hadoop HA搭建参考:https://www.cnblogs.com/NGames/p/11083640.html (本节:用不到YARN 所以可以不用考虑部署YARN部分) Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格 ...
分类:
其他好文 时间:
2019-06-30 09:17:07
阅读次数:
122
* 如果是Ubuntu系统,下面的yum命令要换成apt-get命令。yum remove -> apt-get purgeyum list installed | grep -> sudo apt-cache search all | grep * yum的参数-y是过程中所有提示都自动选yes。 ...
分类:
其他好文 时间:
2019-06-28 14:28:45
阅读次数:
137
1.1 RDD为什么会产生? RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为 什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临 ...
分类:
其他好文 时间:
2019-06-25 09:46:32
阅读次数:
151
这里分五个步骤来记录Hadoop安装步骤,以及启动和运行Hadoop。 一是安装Java运行环境,二是安装Hadoop,三是修改Hadoop安装目录下的配置文件,四是启动Hadoop,五是运行一个Hadoop自带的mapreduce的实例。 Windows 10 JDK 1.8.0_73 Hadoo ...
一 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2019-06-22 19:45:45
阅读次数:
144
问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。 问题前提:老系统,当时设计系统的人大概是大学没毕业,表设计和sql语句写的不仅仅是垃圾,简直无法 ...
分类:
数据库 时间:
2019-06-20 15:41:23
阅读次数:
152
hive运行模式 hive on tez Tez是一个构建于YARN之上的支持复杂的DAG任务的数据处理框架。它由Hontonworks开源,它把mapreduce的过程拆分成若干个子过程,同时可以把多个mapreduce任务组合成一个较大的DAG任务,减少了mapreduce之间的文件存储,同时合 ...
分类:
其他好文 时间:
2019-06-18 13:49:20
阅读次数:
94
hadoop-env.sh:脚本中所用到的环境变量,以运行Hadoop mapred-env.sh:脚本中所用到的环境变量,以运行mapreduce yarn-env.sh:脚本中所用到的环境变量,以运行YARN core-site.xml:hadoop core 的配置选项,如HDFS,MapRe ...
分类:
其他好文 时间:
2019-06-17 10:52:44
阅读次数:
97