Flume和 Sqoop Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具 原理: 将导入或导出命令翻译成Mapreduce程序来实现。 在翻译出的Mapreduce中主要是对InputFormat和OutputFormat ...
分类:
Web程序 时间:
2019-12-21 22:39:42
阅读次数:
187
0x00couchdb简介 Apache CouchDB是一个开源数据库,专注于易用性和成为"完全拥抱web的数据库"。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的NoSQL数据库。应用广泛。 0x01两个漏洞的关系及原理 CVE-20 ...
分类:
数据库 时间:
2019-12-19 21:35:42
阅读次数:
110
1.1 本地运行器进行本地测试 写一个MapReduce驱动程序,执行job,实现tool接口,所以可以通过hadoop的命令行去设置为本地运行模式。实现tool的run函数,在run函数中创建job执行任务,输出结果。 1.1.1 本地任务执行器定义 package Temperature; im ...
分类:
其他好文 时间:
2019-12-15 12:37:28
阅读次数:
83
什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计;Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射 成一张表,并提供类SQL查询功能,底层计算引擎默认为Hadoop的MapReduce(本质是将sql转化成mapreduce程序),可以将引擎更 ...
分类:
其他好文 时间:
2019-12-14 15:25:15
阅读次数:
129
2019-12-11 Spark的框架体系 三个核心组件:SparkCore SparkSQL SparkStreaming Spark有三种部署模式:Stanalone Yarn Messos Spark和MapReduce之间区别 ***** 1.Spark把运算中数据放到内存中,迭代计算效率会 ...
分类:
其他好文 时间:
2019-12-11 21:33:03
阅读次数:
153
大表和小表关联查询可以采用mapjoin优化查询速度。那什么是mapjoin呢?理解MapJoin之前先介绍另一种Join方式,CommonJoin。我们知道Hive编写SQL语句,Hive会将SQL解析成MapReduce任务。对于一个简单的关联查询,CommonJoin任务设计Map阶段和Red ...
分类:
其他好文 时间:
2019-12-11 21:07:29
阅读次数:
171
1、概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的架构如下图所示: 从Yarn的架构图来看,他主要由ResourceManager、NodeManager、Appli ...
分类:
其他好文 时间:
2019-12-10 20:58:51
阅读次数:
97
MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。 ...
分类:
其他好文 时间:
2019-12-07 01:25:25
阅读次数:
158
MapReduce可以实现一个简单的好友推荐,本文参考了文末博主的思路,个人感觉不错,自己修改部分代码也简单实现了,记录下。 数据准备 如下数据就是好友关系,同一行的两个人就是好友,需要在这数据里寻找两个人是否是潜在好友,即两人不是直接好友,但是却有共同的好友,需要将这样关系的两个人作为结果推荐出去 ...
分类:
其他好文 时间:
2019-12-07 01:05:23
阅读次数:
112
1. 前置条件: 已经安装好了带有HDFS, MapReduce, Yarn 功能的 Hadoop集群 链接: "ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建" 2. 上传tar包并解压到指定目录: 3. 修改hive配置文件: 新建文件夹 ...
分类:
其他好文 时间:
2019-12-02 13:51:54
阅读次数:
127