Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同 ...
分类:
其他好文 时间:
2019-12-27 00:11:15
阅读次数:
106
MapReduce的工作流程 1.客户端将每个block块切片(逻辑切分),每个切片都对应一个map任务,默认一个block块对应一个切片和一个map任务,split包含的信息:分片的元数据信息,包含起始位置,长度,和所在节点列表等 2.map按行读取切片数据,组成键值对,key为当前行在源文件中的 ...
分类:
其他好文 时间:
2019-12-26 20:57:26
阅读次数:
74
概述HBase是谷歌公司BigTable的开源实现。BigTable是一个分布式存储系统,利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据,使用谷歌分布式文件系统GFS作为底层数据存储,并采用Chubby提供协同服务管理,可以扩展到PB级别的数据和上千台机器,具备广泛应用型、可扩展性... ...
分类:
其他好文 时间:
2019-12-26 11:13:14
阅读次数:
155
环境描述:redhat7.3 CDH5.15.1 采用parcels方式部署 报错描述:airflow调度程序,最近2周偶尔报错,报错类型有2类:1、无法初始化集群配置;2、读取配置权限问题 报错一: Launching Job 1 out of 1 Number of reduce tasks i ...
分类:
其他好文 时间:
2019-12-24 19:03:56
阅读次数:
337
在向Hbase中写入数据时,常见的写入方法有使用HBaseAPI,Mapreduce批量导入数据,使用这些方式带入数据时,一条数据写入到HBase数据库中的大致流程如图。数据发出后首先写入到雨鞋日志WAl中,写入到预写日志中之后,随后写入到内存MemStore中,最后在Flush到Hfile中。这样写数据的方式不会导致数据的丢失,并且道正数据的有序性,但是当遇到大量的数据写入时,写入的速度就难以保
分类:
其他好文 时间:
2019-12-23 11:44:43
阅读次数:
247
Flume和 Sqoop Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具 原理: 将导入或导出命令翻译成Mapreduce程序来实现。 在翻译出的Mapreduce中主要是对InputFormat和OutputFormat ...
分类:
Web程序 时间:
2019-12-21 22:39:42
阅读次数:
187
0x00couchdb简介 Apache CouchDB是一个开源数据库,专注于易用性和成为"完全拥抱web的数据库"。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的NoSQL数据库。应用广泛。 0x01两个漏洞的关系及原理 CVE-20 ...
分类:
数据库 时间:
2019-12-19 21:35:42
阅读次数:
110
1.1 本地运行器进行本地测试 写一个MapReduce驱动程序,执行job,实现tool接口,所以可以通过hadoop的命令行去设置为本地运行模式。实现tool的run函数,在run函数中创建job执行任务,输出结果。 1.1.1 本地任务执行器定义 package Temperature; im ...
分类:
其他好文 时间:
2019-12-15 12:37:28
阅读次数:
83
什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计;Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射 成一张表,并提供类SQL查询功能,底层计算引擎默认为Hadoop的MapReduce(本质是将sql转化成mapreduce程序),可以将引擎更 ...
分类:
其他好文 时间:
2019-12-14 15:25:15
阅读次数:
129
2019-12-11 Spark的框架体系 三个核心组件:SparkCore SparkSQL SparkStreaming Spark有三种部署模式:Stanalone Yarn Messos Spark和MapReduce之间区别 ***** 1.Spark把运算中数据放到内存中,迭代计算效率会 ...
分类:
其他好文 时间:
2019-12-11 21:33:03
阅读次数:
153