搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

Spark原理及关键技术点

Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同 ...

分类：其他好文时间：2019-12-27 00:11:15 阅读次数：106

MapReduce的工作流程

MapReduce的工作流程 1.客户端将每个block块切片（逻辑切分），每个切片都对应一个map任务，默认一个block块对应一个切片和一个map任务，split包含的信息：分片的元数据信息，包含起始位置，长度，和所在节点列表等 2.map按行读取切片数据，组成键值对，key为当前行在源文件中的 ...

分类：其他好文时间：2019-12-26 20:57:26 阅读次数：74

HBase学习解析之起源.md

概述HBase是谷歌公司BigTable的开源实现。BigTable是一个分布式存储系统，利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据，使用谷歌分布式文件系统GFS作为底层数据存储，并采用Chubby提供协同服务管理，可以扩展到PB级别的数据和上千台机器，具备广泛应用型、可扩展性... ...

分类：其他好文时间：2019-12-26 11:13:14 阅读次数：155

cdh 系统配置文件更新 error parsing conf core-site.xml

环境描述：redhat7.3 CDH5.15.1 采用parcels方式部署报错描述：airflow调度程序，最近2周偶尔报错，报错类型有2类：1、无法初始化集群配置；2、读取配置权限问题报错一： Launching Job 1 out of 1 Number of reduce tasks i ...

分类：其他好文时间：2019-12-24 19:03:56 阅读次数：337

使用BulkLoad从HDFS批量导入数据到HBase

在向Hbase中写入数据时，常见的写入方法有使用HBaseAPI，Mapreduce批量导入数据，使用这些方式带入数据时，一条数据写入到HBase数据库中的大致流程如图。数据发出后首先写入到雨鞋日志WAl中，写入到预写日志中之后，随后写入到内存MemStore中，最后在Flush到Hfile中。这样写数据的方式不会导致数据的丢失，并且道正数据的有序性，但是当遇到大量的数据写入时，写入的速度就难以保

分类：其他好文时间：2019-12-23 11:44:43 阅读次数：247

Flume和 Sqoop

Flume和 Sqoop Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具原理: 将导入或导出命令翻译成Mapreduce程序来实现。在翻译出的Mapreduce中主要是对InputFormat和OutputFormat ...

分类：Web程序时间：2019-12-21 22:39:42 阅读次数：187

Couchdb垂直权限绕过到命令执行

0x00couchdb简介 Apache CouchDB是一个开源数据库，专注于易用性和成为"完全拥抱web的数据库"。它是一个使用JSON作为存储格式，JavaScript作为查询语言，MapReduce和HTTP作为API的NoSQL数据库。应用广泛。 0x01两个漏洞的关系及原理 CVE-20 ...

分类：数据库时间：2019-12-19 21:35:42 阅读次数：110

6.4hadoop idea本地运行器测试

1.1 本地运行器进行本地测试写一个MapReduce驱动程序，执行job，实现tool接口，所以可以通过hadoop的命令行去设置为本地运行模式。实现tool的run函数，在run函数中创建job执行任务，输出结果。 1.1.1 本地任务执行器定义 package Temperature; im ...

分类：其他好文时间：2019-12-15 12:37:28 阅读次数：83

Hive架构原理

什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计；Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能，底层计算引擎默认为Hadoop的MapReduce（本质是将sql转化成mapreduce程序），可以将引擎更 ...

分类：其他好文时间：2019-12-14 15:25:15 阅读次数：129

spark框架体系及spark和MR的区别

2019-12-11 Spark的框架体系三个核心组件：SparkCore SparkSQL SparkStreaming Spark有三种部署模式：Stanalone Yarn Messos Spark和MapReduce之间区别 ***** 1.Spark把运算中数据放到内存中，迭代计算效率会 ...

分类：其他好文时间：2019-12-11 21:33:03 阅读次数：153

共4100条上一页 1 ... 28 29 30 31 32 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)