码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
Hive学习(八) 排序:order by、sort by、distribute by、cluster by
hive中有四种排序: 1、全局排序:order by 2、内部排序:sort by 3、分区排序:distribute by 4、组合排序:cluster by 全局排序:order by 说明:全局排序是在一个MapReduce中进行排序的。 参数: ASC:是升序的意思和mysql一样,同时也 ...
分类:编程语言   时间:2019-07-26 14:26:15    阅读次数:113
Azakaban
大数据技术之Azkaban 一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作 ...
分类:其他好文   时间:2019-07-26 09:15:11    阅读次数:265
mapreduce 对文件分词读取
MapReduce 实例一:(进行文件的分词读取) 1.1 首先导入架包 1.2 编写Mapper 1.3 编写Reduce 1.4 编写job驱动 1.5 在hsfs 中的方法: [root@head42 ~]# hadoop jar mapreduce-1.0-SNAPSHOT.jar com. ...
分类:其他好文   时间:2019-07-25 00:53:34    阅读次数:184
mapreduce 基础内容
MapReduce:分布式计算框架,用来分解大数据量的处理 Map阶段对数据集上的独立元素进行指定的操作,生成键值对形成中间结果,Reduce阶段对中间结果中相同的键的所有值进行规约,以得到最终的结果。 优点: 1)易于编程:简单的实现一些接口 2)可扩展性当计算资源不足时,通过增加机器可以扩展他的 ...
分类:其他好文   时间:2019-07-25 00:30:32    阅读次数:124
Hadoop之伪分布式安装
一、Hadoop的安装模式有3种 ①单机模式:不能使用HDFS,只能使用MapReduce,所以单击模式主要用于测试MR程序。 ②伪分布式模式:用多个线程模拟真实多台服务器,即模拟真实的完全分布式环境。 ③完全分布式模式:用多台机器(或启动多个虚拟机)来完成部署集群。 二、安装主要涉及以下内容: ① ...
分类:其他好文   时间:2019-07-25 00:07:47    阅读次数:137
Spark与MR异同
Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下: 1、spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响 ...
分类:其他好文   时间:2019-07-22 20:04:25    阅读次数:397
flink 并行计数器实现
1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。 flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。 计数的结果通过JobExecutionResul的getAccumulatorResult方法t获取。 2、示例,在正常业 ...
分类:其他好文   时间:2019-07-21 13:33:08    阅读次数:83
Storm 测试
本文将学习如何使用java创建Storm拓扑并将其部署到Storm集群。 Storm集群的组件 Storm集群类似于Hadoop集群,只不过 Hadoop 上运行"MapReduce jobs", Storm 上运行"topologies"。 两者最大的差别是,MapReducejobs 最终是完成 ...
分类:其他好文   时间:2019-07-19 12:40:50    阅读次数:96
利用Vulnhub复现漏洞 - Couchdb 任意命令执行漏洞(CVE-2017-12636)
漏洞原理:ApacheCouchDB是一个开源数据库,专注于易用性和成为"完全拥抱web的数据库"。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的NoSQL数据库。应用广泛,如BBC用在其动态内容展示平台,CreditSuisse用在其内部的商品部门的市场框架,Meebo,用在其社交平台(web和应用程序)。在201
分类:数据库   时间:2019-07-18 09:26:28    阅读次数:173
利用Vulnhub复现漏洞 - Couchdb 垂直权限绕过漏洞(CVE-2017-12635)
漏洞原理:ApacheCouchDB是一个开源数据库,专注于易用性和成为"完全拥抱web的数据库"。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的NoSQL数据库。应用广泛,如BBC用在其动态内容展示平台,CreditSuisse用在其内部的商品部门的市场框架,Meebo,用在其社交平台(web和应用程序)。在201
分类:数据库   时间:2019-07-17 16:55:47    阅读次数:142
4054条   上一页 1 ... 44 45 46 47 48 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!