码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
Hadoop与HDFS
1.Hadoop与HDFS 的关系是什么? hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序, ...
分类:其他好文   时间:2018-11-30 15:36:52    阅读次数:180
Map Reduce
MapReduce客户端程序提交job之后,就会退出,那么如何判断mr程序有没有执行成功呢?1、到yarn的网页上看 8088端口;2、可以让客户端程序不退出,等待mr程序运行完成以后,再退出 具体实现,将客户端程序中 job.submit() 换成 job.waitForCompletion(tr ...
分类:其他好文   时间:2018-11-28 22:19:37    阅读次数:138
window 如何访问虚拟机的mapreduce(略写)
首先 先把你虚拟机和本机网络链接弄通 (详情看上一篇) 一些关于mapreduce 和hadoop的配置都在上一篇 安装eclipse 的hadoop Map/Reduce插件详情 看其他博客园......... 这里里面配置的是你windows下的hadoop 高版本貌似兼容低版本 下载请参考网上 ...
分类:Windows程序   时间:2018-11-27 22:07:30    阅读次数:370
mapreduce map 的个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。影响map个数(split个数)的主要因素有: 1) 文件的大小。当块(dfs.block.size)为128m时,如果输入文件为128m,会被划分为1个split;当块为256m ...
分类:其他好文   时间:2018-11-27 13:45:37    阅读次数:207
CentOS 下安装CDH及CM记录4
前面已经学习了如何将数据从关系型数据库导入到Hive/HDFS,并且在Windows客户端查询导入的数据,接下来继续学习CDH,知识点: 1、Hue环境中DB Query如何使用,DB Query这个功能是在Hue这个Web界面可以直接查询其他关系型数据库的数据,Hue在默认装完后是无法直接使用DB ...
分类:其他好文   时间:2018-11-27 11:19:11    阅读次数:165
[Demo_03] MapReduce 实现多类型输出
MapReduce 实现将最高气温统计数据输出为文本格式和 SequenceFile 格式 ...
分类:其他好文   时间:2018-11-27 01:38:01    阅读次数:138
Hadoop大数据通用处理平台
1.简介Hadoop是一款开源的大数据通用处理平台,其提供了分布式存储和分布式离线计算,适合大规模数据、流式数据(写一次,读多次),不适合低延时的访问、大量的小文件以及频繁修改的文件。*Hadoop由HDFS、YARN、MapReduce组成。Hadoop的特点:1.高扩展(动态扩容):能够存储和处理千兆字节数据(PB),能够动态的增加和卸载节点,提升存储能力(能够达到上千个节点)2.低成本:只需
分类:其他好文   时间:2018-11-26 20:01:57    阅读次数:198
window本地运行mapreduce程序
mapreduce的运行方式一般有两种,一是从本地导出一个jar包,在传到虚拟机上运行,这样调试起来非常的不方便,如果出现错误就需要重新导出jar包。 第二种方式是在本地直接运行,但是在运行前需要进行一些准备。我原来一直用的是方式一,由于需要,必须改成方式二,今天进行了相关的操作。 首先,需要准备w ...
分类:Windows程序   时间:2018-11-25 17:51:19    阅读次数:245
大数据处理为何选择Spark,而不是Hadoop
一.基础知识1.SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。Spark的各个组件2.HadoopHad
分类:其他好文   时间:2018-11-25 16:22:04    阅读次数:147
从分治算法到 MapReduce
从分治算法说起 要说 MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字 分而治之 。其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再分。直到最后的子问题可以简单得求解。 要具体介绍分治算法,那就不得不说一个很经典的排序算法 归并排序。这里不说它的 ...
分类:编程语言   时间:2018-11-23 20:45:37    阅读次数:241
4054条   上一页 1 ... 72 73 74 75 76 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!