码迷,mamicode.com
首页 >  
搜索关键字:MapReduce    ( 4054个结果
向hdfs上传文件,运行程序,查看结果
1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop ...
分类:Web程序   时间:2020-02-29 20:49:02    阅读次数:127
大数据05 MapReduce
MapReduce: 分布式并行编程, 也就是多台机器的 CPU 之间的并行编程. MapReduce 帮你自动实现底层. 分而治之的策略: 理念: 实例: 两个文件, 统计这两个文件中单词的个数 key:单词, value:出现次数 reduce: key - value list. 用 Iter ...
分类:其他好文   时间:2020-02-29 15:01:41    阅读次数:64
1,Hadoop知识储备
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:其他好文   时间:2020-02-29 00:17:31    阅读次数:101
hadoop-2.7.1伪分布环境搭建
1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo ...
分类:其他好文   时间:2020-02-27 19:16:47    阅读次数:75
spark计算模型
spark为什么比mapreduce快 mapreduce的数据处理过程是:把数据从磁盘读到内存,在内存中完成计算,再写回磁盘。下一个mr程序要继续对这批数据进行处理,又要重复这一过程。有多少个mr程序,就有多少次读磁盘和写磁盘的过程,效率低下。 spark的数据处理过程是:把数据读到内存之后,在多 ...
分类:其他好文   时间:2020-02-25 13:05:09    阅读次数:66
Hadoop基础---shuffle机制(进一步理解Hadoop机制)
一:MapReduce框架 (结合YARN框架) 补充:MapReduce框架知道我们写的map-reduce程序的运行逻辑。我们写的map-reduce中并没有管理层的任务运行分配逻辑,该逻辑被封装在MapReduce框架里面,被封装为MRAppMaster类,该类用于管理整个map-reduce ...
分类:其他好文   时间:2020-02-24 18:50:55    阅读次数:71
Hadoop基础---MapReduce对数据进行排序
承接上文:Hadoop基础 流量求和MapReduce程序及自定义数据类型 一:实验数据 对上一篇文章中的数据进行排序处理: 13480253104 180 200 380 13502468823 102 7335 7437 13560439658 5892 400 6292 13600217502 ...
分类:编程语言   时间:2020-02-23 20:01:26    阅读次数:85
Hadoop——MapReduce介绍
序言 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想。 MapReduce产生背景 如果让你统计日志里面的出现的某个URL的总次数,让你自己去写个单机版的程序,写个逻辑:无非就是读这个文件一行,然后把那个 ...
分类:其他好文   时间:2020-02-23 11:52:43    阅读次数:68
hadoop hdfs学习(一)
一、HDFS的简介及优缺点 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS ...
分类:其他好文   时间:2020-02-23 11:48:58    阅读次数:77
3.Spark 集群模式
Spark 集群模式 系统当前支持几种集群管理器: Standalone – 包含在spark中的一个简单集群管理器,它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器,也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...
分类:其他好文   时间:2020-02-22 14:09:44    阅读次数:86
4054条   上一页 1 ... 20 21 22 23 24 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!