搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

RDD

弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机器学习领域很常见；二是交互式数据挖掘工具 ...

分类：其他好文时间：2020-02-09 23:55:54 阅读次数：139

Hadoop2.0之YARN组件

官方文档：https://hadoop.apache.org/docs/stable/，目前官方已经是3.x，但yarn机制没有太大变化一、简介在Hadoop1.0中，没有yarn，所有的任务调度和资源管理都是MapReduce自己来做，所以在Hadoop1.0中，最核心的节点是JobTrack ...

分类：其他好文时间：2020-02-07 16:24:04 阅读次数：62

运行MapReduce任务

1：运行MapReduce任务 1：原始数据准备统计用户的登录次数：源数据login_log.txt如下： 7whygb5m@linshiyouxiang.net nuahvuhuoia@qq.com uashkufawuk@163.com wafwqfqw@gmail.com iuhukawh ...

分类：其他好文时间：2020-02-07 01:22:05 阅读次数：64

【2020/2/2】寒假自学——学习进度报告9

因为想要通过hive作为数据库来保存爬取后和处理完成的数据，需要添加spark的hive支持，这方面还没编译完，所以今天暂时没有这方面的进度，所以写写SparkSteaming。数据的价值随着时间的流逝而减少这也正是MapReduce的使用范围所产生的的极大弊端，没法应对大流量的实时数据，MR这 ...

分类：其他好文时间：2020-02-02 21:59:34 阅读次数：95

寒假 2

2020.2.2今天的寒假生活学习了了解Spark 内存计算框架.Hadoop使用数据复制来实现容错性，而Spark使用RDD数据存储模型来实现数据的容错性。了解了 hadoop框架中的 HDFS（分布式文件系统） Mapreduce（分布式计算框架） map函数 Reduce （函数） YAR ...

分类：其他好文时间：2020-02-02 21:55:13 阅读次数：73

MapReduce和Hive学习文档链接学习顺序

1、《CentOS6.5下安装Hadoop-2.7.3（图解教程）》 https://www.toutiao.com/i6627365258090512909/ 2、《CentOS6.5-Hadoop2.7.3安装hive-2.1.1》 https://www.toutiao.com/i662772 ...

分类：其他好文时间：2020-02-02 14:10:28 阅读次数：109

爬取信件第二步简单清洗数据

继上次爬取完总体数据之后，这次我做的是将每个信件的网址使用MapReduce进行清洗出来，进而爬取出进一步的数据。通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下：咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su ...

分类：其他好文时间：2020-02-01 21:31:51 阅读次数：94

MapReduce面试题整理与收集

[Toc] 一、MapReduce基本常识二、MapReduce要点 1、combiner的组件需要注意什么？因为combiner在MapReduce过程中可能调用也可能不调用，可能调用一次也可能调用多次，无法确定和控制。所以，combiner的使用原则是：有或没有都不能影响业务逻辑，是不是用 ...

分类：其他好文时间：2020-02-01 16:01:53 阅读次数：95

hadoop之hadoop基础介绍

hadoop是什么？是一个分布式基础架构，主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本？ Apache、clourdera、Hortonworks hadoop优势？高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别？ HDFS（hadoop distribu ...

分类：其他好文时间：2020-01-30 14:29:07 阅读次数：79

Spark基础和RDD

spark 1. Spark的四大特性 1. 速度快 spark比mapreduce快的两个原因 1. 基于内存 2. 进程与线程 2. 易用性 1. 可以用java、scala、python、R等不同的语言来快速编写spark程序 3. 通用性 4. 兼容性 1. spark程序有多种运行模式 s ...

分类：其他好文时间：2020-01-29 10:40:55 阅读次数：58

共4100条上一页 1 ... 23 24 25 26 27 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)