弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具 ...
分类:
其他好文 时间:
2020-02-09 23:55:54
阅读次数:
139
官方文档:https://hadoop.apache.org/docs/stable/,目前官方已经是3.x,但yarn机制没有太大变化 一、简介 在Hadoop1.0中,没有yarn,所有的任务调度和资源管理都是MapReduce自己来做,所以在Hadoop1.0中,最核心的节点是JobTrack ...
分类:
其他好文 时间:
2020-02-07 16:24:04
阅读次数:
62
1:运行MapReduce任务 1:原始数据准备 统计用户的登录次数: 源数据login_log.txt如下: 7whygb5m@linshiyouxiang.net nuahvuhuoia@qq.com uashkufawuk@163.com wafwqfqw@gmail.com iuhukawh ...
分类:
其他好文 时间:
2020-02-07 01:22:05
阅读次数:
64
因为想要通过hive作为数据库来保存爬取后和处理完成的数据,需要添加spark的hive支持,这方面还没编译完,所以今天暂时没有这方面的进度,所以写写SparkSteaming。 数据的价值随着时间的流逝而减少 这也正是MapReduce的使用范围所产生的的极大弊端,没法应对大流量的实时数据,MR这 ...
分类:
其他好文 时间:
2020-02-02 21:59:34
阅读次数:
95
2020.2.2今天的寒假生活学习了了解Spark 内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。 了解了 hadoop框架 中的 HDFS(分布式文件系统) Mapreduce(分布式计算框架) map函数 Reduce (函数) YAR ...
分类:
其他好文 时间:
2020-02-02 21:55:13
阅读次数:
73
1、《CentOS6.5下安装Hadoop-2.7.3(图解教程)》 https://www.toutiao.com/i6627365258090512909/ 2、《CentOS6.5-Hadoop2.7.3安装hive-2.1.1》 https://www.toutiao.com/i662772 ...
分类:
其他好文 时间:
2020-02-02 14:10:28
阅读次数:
109
继上次爬取完总体数据之后,这次我做的是将每个信件的网址使用MapReduce进行清洗出来,进而爬取出进一步的数据。 通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下: 咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su ...
分类:
其他好文 时间:
2020-02-01 21:31:51
阅读次数:
94
[Toc] 一、MapReduce基本常识 二、MapReduce要点 1、combiner的组件需要注意什么? 因为combiner在MapReduce过程中可能调用也可能不调用,可能调用一次也可能调用多次,无法确定和控制。 所以,combiner的使用原则是:有或没有都不能影响业务逻辑,是不是用 ...
分类:
其他好文 时间:
2020-02-01 16:01:53
阅读次数:
95
hadoop是什么? 是一个分布式基础架构,主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本? Apache、clourdera、Hortonworks hadoop优势? 高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别? HDFS(hadoop distribu ...
分类:
其他好文 时间:
2020-01-30 14:29:07
阅读次数:
79
spark 1. Spark的四大特性 1. 速度快 spark比mapreduce快的两个原因 1. 基于内存 2. 进程与线程 2. 易用性 1. 可以用java、scala、python、R等不同的语言来快速编写spark程序 3. 通用性 4. 兼容性 1. spark程序有多种运行模式 s ...
分类:
其他好文 时间:
2020-01-29 10:40:55
阅读次数:
58