一、Spark概述 spark官网:spark.apache.org Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。 mapreduce(MR)与spark的对比: 1.MR在计算中产生的结果存储在磁盘上,s ...
分类:
其他好文 时间:
2019-01-13 00:18:41
阅读次数:
204
接下来通过一个实际的案例,介绍在MR编程中的,partition、sort、combiner。??流量统计项目案例数据样本:1363157984040136028465655C-0E-8B-8B-B6-00:CMCC120.197.40.42052.flash2-http.qq.com综合门户151219382910200字段介绍:需求:1、统计每一个用户(手机号)所耗费的总上行流量、总下行流量,
分类:
其他好文 时间:
2019-01-12 19:28:25
阅读次数:
189
https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行mapreduce。 简要流程 ...
分类:
其他好文 时间:
2019-01-12 16:44:16
阅读次数:
142
https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主 ...
分类:
其他好文 时间:
2019-01-12 15:26:19
阅读次数:
148
实验目标 搭建一个Hadoop系统,包含分布式文件系统HDFS、分布式计算框架MapReduce。 实验原理 Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上运行或重新运行。此外,Hadoop还 ...
分类:
其他好文 时间:
2019-01-12 10:31:40
阅读次数:
211
1.MapReduce的介绍: MapReduce是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce大体上分三个部分: -MRAppMaster:MapReduceApplicationMaster,分配任务,协调任务
分类:
其他好文 时间:
2019-01-11 20:41:52
阅读次数:
204
一:首先要将linux 和winodws的exlipse关联起来 第一步:在windows中部署hadoop包:解压一个hadoop压缩文件 第二步:将解压后的hadoop文件目录下的bin文件中的文件全部被替换成下面文件夹下的文件 第三步:将替换后的文件夹下的一个hadoop.dll复制到wind ...
分类:
编程语言 时间:
2019-01-11 15:56:53
阅读次数:
224
重点组件:HDFS:Hadoop的分布式文件存储系统MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型Hive:基于Hadoop的类SQL数据仓库工具HBase:基于Hadoop的列式分布式NoSQL数据库ZooKeeper:分布式协调服务组件Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库Oozie/Azkaban:工作流调度
分类:
其他好文 时间:
2019-01-11 14:19:16
阅读次数:
174
parquet列式文件实战 parquet code demo http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/ch3/parquet/Example ...
分类:
其他好文 时间:
2019-01-10 17:00:33
阅读次数:
120
背景介绍 使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎,它的框架使用MapReduce、TeZ 或者Spark 引擎去执行查询,而且它并不运行SQL,而是HiveQL,一种类似SQL 的语言,非常接近SQL。“SQL-in-Hadoop” 也不适用,虽然Hive 和Impala 主要 ...
分类:
数据库 时间:
2019-01-10 10:57:21
阅读次数:
251