SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的 DSL可以直接使用 scala 语言完成 Sql 查询,同时也使用? thriftserver 提供服务化的 Sql 查询功能。
分类:
数据库 时间:
2019-05-17 09:32:42
阅读次数:
200
1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不 ...
分类:
其他好文 时间:
2019-05-09 15:29:52
阅读次数:
89
1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS 海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->ssh ssm ,目的:简化开发! 是基于hadoop的数据分析应用的核心框架。 mapre ...
分类:
其他好文 时间:
2019-05-02 09:39:18
阅读次数:
137
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据。因此出现了很多流式实时计算框架,比如Storm,Spark Streaming,Samaz等框架,本文主要讲解Sp ...
分类:
其他好文 时间:
2019-04-30 17:19:01
阅读次数:
208
`作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy` 背景介绍 :将大规模流动数据在不断变化的运动过程中实现数据的实时分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。 主流流计算框架 :Kafka Streaming、Apac ...
分类:
Web程序 时间:
2019-04-17 16:30:16
阅读次数:
255
需要解决的: 如何为每个数据块分配一个Map计算任务,也就是代码是如何发送到数据块所在的服务器上面的,发送后如何启动的,启动之后如何知道自己需要计算的数据在文件什么位置(BlockID是什么)。 处于不同服务器的map输出的<key,value>,如何把相同的key聚合在一起发送给Reduce任务处 ...
分类:
其他好文 时间:
2019-04-02 21:02:25
阅读次数:
201
一、Mapreduce概述 Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发! Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。 二、Mapreduce优缺点 优点:1.易于编程:只用实现几个接口即可完成 ...
分类:
其他好文 时间:
2019-03-24 09:39:32
阅读次数:
136
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。 HDFS HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。 ...
分类:
其他好文 时间:
2019-03-15 19:05:06
阅读次数:
151
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 job ...
分类:
其他好文 时间:
2019-03-15 17:26:05
阅读次数:
157
1.Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Sha ...
分类:
数据库 时间:
2019-03-03 19:09:32
阅读次数:
221