1、分布式 2、基于内存 3、迭代式计算 每一批节点上的每一批数据就是一个RDD RDD是spark的核心抽象 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的 ...
分类:
其他好文 时间:
2020-05-03 20:41:36
阅读次数:
61
前言 有同事问到,Spark读取一张Hive表的数据Task有一万多个,看了Hive表分区下都是3MB~4MB的小文件,每个Task只处理这么小的文件,实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定,所以他想通过repartition(num)的方式来改变分区数, ...
分类:
其他好文 时间:
2020-05-03 12:43:20
阅读次数:
54
一、简介 Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 解决的问题: (1)海量数据的存储 [HDFS] (2)海量数据的分析 [MapReduce] (3)资源管理调度 [YARN] 二、hadoop架构 在其核心,Hadoop ...
分类:
其他好文 时间:
2020-05-03 10:26:41
阅读次数:
66
一、下载Hadoop包和JDK1、下载Hadoop地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz2、下载jdk:链接:https://pan.baidu.com/s/1lbu7eBEtgjeGIi2bWthLnA提取码:0j0j二、准备虚拟机1、在VMware中创建新的虚拟机(Cen
分类:
其他好文 时间:
2020-05-03 01:08:47
阅读次数:
68
一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象,也是最关键的抽象,它实质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RD ...
分类:
其他好文 时间:
2020-05-02 14:51:21
阅读次数:
56
1 package com.ds 2 3 import org.apache.spark.sql.{Dataset, SparkSession} 4 5 object DataSet { 6 7 def main(args: Array[String]): Unit = { 8 val spark: ...
分类:
其他好文 时间:
2020-05-02 12:10:05
阅读次数:
46
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:
数据库 时间:
2020-05-02 11:31:58
阅读次数:
63
流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态 ...
分类:
其他好文 时间:
2020-05-01 17:08:46
阅读次数:
96
Hive架构架构原理: 1.4.1 查询语言 由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的 查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 1.4.2 数据存储位置 Hive 是建立在 Hadoop 之上的,所有 H ...
分类:
其他好文 时间:
2020-05-01 16:26:49
阅读次数:
51
HbaseAPI创建表错误记录Demo方法:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDe