码迷,mamicode.com
首页 >  
搜索关键字:spark 1.0.0    ( 7001个结果
Spark搭建注意事项若干要点
一、关于UI地址 master: 8080 worker: 8081 application: 4040 (用来查看正在运行的app的情况, 一旦这个应用结束, 则无法查看) 二、历史服务器(这里说明yarn模式) 1、 配置历史服务器 1)spark-defaults.conf 默认配置 spar ...
分类:其他好文   时间:2020-05-05 00:33:46    阅读次数:60
Spark Yarn部署时注意点
问题 为防止因为虚拟机内存过少,进程被杀死,需要关闭yarn的内存检测 yarn-site.xml <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-che ...
分类:其他好文   时间:2020-05-04 21:34:02    阅读次数:99
spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势
一、共性 1.1、RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,一个 RDD 就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层 API 进行并行处理。关于RDD的详细介绍可以参考这篇文章:https://www ...
分类:其他好文   时间:2020-05-04 17:33:48    阅读次数:56
spark集群环境搭建
spark
分类:其他好文   时间:2020-05-04 10:34:52    阅读次数:106
spark工作原理
1、分布式 2、基于内存 3、迭代式计算 每一批节点上的每一批数据就是一个RDD RDD是spark的核心抽象 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的 ...
分类:其他好文   时间:2020-05-03 20:41:36    阅读次数:61
从源码看Spark读取Hive表数据小文件和分块的问题
前言 有同事问到,Spark读取一张Hive表的数据Task有一万多个,看了Hive表分区下都是3MB~4MB的小文件,每个Task只处理这么小的文件,实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定,所以他想通过repartition(num)的方式来改变分区数, ...
分类:其他好文   时间:2020-05-03 12:43:20    阅读次数:54
spark系列-2、Spark 核心数据结构:弹性分布式数据集 RDD
一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象,也是最关键的抽象,它实质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RD ...
分类:其他好文   时间:2020-05-02 14:51:21    阅读次数:56
隐式装换
1 package com.ds 2 3 import org.apache.spark.sql.{Dataset, SparkSession} 4 5 object DataSet { 6 7 def main(args: Array[String]): Unit = { 8 val spark: ...
分类:其他好文   时间:2020-05-02 12:10:05    阅读次数:46
spark_sql_DataFromMysql_InferringSchema_SparkSqlSchema_SparkSqlToMysql_SparkStreaming_Flume_Poll
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:数据库   时间:2020-05-02 11:31:58    阅读次数:63
Spark Streaming
流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态 ...
分类:其他好文   时间:2020-05-01 17:08:46    阅读次数:96
7001条   上一页 1 ... 36 37 38 39 40 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!