码迷,mamicode.com
首页 >  
搜索关键字:spark 1.0.0    ( 7001个结果
Spark内存管理
1、spark的一大特性就是基于内存计算,Driver只保存任务的宏观性的元数据,数据量较小,且在执行过程中基本不变,不做重点分析,而真正的计算任务Task分布在各个Executor中,其中的内存数据量大,且会随着计算的进行会发生实时变化,所以Executor的内存管理才分析的重点。 2、在执行Sp ...
分类:其他好文   时间:2020-02-20 19:53:27    阅读次数:56
大数据技术学习之Spark技术总结
Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)。 1、Spark的核心是什么? RDD是Spark的基本抽象,是 ...
分类:其他好文   时间:2020-02-20 17:10:10    阅读次数:121
RDD、DataFrame和DataSet
https://blog.csdn.net/weixin_43087634/article/details/84398036 2、什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 3、RDD和DataFrame的区别 Da ...
分类:其他好文   时间:2020-02-20 09:59:48    阅读次数:70
大数据开发:Hadoop配置
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:其他好文   时间:2020-02-19 10:28:03    阅读次数:94
(3)spark核心概念以及运行架构
spark核心概念 我们之前介绍了spark的核心RDD,它是spark操作的基本单元。但是对于spark集群来说你还需要它的其它概念,比如我们操作RDD的时候,资源由谁来管理、任务由谁来执行等等。 + + + + + + + + + 东西有点多,我们可以梳理一下。假设我们有一个应用程序:appli ...
分类:其他好文   时间:2020-02-18 23:23:35    阅读次数:169
IDEA开发scala版本的spark程序
package com.gong import org.apache.spark.{SparkConf, SparkContext} object MyScalaWorldCount { def main(args: Array[String]): Unit = { //参数检测 if(args.l ...
分类:其他好文   时间:2020-02-18 18:56:10    阅读次数:75
Error: A JNI error has occurred, please check your installation and try again
ss java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function2 at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Cla ...
分类:其他好文   时间:2020-02-18 15:05:25    阅读次数:78
Spark Streaming运行流程及源码解析(二)
Spark Streaming源码流程解析。 [toc] 写在前面 以下是我自己梳理了一遍Spark Streaming程序运行的流程,过程可能有点细、有点乱。 大家可以一边看我写的流程、一边跟着步骤点进去看源码,这样就不会太乱了。 跟着源码走一遍以后,对Spark Streaming的理解也就很清 ...
分类:其他好文   时间:2020-02-18 11:15:09    阅读次数:89
微软发布.NET版本的Spark,高效而强大
昨天看个帖子微软市值超过1万亿美刀,凭什么?我们可以找出很多理由,但是我认为和阿三CEO的开源战略关系很大。从开源.net到WSL到微软云微软从昔日的开源死敌,到今天的怀抱开源。日前在Spark + AI峰会上,微软发布了开源的.NET for Apache Spark,从而在大数据领域又添加了一枝 ...
分类:Web程序   时间:2020-02-18 09:15:05    阅读次数:238
(2)spark运行模式
spark运行模式 下面我们来看一下spark的运行模式,根据上一篇博客我们知道spark的运行模式分为以下几种:local、standalone、hadoop yarn。我们说本地开发最好用local模式,直接搭建一个spark环境就可以跑了,因为测试的话本地是最方便的。standalone,用的 ...
分类:其他好文   时间:2020-02-17 18:05:26    阅读次数:86
7001条   上一页 1 ... 51 52 53 54 55 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!