码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
大数据开发:Hadoop配置
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:其他好文   时间:2020-02-19 10:28:03    阅读次数:94
(3)spark核心概念以及运行架构
spark核心概念 我们之前介绍了spark的核心RDD,它是spark操作的基本单元。但是对于spark集群来说你还需要它的其它概念,比如我们操作RDD的时候,资源由谁来管理、任务由谁来执行等等。 + + + + + + + + + 东西有点多,我们可以梳理一下。假设我们有一个应用程序:appli ...
分类:其他好文   时间:2020-02-18 23:23:35    阅读次数:169
IDEA开发scala版本的spark程序
package com.gong import org.apache.spark.{SparkConf, SparkContext} object MyScalaWorldCount { def main(args: Array[String]): Unit = { //参数检测 if(args.l ...
分类:其他好文   时间:2020-02-18 18:56:10    阅读次数:75
Error: A JNI error has occurred, please check your installation and try again
ss java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function2 at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Cla ...
分类:其他好文   时间:2020-02-18 15:05:25    阅读次数:78
Spark Streaming运行流程及源码解析(二)
Spark Streaming源码流程解析。 [toc] 写在前面 以下是我自己梳理了一遍Spark Streaming程序运行的流程,过程可能有点细、有点乱。 大家可以一边看我写的流程、一边跟着步骤点进去看源码,这样就不会太乱了。 跟着源码走一遍以后,对Spark Streaming的理解也就很清 ...
分类:其他好文   时间:2020-02-18 11:15:09    阅读次数:89
微软发布.NET版本的Spark,高效而强大
昨天看个帖子微软市值超过1万亿美刀,凭什么?我们可以找出很多理由,但是我认为和阿三CEO的开源战略关系很大。从开源.net到WSL到微软云微软从昔日的开源死敌,到今天的怀抱开源。日前在Spark + AI峰会上,微软发布了开源的.NET for Apache Spark,从而在大数据领域又添加了一枝 ...
分类:Web程序   时间:2020-02-18 09:15:05    阅读次数:238
(2)spark运行模式
spark运行模式 下面我们来看一下spark的运行模式,根据上一篇博客我们知道spark的运行模式分为以下几种:local、standalone、hadoop yarn。我们说本地开发最好用local模式,直接搭建一个spark环境就可以跑了,因为测试的话本地是最方便的。standalone,用的 ...
分类:其他好文   时间:2020-02-17 18:05:26    阅读次数:86
基于ssm框架开发的零食商城源码
很多朋友说要分享一些基于ssm框架开发的项目,在休闲时间搭建和撸一个以ssm框架开发的零食商城源码,详情如下,希望大家能够见解和学习。 首先ssm定义是框架集由Spring、MyBatis两个开源框架整合而成(SpringMVC是Spring中的部分内容),在开发上前后分离,耦合度小,且开发方便快速 ...
分类:其他好文   时间:2020-02-17 14:28:16    阅读次数:251
spark的运行指标监控
sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis? 1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警 2.可以在sparkUi的基础上,添加一些自己想要指标统计 一、spark的SparkListenersparkListener是 ...
分类:其他好文   时间:2020-02-17 01:03:57    阅读次数:306
(1)spark核心RDD的概念解析、创建、以及相关操作
spark核心之RDD 什么是RDD RDD指的是弹性分布式数据集 ,它是spark计算的核心。尽管后面我们会使用DataFrame、Dataset进行编程,但是它们的底层依旧是依赖于RDD的。我们来解释一下RDD 的这几个单词含义。 + + + RDD是spark的一个最基本的抽象 ,它代表了不可 ...
分类:其他好文   时间:2020-02-17 00:57:46    阅读次数:125
7287条   上一页 1 ... 56 57 58 59 60 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!