码迷,mamicode.com
首页 >  
搜索关键字:scala bigdata 大數據 spark    ( 10680个结果
大数据 hadoop ---- Sqoop、flume、chukwa
Sqoop 简介 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可 ...
分类:Web程序   时间:2020-02-18 12:47:15    阅读次数:149
Spark Streaming运行流程及源码解析(二)
Spark Streaming源码流程解析。 [toc] 写在前面 以下是我自己梳理了一遍Spark Streaming程序运行的流程,过程可能有点细、有点乱。 大家可以一边看我写的流程、一边跟着步骤点进去看源码,这样就不会太乱了。 跟着源码走一遍以后,对Spark Streaming的理解也就很清 ...
分类:其他好文   时间:2020-02-18 11:15:09    阅读次数:89
微软发布.NET版本的Spark,高效而强大
昨天看个帖子微软市值超过1万亿美刀,凭什么?我们可以找出很多理由,但是我认为和阿三CEO的开源战略关系很大。从开源.net到WSL到微软云微软从昔日的开源死敌,到今天的怀抱开源。日前在Spark + AI峰会上,微软发布了开源的.NET for Apache Spark,从而在大数据领域又添加了一枝 ...
分类:Web程序   时间:2020-02-18 09:15:05    阅读次数:238
Scala学习-变量常量、运算符、流程控制和函数
scala是马丁.奥德斯克设计的,专门为程序员设计,广泛应用于大数据的语言。它同时支持面向对象和面向函数编程,运行scala需基于JVM,使用它需要提前安装好JDK和scala SDK。scala的的代码一行可以顶多行java代码,开发效率高,并且兼容java类库,scala编译完也是.class文 ...
分类:其他好文   时间:2020-02-17 20:18:23    阅读次数:104
(2)spark运行模式
spark运行模式 下面我们来看一下spark的运行模式,根据上一篇博客我们知道spark的运行模式分为以下几种:local、standalone、hadoop yarn。我们说本地开发最好用local模式,直接搭建一个spark环境就可以跑了,因为测试的话本地是最方便的。standalone,用的 ...
分类:其他好文   时间:2020-02-17 18:05:26    阅读次数:86
卡夫卡快速入门
起源 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。此外,Kafk ...
分类:其他好文   时间:2020-02-17 14:03:42    阅读次数:83
spark的运行指标监控
sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis? 1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警 2.可以在sparkUi的基础上,添加一些自己想要指标统计 一、spark的SparkListenersparkListener是 ...
分类:其他好文   时间:2020-02-17 01:03:57    阅读次数:306
(1)spark核心RDD的概念解析、创建、以及相关操作
spark核心之RDD 什么是RDD RDD指的是弹性分布式数据集 ,它是spark计算的核心。尽管后面我们会使用DataFrame、Dataset进行编程,但是它们的底层依旧是依赖于RDD的。我们来解释一下RDD 的这几个单词含义。 + + + RDD是spark的一个最基本的抽象 ,它代表了不可 ...
分类:其他好文   时间:2020-02-17 00:57:46    阅读次数:125
Spark解析json
import org.apache.spark.{SparkConf, SparkContext} import scala.util.parsing.json.JSON object JSONParse { def main(args: Array[String]): Unit = { val i ...
分类:Web程序   时间:2020-02-17 00:45:38    阅读次数:120
Spark设置日志级别
默认是INFO级别,输出内容太多,影响真正输出结果的查找,需要修改成 WARN 或 ERROR 级别 1 spark根目录conf/log4j.properties.template拷贝到工程的resources目录下,并改名成 log4j.properties 2 修改log4j.properti ...
分类:其他好文   时间:2020-02-17 00:38:28    阅读次数:80
10680条   上一页 1 ... 77 78 79 80 81 ... 1068 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!