码迷,mamicode.com
首页 >  
搜索关键字:scala bigdata 大數據 spark    ( 10680个结果
入门大数据---Spark_RDD
一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R ...
分类:其他好文   时间:2020-06-25 21:27:05    阅读次数:66
Spark的Join连接
Broadcast Join 适合情况,小表和大表,小表非常小,适合传播到各个节点。 当大表小表连接时,为了避免Shuffle,我们可以将小表广播到各个节点内存,供大表连接。一定程度上牺牲了空间,避免了Shuffle。这种Join在Spark中称作Broadcast Join。(需要注意的点是广播的 ...
分类:其他好文   时间:2020-06-24 16:28:44    阅读次数:53
kafka -> structuredStreaming读取kafka日志 ->自定义输出到mysql
package test import org.apache.spark.sql.{DataFrame, ForeachWriter, Row, SparkSession} import org.apache.spark.sql.streaming.{ProcessingTime, Trigger} ...
分类:数据库   时间:2020-06-24 16:23:50    阅读次数:132
windows环境下scala的安装
windows环境下scala的安装 1.下载 首先去官网http://www.scala-lang.org/,然后点击导航栏的DOWNLOAD,进入下载链接:http://www.scala-lang.org/download/直接点击上面的按钮下载Windows安装包, 2.安装 安装scala ...
分类:Windows程序   时间:2020-06-24 12:23:13    阅读次数:75
奈学教育《大数据架构师》课程大纲
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线架构和实时架构,带领大家构建
分类:其他好文   时间:2020-06-23 18:39:30    阅读次数:58
大数据Linux常用命令4
1.系统常用检查命令 1 磁盘 df -h 2 内存 free -m 3 负载 top 4 5 [hadoop@bigdata ~]$ free -m 6 total used free shared buff/cache available 7 Mem: 7823 222 6229 257 137 ...
分类:系统相关   时间:2020-06-23 15:37:42    阅读次数:82
奈学教育《大数据开发工程师》课程大纲
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目
分类:其他好文   时间:2020-06-22 19:15:45    阅读次数:50
奈学教育《大数据开发工程师》课程大纲
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用 ...
分类:其他好文   时间:2020-06-22 18:50:44    阅读次数:295
Scala IDEA安装配置入门HelloWorld
Scala IDEA安装入门 Scala Scala(发音为/?skɑ?l?, ?ske?l?/)是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala是一门以java虚拟机(JVM)为目标运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。 S ...
分类:其他好文   时间:2020-06-22 14:58:56    阅读次数:53
CDH6.3.2 集成flink的部署配置
CDH6.3.2集成flink的部署配置标签(空格分隔):大数据平台构建一:flink的简介二:cdh6.3.2集成flink一:flink的简介ApacheFlink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运
分类:其他好文   时间:2020-06-22 09:30:23    阅读次数:415
10680条   上一页 1 ... 37 38 39 40 41 ... 1068 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!