Spark从入门到上手实战

时间：2017-08-25 10:33:12 阅读：348 评论：0 收藏：0 [点我收藏+]

标签：

Spark从入门到上手实战
课程学习地址：http://www.xuetuwuyou.com/course/186
课程出自学途无忧网：http://www.xuetuwuyou.com
讲师：轩宇老师

课程简介：
Spark属于新起的基于内存处理海量数据的框架，由于其快速被众公司所青睐。Spark 生态栈框架，非常的强大，可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。目前绝大数公司都使用，主要在于 Spark SQL 结构化数据的处理，非常的快速，高性能。
基于Spark Core之上的流式处理和结构化数据查询，已被众多公司青睐，在企业中使用最广泛，很多大数据公司都在将以往RDBMS和 Hive中的数据处理，迁移使用Spark SQL。

课程目录：
第1章：SCALA编程（一）
1.大数据分析框架概要、Spark课程学习计划及建议
2.为什么学习SCALA语言及SCALA语言介绍和学习提纲
3.SCALA环境搭建及IDEA安装配置（JAVA安装、SCALA安装及IDEA安装））
4.SCALA语言HelloWorld及安装总结（作业LINUX系统安装）
5.SCALA中变量的声明（两种方式）
6.SCALA中数据类型及操作符
7.IF语句及WHILE循环、循环表达式及FOR基本使用
8.FOR循环深入讲解及yield功能
9.SCALA中的Breaks使用
10.函数的定义（如何确定一个函数）
11.函数的定义（各种情况下函数定义与使用）
12.函数的作用域、默认参数函数和名称参数函数使用详解
13.变长参数函数和内部函数使用详解
14.匿名函数定义与使用
15.高阶函数定义与使用
16.深入高阶函数的使用

第2章：SCALA编程（二）
17.数组Array和ArrayBuffer
18.SCALA中集合类Collections概要讲解
19.集合类之List和ListBuffer创建与基本操作
20.集合List中常见高阶函数使用详解（一）
21.集合List中常见高阶函数使用详解（二）
22.SCALA中元组创建与使用
23.集合类之Set及常见函数使用
24.集合类之Map创建与遍历
25.集合类综合应用：实现WordCount词频统计
26.类Class的定义与创建对象
27.对象object及apply方法
28.类class的构造方法（主构造方法和附属构造方法）
29.SCALA中的Trait初步使用
30.SCALA中异常的处理及模式匹配初步使用
31.模式匹配之匹配类型、元组
32. CaseClass及在模式匹配中使用
33.Option（Some、Node）及模式匹配使用
34.SCALA中隐式转换详解（结合案例）
35.SCALA中隐式参数详解（结合案例）
36.综合回顾复习SCALA的所有知识要点

第3章：Spark Core（一）
37.SPARK框架学习的基础及与Spark初步认识
38.Spark Feature详解及处理数据三步走策略
39.Spark 学习资源、源码下载及编译详解
40.SPARK 安装目录及使用的方便优点
41.Local Mode配置、启动spark-shell及运行程序测试
42.编程实现WordCount程序（类比MapReduce实现思路）
43.Spark Local Mode深入剖析详解
44.使用IDEA创建MAVEN工程及配置依赖
45.编写Spark Application开发模板
46.深入WordCount程序分析（sortByKey和top函数使用）
47.如何导入Spark源码至IDEA中（Windows下）
48.Spark Standalone 集群架构、配置、启动深入详解及运行spark-shell测试
49.浅析Spark Application运行Cluster组成及spark-submit提交应用
50.深入剖析Spark Application中Job、Stage和Task关系
51.案例：对原始数据进行清洗过滤及实现每日浏览量统计
52.案例：实现每日访客数统计及使用HiveQL进行结果验证、打包运行SparkStandalone集群

第4章：Spark Core（二）
53.Spark Application运行的Deploy Mode详解（结合案例演示）
54.使用spark-submit提交应用运行Standalone集群及性能调优
55.Spark Application运行的EventLog启用
56.Spark HistoryServer配置及使用
57.RDD是什么及创建方式
58.RDD操作类型及持久化详解
59.RDD中常用的Transformation和Action详解（一）
60.RDD中常用的Transformation和Action详解（二）
61.案例：分组排序TopKey实现及如何处理数据倾斜（分阶段聚合）
62.SparkOnYarn：运行SparkApplication在YARN上（编写脚本）
63.配置HIstoryServer及运行在YARN的两种Deploy Mode架构
64.官方案例：读取日志数据及正则解析（CASE CLASS）
65.官方案例：依据业务编码实现及熟悉RDD API
66.官方案例：其他业务编码实现测试及过滤数据
67.官方案例：RDD#top函数使用（自定义排序规则）及提交运行YARN集群
68.内核调度：Spark Job Scheduler详解（一）
69.内核调度：Spark Job Scheduler详解（二）

第5章：Spark SQL
70.SparkSQL的重要性及Spark2.x的生态圈
71.SparkSQL前世今生（Hive、Shark、SparkSQL）及初步使用说明
72.案例分析：基于DataFrame和SQL分析数据（一）
73.案例分析：基于DataFrame和SQL分析数据（二）
74.SparkSQL Introduction及处理数据的方式
75.SparkSQL与Hive集成配置详解
76.基于SQL和DSL方式分析处理Hive表的数据
77.SparkSQL中提供的spark-sql命令行的使用
78.SparkSQL中ThriftServer配置使用详解
79.SparkSQL性能优化及DataFrame是什么
80.SparkSQL读取多种数据数据实例
81.DataFrame实现多数据源数据的关联分析
82.SparkSQL读取AVRO格式数据详解
83.SparkSQL读取CSV或TSV格式数据详解
84.自定义schema的方式转换RDD为DataFrame及直接运行SQL在数据文件上
85.SparkSQL中自带函数的使用及如何自定义UDF、注册和使用
86.Spark 2.x中SparkSQL基本使用（一）
87.Spark 2.x中SparkSQL基本使用（二）

第6章：Spark Streaming及Kafka
88.大数据处理的类型、流式计算的框架及Streaming内容概要
89.SparkStreaming是什么、使用案例及数据处理流程
90.官方Example案例：词频统计运行详解
91.SparkStreaming编程实现从Socket读取数据实时统计分析
92.深入SparkStreaming运行的工作原理
93.深度剖析batch interval和block interval及性能优化
94.编程模型：从源码深入剖析DStream（StreamingContext、DStream操作）
95.深入详解DStream#foreachRDD使用
96.Apache Kafka介绍及架构详解
97.Apache Kafka安装、部署、启动
98.创建Topic、发送和消费数据及深入理解KAFKA数据的存储
99.剖析分享Kafka企业技术架构及使用（结合Kafka Meetup分享）
100.SparkStreaming与Flume和Kafka两种集成方式详解
101.采用Pull方式与Kafka集成进行数据分析处理
102.状态Stateful实时统计updataStateByKey使用
103.SparkStreaming实时分析应用的高可用性
104.实时窗口Window统计详解（reduceByKeyAndWindow使用）

第7章：基于Java和Python的Spark编程
105.基于Java和Python语言的Spark开发的提纲及学习方式
106.基于JAVA语言编写Spark Application编程模板、读取数据及测试监控
107.案例WordCount：结合源码编码实现JAVA语言编程
108.案例WordCount：对统计的词频进行降序排序（涉及TopKey）及作业说明
109.案例分析：基于JAVA实现如何将RDD转换为DataFrame
110.案例分析：使用SQL进行数据分析
111.案例分析：使用DSL进行数据分析及自定义UDF注册使用
112.SparkStreaming基于JAVA实现从Socket读取数据WordCount统计及测试
113.结合案例实现JAVA编程DStream#foreachRDD和从KAFKA读取数据
114结合案例讲解基于JAVA的updateState和window编程及作业
115.Python介绍、Windows下2.7的安装及测试
116.PyCharm安装、设置及创建工程和测试
117.PySpark第三方包的安装配置
118.基于Python的SparkCore编程模板
119.并行化本地集合创建RDD及RDD初步使用
120.Python中函数的定义及匿名函数lambda使用
121.PySpark实现WordCount程序及测试
122.PySpark实现从HDFS读取数据实现WordCount（属性配置）
123.深入WordCount程序之SortByKey
124.深入WordCount程序之TopKey
125.Anaconda2版本、安装、配置、使用及测试（针对pyspark编程）
126.Spark自带交互式pyspark命令的使用
127.pyspark底层架构及如何提交pyspark程序运行

第8章、SparkCore项目实战
128.项目实战：离线数据分析平台架构及处理处理流程
129.项目实战：如何将RDD数据保存到HBase表中
130：项目实战：如何从HBase表中读取数据
131：项目实战：日志数据ETL保存到HBase表（一）
132：项目实战：日志数据ETL保存到HBase表（二）
133：项目实战：日志数据ETL保存到HBase表（三）
134：项目实战：日志数据ETL保存到HBase表（四）
135：项目实战：从HBase表读取数据进行新增用户统计分析（一）
136：项目实战：从HBase表读取数据进行新增用户统计分析（二）
137：项目实战：从HBase表读取数据进行新增用户统计分析（三）
138：项目实战：从HBase表读取数据进行新增用户统计分析（四）
139：项目实战：部署运行（CLASSPATH设置）及Executor内存使用优化

零基础学大数据：
2017零基础大数据就业课程（全网最全,14个课程，65章，共计856课时！）
课程观看地址：http://www.xuetuwuyou.com/course/181

Spark从入门到上手实战

标签：

踩

(0)

评论一句话评论（0）

我是妈咪

加入时间：2016-10-14

关注此人发短消息

文章分类

默认分类（36）

“我是妈咪”关注的人------（0）

“我是妈咪”的粉丝们------（0）