本节课主要内容:1、RDD创建的几种方式2、RDD创建实战3、RDD内幕RDD创建有很多种方式,以下几种创建RDD的方式:1、使用程序中的集合创建RDD,实际意义用于测试用;2、使用本地文件系统创建RDD,测试大量数据的文件;3、使用HDFS创建RDD,最常用的方式;4、基于DB创建RDD;5、基..
分类:
其他好文 时间:
2016-05-14 01:15:21
阅读次数:
119
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度...
分类:
数据库 时间:
2016-05-13 02:00:33
阅读次数:
275
Spark SQL加载数据
SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。
通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型:
SQLContext源码:
load 和sa...
分类:
数据库 时间:
2016-05-13 01:11:30
阅读次数:
350
第99课:使用Spark Streaming 实战对论坛网站动态行为的多维度分析
/* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
/**
* *第99课:使用Spark Streaming 实战对论坛网站动态行为的多维度分析
* 论坛数据自动生成代码,该生成的数据会作为Producer的方式发送给...
分类:
编程语言 时间:
2016-05-12 22:46:54
阅读次数:
371
本节课程主要分二个部分:
一、Spark Streaming updateStateByKey案例实战
二、Spark Streaming updateStateByKey源码解密
第一部分:
updateStateByKey它的主要功能是随着时间的流逝,在Spark Streaming中可以为每一个key可以通过CheckPoint来维护一份state状态,通过更新函数对该k...
分类:
其他好文 时间:
2016-05-12 11:43:05
阅读次数:
176
《Hadoop实战》陆嘉恒 《Hadoop - The Definitive Guide》Tom White,中文版《Hadoop权威指南》 《Hadoop技术内幕-深入理解MapReduce架构设计与实现原理》董西成 《Hadoop技术内幕-深入解析HADOOP COMMON和HDFS架构设计与实 ...
分类:
其他好文 时间:
2016-05-10 23:26:40
阅读次数:
124
3.2MySQL数据类型
3.2.1数据类型概述
3.2.2表定义里的特殊列类型
3.2.3指定列的默认值...
分类:
数据库 时间:
2016-05-08 06:46:56
阅读次数:
234
3.1.2字符串值
3.1.2.1字符串类型与字符集支持
3.1.2.2字符集相关的系统变量...
分类:
数据库 时间:
2016-05-06 12:21:48
阅读次数:
235
Spark是分布式计算框架,多台机器之间必然存在着通信。Spark在早期版本采用Akka实现。现在在Akka的上层抽象出了一个RpcEnv。RpcEnv负责管理机器之间的通信。RpcEnv包含了如下三大核心:RpcEndpoint消息循环体,负责接收并处理消息。Spark中的Master、Worker都是RpcEndpoint。Rp..
分类:
Web程序 时间:
2016-05-06 02:28:50
阅读次数:
4751
一、到底什么是Shuffle?Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。二、Shuffle可能面临的问题?1,数据量非常大;2,数据如何分类,即如何Partition,Hash、Sort、钨丝计算;3,负载均衡(数据倾斜..
分类:
其他好文 时间:
2016-05-04 06:48:59
阅读次数:
195