DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度...
分类:
数据库 时间:
2016-05-13 02:00:33
阅读次数:
275
Spark SQL加载数据
SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。
通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型:
SQLContext源码:
load 和sa...
分类:
数据库 时间:
2016-05-13 01:11:30
阅读次数:
350
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PAAS服务,在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云的技术专家给大家分享一则技术文:一个SparkSQL的作业的一生。
Spark是时下很火的计算框架,由UC Berke...
分类:
数据库 时间:
2016-05-12 13:32:27
阅读次数:
277
代码如下:packagecom.dt.spark.streaming
importorg.apache.spark.sql.SQLContext
importorg.apache.spark.{SparkContext,SparkConf}
importorg.apache.spark.streaming.{StreamingContext,Duration}
/**
*使用SparkStreaming结合SparkSQL对日志进行分析。
*假设电商网站点..
分类:
数据库 时间:
2016-05-05 07:09:52
阅读次数:
346
一.源码定制为什么从SparkStreaming切入?Spark一开始并没我们今天看到的SparkSQL,SparkStreaming,MLlib(machinelearning),GraphX(graph),SparkR等相关内容,只有原始的SparkCore。SparkStreaming本身是SparkCore上的一个框架,透过一个框架的彻底研究肯定可以精通Spark力量的..
分类:
其他好文 时间:
2016-05-03 02:07:56
阅读次数:
212
本节课内容:1、SparkStreaming另类在线实验解析2、SparkStreaming本质理解SparkStreaming是SparkCore上的一个子框架,如果我们能够完全精通这个子框架,我们就能够更好的驾驭Spark。SparkStreaming和SparkSQL是目前最流行的框架,从研究角度而言,SparkSQL有太多涉及到SQL优化..
分类:
其他好文 时间:
2016-05-02 17:15:27
阅读次数:
172
SparkIMF课程:第56课:SparkSQL和DataFrame的本质http://lqding.blog.51cto.com/9123978/1751056第57课:SparkSQLonHive配置及实战http://lqding.blog.51cto.com/9123978/1751100第94课:SparkStreaming实现广告计费系统中在线黑名单过滤实战http://lqding.blog.51cto.com/912..
分类:
其他好文 时间:
2016-05-01 17:55:18
阅读次数:
147
本期内容:SparkStreaming在线另类实验瞬间理解SparkStreaming的本质SparkStreaming是SparkCore上的一个子框架,如果我们能够完全精通了一个子框架,我们就能够更好的驾驭Spark。SparkStreaming和SparkSQL是目前最流行的框架,从研究角度而言,SparkSQL有太多涉及到SQL优化的问..
分类:
其他好文 时间:
2016-05-01 17:49:57
阅读次数:
239
最近一个项目,关于大数据的改造项目,底层选择Impala还是sparkSQL呢? 最后选择Impala.这样就开启了我的Impala学习之旅。我大部分负责Imapa接口开发工作。 我是控制不住的想整个都了解和学习。所有还在impala控制台各种测试和学习。差不多一两天就熟悉了基本的命令。 开发之前需 ...
分类:
其他好文 时间:
2016-04-01 14:45:52
阅读次数:
162
一、SparkSQL与DataframeSparkSQL之所以是除Sparkcore以外最大和最受关注的组件的原因:a)能处理一切存储介质和各种格式的数据(你同时可以方便的扩展SparkSQL的功能来支持更多的数据类型,例如KUDO)b)SparkSQL把数据仓库的计算能力推向了一个新的高度。不仅是无敌的计算速..
分类:
数据库 时间:
2016-03-15 00:43:35
阅读次数:
261