上次在spark的一个群里面,众大神议论:dataset会取代rdd么? 大神1:听说之后的mlib都会用dataset来实现,呜呜,rdd要狗带 大神2:dataset主要是用来实现sql的,跟mlib没多大关系,你们说为什么要用dataset呢? 大神3:因为老板喜欢。 在市场上找一个会写sql ...
分类:
数据库 时间:
2016-07-01 13:14:51
阅读次数:
503
maven:3.3.9jdk:javaversion"1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x,执行如下脚本./dev/change-scala-version.sh2.11spark默认情况下用scala的2.10.5编译编译命令如下:mvn-Pyarn-Phadoop-2.6-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-Ds..
分类:
数据库 时间:
2016-05-31 10:43:09
阅读次数:
1194
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度...
分类:
数据库 时间:
2016-05-13 02:00:33
阅读次数:
275
Spark SQL加载数据
SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。
通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型:
SQLContext源码:
load 和sa...
分类:
数据库 时间:
2016-05-13 01:11:30
阅读次数:
350
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PAAS服务,在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云的技术专家给大家分享一则技术文:一个SparkSQL的作业的一生。
Spark是时下很火的计算框架,由UC Berke...
分类:
数据库 时间:
2016-05-12 13:32:27
阅读次数:
277
代码如下:packagecom.dt.spark.streaming
importorg.apache.spark.sql.SQLContext
importorg.apache.spark.{SparkContext,SparkConf}
importorg.apache.spark.streaming.{StreamingContext,Duration}
/**
*使用SparkStreaming结合SparkSQL对日志进行分析。
*假设电商网站点..
分类:
数据库 时间:
2016-05-05 07:09:52
阅读次数:
346
一.源码定制为什么从SparkStreaming切入?Spark一开始并没我们今天看到的SparkSQL,SparkStreaming,MLlib(machinelearning),GraphX(graph),SparkR等相关内容,只有原始的SparkCore。SparkStreaming本身是SparkCore上的一个框架,透过一个框架的彻底研究肯定可以精通Spark力量的..
分类:
其他好文 时间:
2016-05-03 02:07:56
阅读次数:
212
本节课内容:1、SparkStreaming另类在线实验解析2、SparkStreaming本质理解SparkStreaming是SparkCore上的一个子框架,如果我们能够完全精通这个子框架,我们就能够更好的驾驭Spark。SparkStreaming和SparkSQL是目前最流行的框架,从研究角度而言,SparkSQL有太多涉及到SQL优化..
分类:
其他好文 时间:
2016-05-02 17:15:27
阅读次数:
172
SparkIMF课程:第56课:SparkSQL和DataFrame的本质http://lqding.blog.51cto.com/9123978/1751056第57课:SparkSQLonHive配置及实战http://lqding.blog.51cto.com/9123978/1751100第94课:SparkStreaming实现广告计费系统中在线黑名单过滤实战http://lqding.blog.51cto.com/912..
分类:
其他好文 时间:
2016-05-01 17:55:18
阅读次数:
147
本期内容:SparkStreaming在线另类实验瞬间理解SparkStreaming的本质SparkStreaming是SparkCore上的一个子框架,如果我们能够完全精通了一个子框架,我们就能够更好的驾驭Spark。SparkStreaming和SparkSQL是目前最流行的框架,从研究角度而言,SparkSQL有太多涉及到SQL优化的问..
分类:
其他好文 时间:
2016-05-01 17:49:57
阅读次数:
239