码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark开发指南
简介总的来说,每一个Spark应用程序,都是由一个驱动程序组成,它运行用户的main函数,并且在一个集群上执行各种各样的并行操作。Spark提 供的主要的抽象(概念)是一个弹性分布式数据集,它是一个元素集合,划分到集群的不同节点上,可以被并行操作。RDDs的创建可以从Hadoop文件系统 (或者任何...
分类:其他好文   时间:2015-08-09 10:48:07    阅读次数:149
Spark 1.4.1中Beeline使用的gc overhead limit exceeded
最近使用SparkSQL做数据的打平操作,就是把多个表的数据经过关联操作导入到一个表中,这样数据查询的过程中就不需要在多个表中查询了,在数据量大的情况下,这样大大提高了查询效率。我启动了thriftserver,然后通过beeline去连接thriftserver, 打平操作进行的很顺利,但是在执行...
分类:其他好文   时间:2015-08-09 00:24:31    阅读次数:329
DT大数据梦工厂 第81讲
DT大数据梦工厂 第81讲http://yun.baidu.com/s/1uLFye本节王老师讲了list的逆变,协变,下界。abstaract class Big_Dataclass Hadoop extends Big_Data//一种 类型class Spark extends Big_Dat...
分类:其他好文   时间:2015-08-09 00:14:41    阅读次数:209
使用Snappy 压缩方式报错“java.lang.UnsatisfiedLinkError: no snappyjava in java.library.path”
情况描述其实这个问题已经困扰我很久了,最近在公司Linux上搭建hadoop 和 spark环境的时候,我就遇到 spark提交作业到yarn 集群就报错这个错,当时已经安装snappy环境了,任何关于snappy静态库都编译了,这是我提交到spark mail list上的http://apache-spark-user-list.1001560.n3.nabble.com/java-lang-U...
分类:移动开发   时间:2015-08-08 21:27:50    阅读次数:383
Apache Spark源码走读之2 -- Job的提交与运行
转载自:http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装sca...
分类:Web程序   时间:2015-08-08 18:06:52    阅读次数:123
Apache Spark源码走读之1 -- Spark论文阅读笔记
2015-08-08 16:16PM 公司加班
分类:Web程序   时间:2015-08-08 18:02:08    阅读次数:134
Spark Streaming编程示例
近期也有开始研究使用spark streaming来实现流式处理。本文以流式计算word count为例,简单描述如何进行spark streaming编程。1. 依赖的jar包参考《分别用Eclipse和IDEA搭建Scala+Spark开发环境》一文,pom.xml中指定依赖库spark-str...
分类:其他好文   时间:2015-08-08 01:16:50    阅读次数:152
Scala 深入浅出实战经典 第51讲:Scala中链式调用风格的实现代码实战及其在Spark中应用
王家林亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频、PPT、代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2U...
分类:其他好文   时间:2015-08-07 22:11:38    阅读次数:167
Hadoop实战第一篇
前言: 都说现在是草根为尊的时代,近年来hadoop及spark技术在国内越来越流行。而且渐渐现成为企业的新宠。在DT时代全面来临之前,能提早接触大数据的技术必然能先人一步。本文作为Hadoop系列的第一篇,将HDFS和MapRed两个技术核心用2个实例简单实现一些,希望能供hadoop入门的朋友....
分类:其他好文   时间:2015-08-07 21:51:27    阅读次数:152
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S...
分类:Windows程序   时间:2015-08-07 20:18:41    阅读次数:130
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!